Evaluating large and small language models for programming problem solving.

Please use this identifier to cite or link to this item: https://dspace.sti.ufcg.edu.br/handle/riufcg/42745

Title:	Evaluating large and small language models for programming problem solving.
Other Titles:	Avaliando modelos de linguagem grandes e pequenos para resolução de problemas de programação.
???metadata.dc.creator???:	SOUZA, Débora Lêda de Lucena.
???metadata.dc.contributor.advisor1???:	GHEYI, Rohit.
???metadata.dc.contributor.referee1???:	RIBEIRO, Márcio de Medeiros.
???metadata.dc.contributor.referee2???:	SOARES, Gustavo Araújo.
Keywords:	Software engineering;Large language models;Small language models;Code generation;Code generation evaluation;Engenharia de software;Modelos de linguagem grandes;Modelos de linguagem pequenos;Geração de código;Avaliação de geração de código
Issue Date:	24-Feb-2025
Publisher:	Universidade Federal de Campina Grande
Citation:	SOUZA, Débora Lêda de Lucena. Evaluating large and small language models for programming problem solving. 2025. 90 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.
???metadata.dc.description.resumo???:	A transformação de linguagem natural em código está evoluindo rapidamente, impulsionada por avanços em Grandes e Pequenos Modelos de Linguagem (LLMs e SLMs). Embora demonstrem grande potencial na geração de código, a eficácia desses modelos em cenários reais de programação ainda é incerta, especialmente considerando diferentes tipos de problemas e níveis de dificuldade. Este estudo avalia a acurácia de Grandes Modelos de Linguagem (GPT-4, LLAMA 3, CLAUDE 3 SONNET e GEMINI PRO 1.0) em 100 problemas do LeetCode e BeeCrowd, além de investigar o desempenho de Pequenos Modelos de Linguagem (LLAMA 3.2 3B, GEMMA 2 9B, PHI-4 14Be DEEPSEEK-R1 14B) em 280 problemas do Codeforces. Os resultados mostram que, no grupo de LLMs, o GPT-4 liderou com 78 soluções corretas, evidenciando maior facilidade em problemas de nível mais baixo. Já entre os SLMs, o PHI-4 14B destaca-se ao resolver 63% dos problemas, superando significativamente os outros modelos, que apresentaram taxas inferiores a 23%. Esses achados indicam o potencial dos LLMs e SLMs como assistentes de codificação, mas também ressaltam a variação significativa nas taxas de sucesso conforme a complexidade dos problemas. Portanto, apesar de auxiliarem de forma relevante, não devem ser adotados como soluções autônomas. No caso dos SLMs, embora o PHI-4 14B apresente resultados promissores, ainda há limitações.
Abstract:	The transformation of natural language into code is evolving rapidly, driven by advances in Large and Small Language Models (LLMs and SLMs). Although it demonstrates great potential in code generation, the effectiveness of these models in real programming scenarios is still uncertain, especially considering different types of problem and levels of difficulty. This study evaluates the accuracy of Large Language Models (GPT-4, LLAMA 3, CLAUDE 3 SONNET and GEMINI PRO 1.0) on 100 LeetCode and BeeCrowd problems, in addition to investigating the performance of Small Language Models (LLAMA 3.2 3B, GEMMA 2 9B, PHI-4 14Band DEEPSEEK-R1 14B) on 280 Codeforces problems. The results show that, in the group of LLMs, GPT-4 led with 78 correct solutions, showing greater ease in lower-level problems. Among SLMs, PHI-4 14B stands out by solving 63% of problems, significantly outperforming other models, which apply rates lower than 23%. These results indicate the potential of LLMs and SLMs as settlement residents, but also highlight the significant variation in success rates depending on the complexity of the problems. Therefore, despite helping significantly, they should not be adopted as independent solutions. In the case of SLMs, although PHI-4 14B presents promising results, there are still limitations.
Keywords:	Software engineering Large language models Small language models Code generation Code generation evaluation Engenharia de software Modelos de linguagem grandes Modelos de linguagem pequenos Geração de código Avaliação de geração de código
???metadata.dc.subject.cnpq???:	Ciência da Computação.
URI:	https://dspace.sti.ufcg.edu.br/handle/riufcg/42745
Appears in Collections:	Mestrado em Ciência da Computação.

Files in This Item:

File	Description	Size	Format
DÉBORA LÊDA DE LUCENA SOUZA - DISSERTAÇÃO (PPGCC) - 2025.pdf		1.47 MB	Adobe PDF	View/Open

Show full item record