Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.

Please use this identifier to cite or link to this item: https://dspace.sti.ufcg.edu.br/jspui/handle/riufcg/41048

Full metadata record

DC Field	Value	Language
dc.creator.ID	SOUSA, H. N. F.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/2201042413775848	pt_BR
dc.contributor.advisor1	SANTOS, Danilo Freire de Souza.	-
dc.contributor.advisor1ID	Danilo F. S. Santos.	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/9890987649970131	pt_BR
dc.contributor.advisor-co1	PERKUSICH, Mirko Barbosa.	-
dc.contributor.advisor-co1ID	PERKUSICH, M. B.	pt_BR
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/3250186213608951	pt_BR
dc.contributor.referee1	GORGÔNIO, Kyller Costa.	-
dc.contributor.referee2	ALBUQUERQUE, Danyllo Wagner.	-
dc.description.resumo	OBehavior-Driven Development (BDD) é essencial no desenvolvimento de software mod erno, com a linguagem Gherkin sendo crucial para especificar cenários de teste. No entanto, a criação manual desses cenários é demorada e propensa a erros. Os Grandes Modelos de Linguagem (LLM) surgem como uma solução inovadora para automatizar e otimizar esse processo, oferecendo uma alternativa mais eficiente e confiável. Neste estudo, investigamos a eficácia de seis LLM (GPT-3.5 Turbo, GPT-4 Turbo, GPT 4o Mini, LLaMA 3, Phi-3 e Gemini) na geração automatizada de cenários Gherkin a partir de 1.286 cenários de teste reais. Aplicamos diferentes técnicas de prompting, como zero shot, one-shot e few-shot, para avaliar a qualidade e a consistência das saídas produzidas. O objetivo foi identificar a técnica e o modelo mais adequados para a criação de cenários BDD. Para conduzir a análise, foram selecionadas medidas de avaliação de qualidade e variabil idade, que foram correlacionadas com avaliações qualitativas realizadas por especialistas. Isso garantiu a escolha de métricas representativas que refletem adequadamente a qualidade dos cenários gerados. Além disso, análises estatísticas foram realizadas para verificar a ex istência de diferenças significativas entre os modelos e técnicas aplicadas, assegurando a robustez metodológica do estudo. A análise de variabilidade apontou que a consistência dos modelos depende da técnica utilizada: em zero-shot, o Gemini foi mais consistente, enquanto LLaMA 3 e GPT-3.5 Turbo apresentaram maior variabilidade. Em one-shot, GPT-4o Mini e GPT-4 Turbo se destacaram pela estabilidade, ao passo que em few-shot, GPT-4o Mini e LLaMA 3 foram os mais es táveis. A análise de desempenho revelou que a técnica zero-shot foi a mais eficaz em diversos contextos, especialmente quando aplicada ao modelo Gemini. No entanto, análises estatís ticas, como o teste de Kruskal-Wallis, demonstraram que as diferenças observadas entre os modelos não foram estatisticamente significativas.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.program	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Computação.	pt_BR
dc.subject.cnpq	Informática.	pt_BR
dc.title	Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin.	pt_BR
dc.date.issued	2025-01-31	-
dc.description.abstract	Behavior-Driven Development (BDD) is essential in modern software development, with the Gherkin language playing a crucial role in specifying test scenarios. However, the manual creation of these scenarios is time-consuming and error-prone. Large Language Models (LLMs) emerge as an innovative solution to automate and optimize this process, offering a more efficient and reliable alternative. In this study, we investigated the effectiveness of six LLMs (GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o Mini, LLaMA 3, Phi-3, and Gemini) in the automated generation of Gherkin scenarios from 1,286 real-world test scenarios. We applied different prompting techniques, such as zero-shot, one-shot, and few-shot, to evaluate the quality and consistency of the gen erated outputs. The goal was to identify the most suitable technique and model for creating BDDscenarios. To conduct the analysis, we selected quality and variability evaluation measures, which were correlated with qualitative assessments performed by experts. This ensured the choice of representative metrics that adequately reflect the quality of the generated scenarios. Addi tionally, statistical analyses were performed to verify the existence of significant differences between the models and techniques applied, ensuring the methodological robustness of the study. The variability analysis indicated that the consistency of the models depends on the tech nique used: in zero-shot, Gemini was more consistent, while LLaMA 3 and GPT-3.5 Turbo showed higher variability. In one-shot, GPT-4o Mini and GPT-4 Turbo stood out for their stability, whereas in few-shot, GPT-4o Mini and LLaMA 3 were the most stable. The per formance analysis revealed that the zero-shot technique was the most effective in various contexts, especially when applied to the Gemini model. However, statistical analyses, such as the Kruskal-Wallis test, demonstrated that the observed differences between the models were not statistically significant.	pt_BR
dc.identifier.uri	https://dspace.sti.ufcg.edu.br/jspui/handle/riufcg/41048	-
dc.date.accessioned	2025-03-14T12:25:35Z	-
dc.date.available	2025-03-14	-
dc.date.available	2025-03-14T12:25:35Z	-
dc.type	Dissertação	pt_BR
dc.subject	Behavior-Driven Development (BDD)	pt_BR
dc.subject	Gherkin	pt_BR
dc.subject	Modelos de linguagem de grande escala	pt_BR
dc.subject	Geração automatizada de cenários	pt_BR
dc.subject	Avaliação de qualidade	pt_BR
dc.subject	Análise de variabilidade	pt_BR
dc.subject	Large-scale language models	pt_BR
dc.subject	Automated scenario generation	pt_BR
dc.subject	Quality assessment	pt_BR
dc.subject	Variability analysis	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	SOUSA, Hiago Natan Fernandes de.	-
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	A comparative experiment of the effectiveness of different LLM in generating Gherkin scenarios.	pt_BR
dc.identifier.citation	SOUSA, Hiago Natan Fernandes de. Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin. 2025. 141 f. Dissertação (Mestrado em Computação) – Programa de Pós-Graduação em Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.	pt_BR
Appears in Collections:	Mestrado em Ciência da Computação.

Files in This Item:

File	Description	Size	Format
HIAGO NATAN FERNANDES DE SOUSA - DISSERTAÇÃO (PPGCC) 2025.pdf		1.76 MB	Adobe PDF	View/Open

Show simple item record