Avaliação do Modelo T5 na Detecção de Bug Reports Similares: Uma Abordagem Híbrida com TF-IDF

Please use this identifier to cite or link to this item: https://dspace.sti.ufcg.edu.br/jspui/handle/riufcg/41584

Title:	Avaliação do Modelo T5 na Detecção de Bug Reports Similares: Uma Abordagem Híbrida com TF-IDF
Other Titles:	Evaluation of the T5 Model in Bug Detection Similar Reports: A Hybrid Approach with TF-IDF
???metadata.dc.creator???:	BARBOSA, Iann Carvalho.
???metadata.dc.contributor.advisor1???:	MONTEIRO, João Arthur Brunet.
???metadata.dc.contributor.advisor2???:	RAMALHO, Franklin de Souza.
???metadata.dc.contributor.referee1???:	MASSONI, Tiago Lima.
???metadata.dc.contributor.referee2???:	KULESZA, Uira.
Issue Date:	13-Nov-2024
Publisher:	Universidade Federal de Campina Grande
Citation:	BARBOSA, Iann Carvalho. Avaliação do Modelo T5 na Detecção de Bug Reports Similares: Uma Abordagem Híbrida com TF-IDF. 2024. 134 f. Dissertação (Mestrando em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024.
???metadata.dc.description.resumo???:	No contexto do desenvolvimento de software, bug reports (BRs) são fundamentais para identificar e descrever falhas que impactam a qualidade e estabilidade do produto final. O crescente volume de BRs em grandes projetos de software torna a identificação manual de BRs similares uma tarefa demorada e propensa a erros, levando a uma menor eficiência no processo de desenvolvimento. Visando melhorar a alocação de recursos, agilizar a resolução de problemas recorrentes e otimizar o desenvolvimento de software, examinamos a aplicação de técnicas de aprendizagem de máquina relevantes aos problemas. Para tal, foi utilizado o modelo T5 (Text-to-Text Transfer Transformer), o método TF-IDF (Term Frequency-Inverse Document Frequency) e uma abordagem híbrida, aproveitando a eficácia do T5 em tarefas de Similaridade Textual Semântica (STS) e a versatilidade do TF-IDF em análises léxicas, combinando-os para potencializar a identificação de BRs similares. O pipeline divide-se em recuperação dos dados, pré-processamento, vetorização, normalização, treinamento das redes neurais e avaliação dos resultados obtidos. Foram avaliados os desempenhos de 56 modelos, aplicando diversas estratégias de modelagem. Esta análise detalhada revela que o uso de vetores completos como features é mais eficaz do que a distância de cosseno. Já a abordagem híbrida proposta demonstra resultados promissores, muitas vezes superando as abordagens individuais. O estudo também realiza um ajuste fino em 14 modelos promissores, testando 168 combinações de hiperparâmetros, com os otimizadores Adam e RMSprop apresentando os melhores desempenhos. As contribuições deste trabalho incluem uma avaliação do desempenho do T5 e do TF-IDF no contexto de BRs, a concepção e validação de uma abordagem híbrida, e a exploração de várias estratégias de modelagem. A pesquisa oferece sugestões para implementações futuras, potencialmente melhorando a eficiência e a eficácia no desenvolvimento e facilitando a alocação de recursos. As descobertas sobre o desempenho do T5 e a eficácia da abordagem híbrida impulsionam pesquisas futuras e aplicações em sistemas de recomendação para gestão de bugs e desenvolvimento de software, ressaltando a importância do seu aprimoramento contínuo.
Abstract:	In the context of software development, bug reports (BRs) are fundamental for identifying and describing flaws that impact the quality and stability of the final product. The growing volume of BRs in large software projects makes manual identification of similar BRs a time-consuming and error-prone task, leading to reduced efficiency in the development process. Aiming to improve resource allocation, expedite the resolution of recurring problems, and optimize software development, we examined the application of machine learning techniques relevant to these issues. To this end, we utilized the T5 (Text-to-Text Transfer Transformer) model, the TF-IDF (Term Frequency-Inverse Document Frequency) method, and a hybrid approach, leveraging the effectiveness of T5 in Semantic Textual Similarity (STS) tasks and the versatility of TF-IDF in lexical analyses, combining them to enhance the identification of similar BRs. The pipeline is divided into data retrieval, preprocessing, vectorization, normalization, neural network training, and evaluation of obtained results. We evaluated the performance of 56 models, applying various modeling strategies. This detailed analysis reveals that using complete vectors as features is more effective than using cosine distance. The proposed hybrid approach demonstrates promising results, often outperforming individual approaches. The study also performs fine-tuning on 14 promising models, testing 168 hyperparameter combinations, with Adam and RMSprop optimizers showing the best performance. The contributions of this work include an evaluation of T5 and TF-IDF performance in the context of BRs, the conception and validation of a hybrid approach, and the exploration of various modeling strategies. The research offers suggestions for future implementations, potentially improving efficiency and effectiveness in development and facilitating resource allocation. The findings on T5 performance and the effectiveness of the hybrid approach drive future research and applications in recommendation systems for bug management and software development, highlighting the importance of their continuous improvement.
???metadata.dc.subject.cnpq???:	Ciência da Computação
URI:	https://dspace.sti.ufcg.edu.br/jspui/handle/riufcg/41584
Appears in Collections:	Mestrado em Ciência da Computação.

Files in This Item:

File	Description	Size	Format
IANN CARVALHO BARBOSA - DISSERTAÇÃO - (PPGCC) 2024.pdf		3.24 MB	Adobe PDF	View/Open

Show full item record