Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38035
Full metadata record
DC FieldValueLanguage
dc.creator.IDVIEGAS, C. V.pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/9064657341820241pt_BR
dc.contributor.advisor1GHEYI, Rohit Gheyi.-
dc.contributor.advisor1IDGHEYI, R.pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/2931270888717344pt_BR
dc.contributor.referee1GARCIA, Francilene Procópio.-
dc.contributor.referee1IDGARCIA, F. P.pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/2911843555711554pt_BR
dc.contributor.referee2BRASILEIRO, Francisco Vilar.-
dc.contributor.referee2IDBRASILEIRO, F.pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/5957855817378897pt_BR
dc.description.resumoAvanços recentes em Modelos de Linguagem de Grande Escala (LLMs) expandiram significativamente as capacidades da inteligência artificial (IA) em tarefas de processamento de linguagem natural. No entanto, seu desempenho em domínios especializados, como a ciência da computação, permanece relativamente pouco explorado. Este estudo investiga se os LLMs podem igualar ou superar o desempenho humano no POSCOMP, um exame brasileiro prestigiado usado para admissões de pós-graduação em ciência da computação. Quatro LLMs-ChatGPT-4, Gemini 1.0 Advanced, Claude 3 Sonnet e Le Chat Mistral Large-foram avaliados nos exames POSCOMP de 2022 e 2023. A avaliação consistiu em duas análises: uma envolvendo interpretação de imagens e outra somente de texto, para determinar a proficiência dos modelos em lidar com questões complexas típicas do exame. Os resultados indicaram que os LLMs tiveram um desempenho significativamente melhor nas questões baseadas em texto, com a interpretação de imagens representando um grande desafio. Por exemplo, na avaliação baseada em imagens, o ChatGPT-4 respondeu corretamente 40 de 70 perguntas, enquanto o Gemini 1.0 Advanced conseguiu apenas 11 respostas corretas. Na avaliação baseada em texto de 2022, o ChatGPT-4 liderou com 57 respostas corretas, seguido por Gemini 1.0 Advanced (49), Le Chat Mistral (48) e Claude 3 Sonnet (44). O exame de 2023 mostrou tendências semelhantes.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCentro de Engenharia Elétrica e Informática - CEEIpt_BR
dc.publisher.initialsUFCGpt_BR
dc.subject.cnpqCiência da Computaçãopt_BR
dc.titleAvaliando a capacidade de LLMS na resolução de questões do POSCOMP.pt_BR
dc.date.issued2024-05-15-
dc.description.abstractRecent advancements in Large Language Models (LLMs) have significantly expanded the capabilities of artificial intelligence in natural language processing tasks. However, their performance in specialized domains like computer science remains relatively underexplored. This study investigates whether LLMs can match or surpass human performance on the POSCOMP, a prestigious Brazilian examination used for graduate admissions in computer science. Four LLMs-ChatGPT-4, Gemini 1.0 Advanced, Claude 3 Sonnet, and Le Chat Mistral Large-were evaluated on the 2022 and 2023 POSCOMP exams. The evaluation consisted of two assessments: one involving image interpretation and another text-only format, to determine the models' proficiency in handling complex questions typical of the exam. Results indicated that LLMs performed significantly better on text-based questions, with image interpretation posing a major challenge. For instance, in the image-based assessment, ChatGPT-4 answered 40 out of 70 questions correctly, while Gemini 1.0 Advanced managed only 11 correct answers. In the text-based assessment of 2022, ChatGPT-4 led with 57 correct answers, followed by Gemini 1.0 Advanced (49), Le Chat Mistral (48), and Claude 3 Sonnet (44). The 2023 exam showed similar trends.pt_BR
dc.identifier.urihttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38035-
dc.date.accessioned2024-09-25T19:11:37Z-
dc.date.available2024-09-25-
dc.date.available2024-09-25T19:11:37Z-
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.subjectModelos de Linguagem de Grande Escala (LLMs)pt_BR
dc.subjectExame Nacional para Ingresso na Pós-Graduação em Computação (POSCOMP)pt_BR
dc.subjectNLPpt_BR
dc.subjectLarge-Scale Language Models (LLMs) National Exam for Admission to Postgraduate Studies in Computing (POSCOMP)pt_BR
dc.rightsAcesso Abertopt_BR
dc.creatorVIEGAS, Cayo Vinicíus.-
dc.publisherUniversidade Federal de Campina Grandept_BR
dc.languageporpt_BR
dc.title.alternativeEvaluating the ability of LLMS to solve POSCOMP questions.pt_BR
dc.identifier.citationVIEGAS, Cayo Vinicíus. Avaliando a capacidade de LLMS na resolução de questões do POSCOMP. 2024. 20 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024.pt_BR
Appears in Collections:Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:
File Description SizeFormat 
CAYO VINICIUS VIEGAS-ARTIGO-CIÊNCIA DA COMPUTAÇÃO-CEEI (2024).pdf1.69 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.