Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38145
Full metadata record
DC FieldValueLanguage
dc.creator.IDNÓBREGA, H. L.pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/5444210624277381pt_BR
dc.contributor.advisor1BRUNET, João Arthur Monteiro.
dc.contributor.advisor1IDBRUNET, J. A. M.pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7892247821251194pt_BR
dc.contributor.referee1ALMEIDA, Hyggo Oliveira de.
dc.contributor.referee1IDALMEIDA, H. O.pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/4993914550234923pt_BR
dc.contributor.referee2BRASILEIRO, Francisco Vilar.
dc.contributor.referee2IDBRASILEIRO, F.pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/5957855817378897pt_BR
dc.description.resumoModelos de Linguagem de Grande Escala (LLMs), como o ChatGPT, Claude e Llama 2, revolucionaram o processamento de linguagem natural, criando novos casos de uso para aplicações que utilizam esses modelos em seus fluxos de trabalho. No entanto, os altos custos computacionais desses modelos acarretam problemas de custo e latência, impedindo a escalabilidade de funcionalidades baseadas em LLM para muitos serviços e produtos, especialmente quando dependem de modelos com melhores capacidades de raciocínio, como o GPT-4 ou o Claude 3 Opus. Além disso, muitas consultas a esses modelos são duplicadas. O cache tradicional é uma solução natural para esse problema, mas sua incapacidade de determinar se duas consultas são semanticamente equivalentes leva a baixas taxas de cache hit. Neste trabalho, propomos explorar o uso de cache semântico, que considera o significado das consultas em vez de sua formulação exata, para melhorar a eficiência de aplicações baseadas em LLM. Realizamos um experimento usando um conjunto de dados real da Alura, uma empresa brasileira de educação, em um cenário onde um aluno responde a uma pergunta e o GPT-4 corrige a resposta. Os resultados mostraram que 45,1% das solicitações feitas ao LLM poderiam ter sido atendidas a partir do cache usando um limiar de similaridade de 0.98, com uma melhoria de 4-10 vezes na latência. Esses resultados demonstram o potencial do cache semântico para melhorar a eficiência de funcionalidades baseadas em LLM, reduzindo custos e latência enquanto mantém os benefícios de modelos avançados de linguagem como o GPT-4. Essa abordagem poderia possibilitar a escalabilidade de funcionalidades baseadas em LLM para uma gama mais ampla de aplicações, avançando na adoção desses modelos poderosos em diversos domínios.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCentro de Engenharia Elétrica e Informática - CEEIpt_BR
dc.publisher.initialsUFCGpt_BR
dc.subject.cnpqCiência da Computaçãopt_BR
dc.titleUsing semantic cache to spare resources of LLM-powered features.pt_BR
dc.date.issued2024-05-15
dc.description.abstractLarge Language Models (LLMs) such as ChatGPT, Claude and Llama 2 have revolutionized natural language processing, creating many new use cases for applications that use these models in their workflows. However, the high computational costs of these models lead to issues with cost and latency, preventing the scalability of LLM-based features to many services and products especially whenthey depend on models with better reasoning capabilities, such as GPT-4 or Claude 3 Opus. Additionally, many queries to these models are duplicated. Traditional caching is a natural solution to this problem, but its inability to determine if two queries are semantically equivalent leads to low cache hit rates. In this work, we propose exploring the use of semantic caching, which considers the meaning of queries rather than their exact wording, to improve the efficiency of LLM-based applications. We conducted an experiment using a real dataset from Alura, a Brazilian EdTech company, in a scenario where a student answers a question and GPT-4 corrects the answer. The results showed that 45.1% of the requests made to the LLM could have been served from the cache using a similarity threshold of 0.98, with a 4-10x improvement in latency. These results demonstrate the potential of semantic caching to improve the efficiency of LLM-based features, reducing costs and latency while maintaining the benefits of advanced language models like GPT-4. This approach could enable the scalability of LLM-based features to a wider range of applications, advancing the adoption of these powerful models in various domains.pt_BR
dc.identifier.urihttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38145
dc.date.accessioned2024-09-28T17:18:35Z
dc.date.available2024-09-28
dc.date.available2024-09-28T17:18:35Z
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.subjectSemantic Cachingpt_BR
dc.subjectLarge Language Models (LLMs)pt_BR
dc.subjectLinguagem de Grande Escala (LLMs)pt_BR
dc.subjectSemantic Cachingpt_BR
dc.rightsAcesso Abertopt_BR
dc.creatorNÓBREGA, Henrique Lopes.
dc.publisherUniversidade Federal de Campina Grandept_BR
dc.languageporpt_BR
dc.title.alternativeUso de cache semântico para economizar recursos em funcionalidades providas por LLMS.pt_BR
dc.identifier.citationNÓBREGA, Henrique Lopes. Using semantic cache to spare resources of LLM-powered features. 2024. 10 f. Artigo (Bacharelado em Ciência da Computação) -Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024.pt_BR
Appears in Collections:Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:
File Description SizeFormat 
HENRIQUE LOPES NOBREGA-ARTIGO-CIÊNCIA DA COMPUTAÇÃO-CEEI (2024).pdf453.55 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.