Using semantic cache to spare resources of LLM-powered features.

Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38145

Title:	Using semantic cache to spare resources of LLM-powered features.
Other Titles:	Uso de cache semântico para economizar recursos em funcionalidades providas por LLMS.
???metadata.dc.creator???:	NÓBREGA, Henrique Lopes.
???metadata.dc.contributor.advisor1???:	BRUNET, João Arthur Monteiro.
???metadata.dc.contributor.referee1???:	ALMEIDA, Hyggo Oliveira de.
???metadata.dc.contributor.referee2???:	BRASILEIRO, Francisco Vilar.
Keywords:	Semantic Caching;Large Language Models (LLMs);Linguagem de Grande Escala (LLMs);Semantic Caching
Issue Date:	15-May-2024
Publisher:	Universidade Federal de Campina Grande
Citation:	NÓBREGA, Henrique Lopes. Using semantic cache to spare resources of LLM-powered features. 2024. 10 f. Artigo (Bacharelado em Ciência da Computação) -Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024.
???metadata.dc.description.resumo???:	Modelos de Linguagem de Grande Escala (LLMs), como o ChatGPT, Claude e Llama 2, revolucionaram o processamento de linguagem natural, criando novos casos de uso para aplicações que utilizam esses modelos em seus fluxos de trabalho. No entanto, os altos custos computacionais desses modelos acarretam problemas de custo e latência, impedindo a escalabilidade de funcionalidades baseadas em LLM para muitos serviços e produtos, especialmente quando dependem de modelos com melhores capacidades de raciocínio, como o GPT-4 ou o Claude 3 Opus. Além disso, muitas consultas a esses modelos são duplicadas. O cache tradicional é uma solução natural para esse problema, mas sua incapacidade de determinar se duas consultas são semanticamente equivalentes leva a baixas taxas de cache hit. Neste trabalho, propomos explorar o uso de cache semântico, que considera o significado das consultas em vez de sua formulação exata, para melhorar a eficiência de aplicações baseadas em LLM. Realizamos um experimento usando um conjunto de dados real da Alura, uma empresa brasileira de educação, em um cenário onde um aluno responde a uma pergunta e o GPT-4 corrige a resposta. Os resultados mostraram que 45,1% das solicitações feitas ao LLM poderiam ter sido atendidas a partir do cache usando um limiar de similaridade de 0.98, com uma melhoria de 4-10 vezes na latência. Esses resultados demonstram o potencial do cache semântico para melhorar a eficiência de funcionalidades baseadas em LLM, reduzindo custos e latência enquanto mantém os benefícios de modelos avançados de linguagem como o GPT-4. Essa abordagem poderia possibilitar a escalabilidade de funcionalidades baseadas em LLM para uma gama mais ampla de aplicações, avançando na adoção desses modelos poderosos em diversos domínios.
Abstract:	Large Language Models (LLMs) such as ChatGPT, Claude and Llama 2 have revolutionized natural language processing, creating many new use cases for applications that use these models in their workflows. However, the high computational costs of these models lead to issues with cost and latency, preventing the scalability of LLM-based features to many services and products especially whenthey depend on models with better reasoning capabilities, such as GPT-4 or Claude 3 Opus. Additionally, many queries to these models are duplicated. Traditional caching is a natural solution to this problem, but its inability to determine if two queries are semantically equivalent leads to low cache hit rates. In this work, we propose exploring the use of semantic caching, which considers the meaning of queries rather than their exact wording, to improve the efficiency of LLM-based applications. We conducted an experiment using a real dataset from Alura, a Brazilian EdTech company, in a scenario where a student answers a question and GPT-4 corrects the answer. The results showed that 45.1% of the requests made to the LLM could have been served from the cache using a similarity threshold of 0.98, with a 4-10x improvement in latency. These results demonstrate the potential of semantic caching to improve the efficiency of LLM-based features, reducing costs and latency while maintaining the benefits of advanced language models like GPT-4. This approach could enable the scalability of LLM-based features to a wider range of applications, advancing the adoption of these powerful models in various domains.
Keywords:	Semantic Caching Large Language Models (LLMs) Linguagem de Grande Escala (LLMs) Semantic Caching
???metadata.dc.subject.cnpq???:	Ciência da Computação
URI:	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38145
Appears in Collections:	Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:

File	Description	Size	Format
HENRIQUE LOPES NOBREGA-ARTIGO-CIÊNCIA DA COMPUTAÇÃO-CEEI (2024).pdf		453.55 kB	Adobe PDF	View/Open

Show full item record