Please use this identifier to cite or link to this item:
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/37848
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.creator.ID | LUCENA, A. L. | pt_BR |
dc.creator.Lattes | http://lattes.cnpq.br/2962858146566073 | pt_BR |
dc.contributor.advisor1 | MORAIS, Fábio Jorge Almeida. | - |
dc.contributor.advisor1ID | MORAIS, F. J. A. | pt_BR |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/0987042606840444 | pt_BR |
dc.contributor.referee1 | PIRES, Carlos Eduardo Santos. | - |
dc.contributor.referee1ID | PIRES, C. E. S. | pt_BR |
dc.contributor.referee1Lattes | http://lattes.cnpq.br/4986021622366786 | pt_BR |
dc.contributor.referee2 | BRASILEIRO, Francisco Vilar. | - |
dc.contributor.referee2ID | BRASILEIRO, F. | pt_BR |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/5957855817378897 | pt_BR |
dc.description.resumo | Atualmente, a grande gama de plataformas, aplicativos e operações online disponíveis para a resolução de diferentes problemas resulta em um tráfego de grande volume de dados de usuários, inclusive dados sensíveis e de identificação. Para proteger a privacidade dos usuários, um direito assegurado por leis em todo o mundo (Leis de Proteção de Dados), é necessária uma atenção maior a esses dados para não serem publicados. No entanto, identificar as informações sensíveis entre tantos outros tipos de dados, pode não ser uma tarefa trivial. Estudos já existentes propõem a aplicação de técnicas de Processamento de Linguagem Natural (PLN) para identificação automática de Informações Pessoais Identificáveis (Personal Identifiable Information, PII) em documentos em português. O objetivo deste trabalho é propor, através de uma prova de conceito, uma abordagem complementar às utilizadas nos estudos relacionados, através da tarefa de Extração de Relação de PLN. Para tal, foi criado um componente que combina um modelo de linguagem especializado na língua portuguesa e camadas adicionais de extração de relação. Para o treinamento e avaliação do componente, foi gerada uma base de dados sensíveis sintéticos com o auxílio de um Large Language Model (LLM). Os resultados foram satisfatórios, com métricas de precisão, recall e f1-score acima de 95%, indicando que a abordagem pode ser uma boa proposta para detecção automática de informações sensíveis pessoais. | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Centro de Engenharia Elétrica e Informática - CEEI | pt_BR |
dc.publisher.initials | UFCG | pt_BR |
dc.subject.cnpq | Ciência da Computação | pt_BR |
dc.title | Utilizando extração de relação entre entidades para detecção de informações pessoais sensíveis em português. | pt_BR |
dc.date.issued | 2024-05-15 | - |
dc.description.abstract | Currently, the wide range of platforms, applications, and online operations available for solving different problems result in a high volume of user data traffic, including sensitive and identifying data. To protect users' privacy, a right guaranteed by laws worldwide (Data Protection Laws), greater attention to these data is necessary to prevent their disclosure. However, identifying sensitive information among many other types of data may not be a trivial task. Existing studies propose the application of Natural Language Processing (NLP) techniques for the automatic identification of Personal Identifiable Information (PII) in Portuguese documents. The aim of this work is to propose, through a proof of concept, a complementary approach to those used in related studies, through the task of NLP Relation Extraction. To do so, a component was created that combines a language model specialized in the Portuguese language and additional layers of relation extraction. For the training and evaluation of the component, a synthetic sensitive database was generated with the assistance of a Large Language Model (LLM). The results were satisfactory, with precision, recall, and f1-score metrics above 95%, indicating that the approach could be a good proposal for automatic detection of sensitive personal information. | pt_BR |
dc.identifier.uri | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/37848 | - |
dc.date.accessioned | 2024-09-19T19:05:13Z | - |
dc.date.available | 2024-09-19 | - |
dc.date.available | 2024-09-19T19:05:13Z | - |
dc.type | Trabalho de Conclusão de Curso | pt_BR |
dc.subject | Leis de Proteção de Dados | pt_BR |
dc.subject | Informações Pessoais Identificáveis - Português | pt_BR |
dc.subject | Processamento de Linguagem Natural (PLN) | pt_BR |
dc.subject | Data Protection Laws | pt_BR |
dc.subject | Personal Identifiable Information (PII) - Portuguese | pt_BR |
dc.subject | Natural Language Processing (NLP) | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.creator | LUCENA, Andrielly de Lima. | - |
dc.publisher | Universidade Federal de Campina Grande | pt_BR |
dc.language | por | pt_BR |
dc.title.alternative | Using entity relationship extraction for detection of sensitive personal information in portuguese. | pt_BR |
dc.identifier.citation | LUCENA, Andrielly de Lima. Utilizando extração de relação entre entidades para detecção de informações pessoais sensíveis em português. 2024. 13 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. | pt_BR |
Appears in Collections: | Trabalho de Conclusão de Curso - Artigo - Ciência da Computação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ANDRIELLY DE LIMA LUCENA-ARTIGO-CIÊNCIA DA COMPUTAÇÃO-CEEI (2024).pdf | 1.43 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.