Please use this identifier to cite or link to this item:
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174
Title: | Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal. |
Other Titles: | A BERT model for extractive summarization of texts in Federal Police documents. |
???metadata.dc.creator???: | BARROS, Thierry Silva. |
???metadata.dc.contributor.advisor1???: | PIRES, Carlos Eduardo Santos. |
???metadata.dc.contributor.advisor2???: | NASCIMENTO FILHO, Dimas Cassimiro do. |
???metadata.dc.contributor.referee1???: | MARINHO, Leandro Balby. |
???metadata.dc.contributor.referee2???: | FREITAS, Frederico Luiz Gonçalves de. |
Keywords: | Processamento de Linguagem Natural;BERT;Notícia- crime;Sumarização Automática de Texto;Polícia Federal do Brasil;Investigação Policial;Natural Language Processing;News- crime;Automatic Text Summarization;Police investigation |
Issue Date: | 28-Apr-2022 |
Publisher: | Universidade Federal de Campina Grande |
Citation: | BARROS, Thierry Silva. Um modelo BERT para sumarização extrativa de textos emdocumentos da Polícia Federal. 2022. 118 fl. Dissertação (Mestrado em Ciência da Computação ), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174 |
???metadata.dc.description.resumo???: | Na Polícia Federal do Brasil, um documento denominado notícia-crime é utilizado como ponto de partida em qualquer investigação criminal. Uma notícia-crime tem como objetivo fornecer um resumo das atividades investigativas e, para tal, deve conter todas as infor- mações relevantes sobre o suposto crime ocorrido. A fim de administrar uma investigação e correlacionar com investigações semelhantes, em geral, a Polícia Federal precisa extrair as informações mais importantes do documento da notícia-crime. A extração manual (ler e compreender todo o seu conteúdo) tende a ser exaustiva, devido ao tamanho e à complex- idade dos documentos. Neste sentido, técnicas de Processamento de Linguagem Natural (PLN) podem auxiliar na extração automática dos trechos mais importantes como, por ex- emplo, o crime ocorrido. Nos últimos anos, as redes neurais profundas têm sido aplicadas com sucesso em muitas tarefas diferentes de PLN. Um modelo de rede neural que alavan- cou os resultados em uma ampla gama de tarefas de PLN foi o modelo BERT (Bidirectional Encoder Representations from Transformers). Devido à sua capacidade de representação do sentido de dados textuais, o modelo consegue capturar dependências de curto (correlações entra dados textuais que estão próximos no texto) e longo (correlações entra dados textuais que estão distantes no texto) alcance nos dados textuais. O presente trabalho propõe difer- entes abordagens baseadas no modelo BERT para extrair as informações mais importantes do documento textual referente a uma notícia-crime e construir um resumo do mesmo. Para a sumarização automática de documentos textuais podem ser aplicados dois tipos de técnicas diferentes: abstrativa e extrativa. Nesta pesquisa foi utilizada nas abordagens a técnica de sumarização extrativa para resumo dos documentos. A viabilidade da utilização do modelo BERT para extrair e sintetizar as informações mais importantes de uma notícia-crime é avali- ada em termos de eficácia e eficiência. Para tal, são utilizados dois conjuntos de dados reais: o conjunto de dados da Polícia Federal (de domínio privado) e o conjunto de dados Wikihow brasileiro (de domínio público). Os resultados experimentais, usando diferentes variantes da métrica ROUGE, mostram que as abordagens propostas podem aumentar significativamente a eficácia do resumo de texto extrativo sem sacrificar a eficiência. |
Abstract: | In the Federal Police, a document known as notitia criminis is used as the starting point of the criminal investigation. The notitia criminis document aims to report a summary of investigative activities and contains all relevant information about the supposed crime that occurred. In order to manage an investigation and correlate with similar investigations, in general, the Federal Police needs to extract the most important information of the notitia cri- minis document. Manual extraction (reading and understand their entire content) may be hu- man exhausting, due to the size and complexity of the documents. Therefore, it is necessary to use Natural Language Processing (NLP) techniques for automatically extracting the most important passages, such as the crime that occurred.In the last few years, deep neural net- works have been successfully applied to many different NLP tasks. A neural network model that leveraged the results in a wide range of NLP tasks was the BERT model - an acronym for Bidirectional Encoder Representations from Transformers. Due to its ability to repre- sent the meaning textual data, being able to capture both short-range (correlations between textual data that are close together in the text) and long-range (correlations between textual data that are far apart in the text) dependence on textual data. This dissertation proposes different approaches based on the BERT model to extract the most important information from the textual document referring to a notitia criminis document and build a summary of it. For the automatic summarization of textual documents, two types of different techniques can be applied: abstractive and extractive. In this dissertation, the extractive summarization technique was used to summarize the documents. Thus, we aim to analyze the feasibility of using the BERT model to extract and synthesize the most important information from the notitia criminis document. We evaluate the performance of the proposed approaches using two real datasets: the Federal Police dataset (a private domain dataset) and the Brazilian Wikihow dataset (a public domain dataset). Experimental results on the two datasets, using different variants of the ROUGE metric, show that our approaches can significantly increase extractive text summarization effectiveness without sacrificing efficiency. |
Keywords: | Processamento de Linguagem Natural BERT Notícia- crime Sumarização Automática de Texto Polícia Federal do Brasil Investigação Policial Natural Language Processing News- crime Automatic Text Summarization Police investigation |
???metadata.dc.subject.cnpq???: | Ciência da Computação |
URI: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174 |
Appears in Collections: | Mestrado em Ciência da Computação. |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
THIERRY SILVA BARROS – DISSERTAÇÃO PPGCC 2022.pdf | Thierry Silva Barros - Dissertação PPGCC 2022 | 2.9 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.