Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12717
Full metadata record
DC FieldValueLanguage
dc.creator.IDMARQUES JUNIOR, A. R.pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/4426213995601363pt_BR
dc.contributor.advisor1MONTEIRO, João Arthur Brunet.-
dc.contributor.advisor1IDBRUNET, J. A. M.pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7892247821251194pt_BR
dc.contributor.referee1MASSONI, Tiago Lima.-
dc.contributor.referee2ANDRADE, Nazareno Ferreira de.-
dc.contributor.referee3FIGUEIREDO, Flavio Vinicius Diniz de.-
dc.description.resumoA Polícia Federal (PF) atua, dentre suas diversas atribuições, na apuração de inquéritos através de delegados e agentes federais em seus respectivos núcleos de investigação. Uma das tarefas mais recorrentes realizada pelos investigadores ocorre no processo de instauração de inquéritos, onde o responsável deve verificar se já existe um procedimento de investigação criminal para o fato em questão. Entretanto, por se tratar de uma atividade subjetiva e que depende do indiv´ıduo que a realiza, existe a possibilidade da instauração de mais de um inquérito apurando o mesmo fato, dificultando o processo de investigação. Este estudo compara modelos clássicos e do estado da arte em Recuperação da Informação como distância de Cosseno, Similaridade de Jaccard, Doc2Vec e WMD, na busca por inquéritos relevantes a partir de informações estruturadas e não-estruturadas (documentos textuais), visando identificar duplicidade de inquéritos, casos similares que auxiliem em tomadas de decisão em investigações ou para treinamento de novos delegados e crimes que possam estar relacionados. Para a construção dos modelos foram utilizados dados de inquéritos não-sigilosos do ePol, plataforma web que gerencia atividades policiais e interliga as unidades da PF. Os modelos construídos retornam o top 4 inquéritos similares a um inquérito passado como entrada. Dado que o problema trata de dados não-supervisionados, a avaliação foi realizada por meio de especialistas no contexto, representados por delegados e escrivães da PF, onde estes responderam a formulários submetidos diariamente com inquéritos a serem comparados. Os resultados mostram que métodos clássicos como similaridade de jaccard e distância de cosseno atingem bons resultados para detecção de inquéritos semelhantes, com NDCGs iguais a 0.8812 e 0.8371 respectivamente. O modelo WMD ainda apresenta um NDCG próximo aos já citados (0.8037) e o doc2vec atinge o pior resultado (0.6743). O estudo sugere que o desempenho dos modelos baseados em redes neurais estão abaixo dos demais devido a base de treinamento não ser considerada grande o suficiente para um modelo de rede neural profunda, o que pode dificultar a tarefa de aprendizado para este tipo de abordagem. Para detecção de duplicidade e relação entre inquéritos os resultados não foram satisfatórios de acordo com a métrica utilizada. Entretanto, vale salientar que, i ao contrário da semelhança entre inquéritos, duplicidade e relação entre inquéritos não são eventos comuns de ocorrerem neste contexto. Os modelos sugeridos no estudo podem ser utilizados junto a plataforma ePol, auxiliando na identificação de duplicidade e assim otimizando o trabalho da PF ao reduzir o desperdício de recursos da corporação, além de sugerir inquéritos semelhantes para, por exemplo, auxiliar no treinamento de novos delegados sobre como e quais ações devem ser tomadas na condução de um inquérito policial.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCentro de Engenharia Elétrica e Informática - CEEIpt_BR
dc.publisher.programPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOpt_BR
dc.publisher.initialsUFCGpt_BR
dc.subject.cnpqCiência da Computaçãopt_BR
dc.titleAvaliação de métodos de similaridade textual no contexto de investigação policial.pt_BR
dc.date.issued2020-02-03-
dc.description.abstractThe Brazilian Federal Police (PF) operates, among its diverse duties, in the investigation of cases through federal agents in their respective departments. One of the most recurrent tasks carried out by investigators occurs in the process of open investigations, where the person in charge must verify if there is already a criminal investigation procedure for the fact in question. However, because it is a subjective activity and it depends who performs it, there is the possibility of setting up more than one investigation ascertaining the same fact, making the investigation process difficult. This study compares classic and and state-of-art models in information retrieval such as Cosine Distance, Jaccard Similarity, Doc2Vec, and WMD, in search of relevant inquiries from structured and unstructured data (textual documents), aiming to detect document inquiries duplicity, similar cases that assist decision-making in investigations or to train new delegates through similar crimes. To build the IR models, we used non-confidential data from ePol, the web platform which manages investigations’ activities and interconnects the Federal Police Stations of Brazil. Each model returns the 4 most similar inquires to a previous inquiry selected as input. 55 inquiries were used as queries for each model and their responses were submitted to an evaluation. Given the problem deals with unsupervised data, the evaluation was fulfilled by contextual experts, represented by PF delegates and clerks, where they answered surveys daily regarding comparisons between inquires. The results show classical methods such as jaccard similarity and cosine distance chieve good results for similar inquiries’ detection, with NDCGs equal to 0.8812 and 0.8371 respectively. The WMD model still has an NDCG close to those already mentioned (0.8037) and doc2vec achieves the worst result (0.6743). The study suggests the performance of models based on neural networks are below the others because the training base is not considered large enough for a deep neural network model, which can make the learning task for this type of approach more difficult. For detection of duplicity and relationship between inquiries, the results were not satisfactory according to NDCG metric. However, it should be noted that, unlike the similarity between inquiries, duplicity and relationship between inquiries are not common events to occur in this context. The models suggested in this study can be used as a feature of the ePol platform, identifying duplicity between inquiries and thereby optimizing PF’s work by reducing the waste of corporate resources, suggesting similar inquiries to new delegates and helping them regarding what actions should be taken in a police investigation.pt_BR
dc.identifier.urihttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12717-
dc.date.accessioned2020-04-08T15:42:55Z-
dc.date.available2020-04-08-
dc.date.available2020-04-08T15:42:55Z-
dc.typeDissertaçãopt_BR
dc.subjectRecuperação da Informaçãopt_BR
dc.subjectInformation Retrievalpt_BR
dc.subjectRecuperación de Informaciónpt_BR
dc.subjectProcessamento de Linguagem Naturalpt_BR
dc.subjectProcesamiento del Lenguaje Naturalpt_BR
dc.subjectNatural Language Processingpt_BR
dc.subjectAprendizagem de Máquinapt_BR
dc.subjectMachine Learningpt_BR
dc.subjectAprendizaje Automáticopt_BR
dc.subjectInvestigação Policialpt_BR
dc.subjectInvestigación Policialpt_BR
dc.subjectPolice Investigationpt_BR
dc.subjectSimilaridade Textualpt_BR
dc.subjectTextual Similaritypt_BR
dc.subjectSimilitud Textualpt_BR
dc.rightsAcesso Abertopt_BR
dc.creatorMARQUES JUNIOR, Antonio Ricardo.-
dc.publisherUniversidade Federal de Campina Grandept_BR
dc.languageporpt_BR
dc.title.alternativeEvaluation of textual similarity methods in the context of police investigation.pt_BR
dc.identifier.citationMARQUES JUNIOR, A. R. Avaliação de métodos de similaridade textual no contexto de investigação policial. 2020. 63 f. Dissertação (Mestrado em Sistemas e Computação), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2020.pt_BR
Appears in Collections:Mestrado em Ciência da Computação.

Files in This Item:
File Description SizeFormat 
ANTONIO RICARDO MARQUES JUNIOR - DISSERTAÇÃO (PPGCC) 2020.pdf1.09 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.