Please use this identifier to cite or link to this item:
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376
Title: | Explorando aprendizagem ativa para reduzir o esforço manual na geração de gabaritos para resolução de entidades. |
Other Titles: | Exploring active learning to reduce manual effort in generating entity resolution templates. |
???metadata.dc.creator???: | ARAÚJO, Diego Fernandes de. |
???metadata.dc.contributor.advisor1???: | PIRES, Carlos Eduardo Santos. |
???metadata.dc.contributor.referee1???: | MARINHO, Leandro Balby. |
???metadata.dc.contributor.referee2???: | LÓSCIO, Bernadette Farias. |
Keywords: | Resolução de Entidades;Deduplicação;Gabarito;Aprendizagem de Máquina;Aprendizagem Ativa;Classificação;Record Linkage;Deduplication;Ground-Truth;Machine Learning;Active Learning;Classification |
Issue Date: | 22-May-2019 |
Publisher: | Universidade Federal de Campina Grande |
Citation: | ARAÚJO, D. F. de. Explorando aprendizagem ativa para reduzir o esforço manual na geração de gabaritos para resolução de entidades. 2019. 76 f. Dissertação (Mestrado em Ciência da Computação) – Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2019. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376 |
???metadata.dc.description.resumo???: | Diversos métodos de Resolução de Entidades (RE) têm sido desenvolvidos na academia e indústria ao longo dos anos com o intuito de identificar entidades (e.g.registros) duplicadas em bases de dados a fim de tratá-las. Para avaliar a qualidade dos resultados de tais métodos, é necessário compará-los com um gabarito, que consiste em um documento contendo todos os pares de registros duplicados conhecidos em uma base de dados. A geração desses gabaritos para bases de dados reais é feita de forma manual a partir da inspeção de todas as combinações de pares de registros existentes nessas bases. Isso apresenta complexidade quadrática, com relação ao(s) tamanho(s) da(s) base(s) de dados, o que acarreta na necessidade e bastante tempo para realização da tarefa e na possibilidade de introdução de erros. Em virtude disto,alguns trabalhos apresentam abordagens automáticas ou semiautomáticas para geração de gabaritos para a tarefa de RE que, no entanto, ou não são aplicáveis a domínios variados ou ainda requerem um esforço manual considerável. Neste trabalho é proposta GTGenERAL, uma abordagem semiautomática que combina resultados de múltiplos algoritmos de RE juntamente com Aprendizagem Ativa para gerar gabaritos, com redução de esforço manual. Experimentos usando bases de dados reais mostram que a abordagem é capaz de gerar gabaritos próximos àqueles gerados pela abordagem do estado da arte, enquanto reduz substancialmente o esforço manual empreendido no processo. |
Abstract: | Several methods of Entity Resolution (ER) have been developed both at academia and industry over the years, with the aim to identify duplicate entities (e.g.records) in datasets. To evaluate the efficacy of such methods, it is necessary to compare their results with a ground-truth, which consists of a document containing all known duplicate record pairs in a dataset. In general, the generation of ground-truths for real datasets is done manually from the inspection of all combinations of pairs of records in a dataset. However, this is subject to error and presents quadratic complexity, with respect to the size(s) of the dataset(s), requiring a long time to be performed. In this context, some works present (semi) automatic approaches for the generation of ground-truths for the ER task. However, such approaches are either not applicable to several domains or still require a considerable manual effort. In this work, we propose GTGenERAL, a semiautomatic approach which combines results from multiple algorithms of ER together with Active Learning to generate ground-truths employing reduced manual effort. Experiments using real datasets show that, with great manual effort reduction, GTGenERAL is able to generate ground-truths close to those generated by the state-of-the-art approach, while substantially reducing the manual effort undertaken in the process. |
Keywords: | Resolução de Entidades Deduplicação Gabarito Aprendizagem de Máquina Aprendizagem Ativa Classificação Record Linkage Deduplication Ground-Truth Machine Learning Active Learning Classification |
???metadata.dc.subject.cnpq???: | Ciência da Computação |
URI: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376 |
Appears in Collections: | Mestrado em Ciência da Computação. |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
DIEGO FERNANDES DE ARAÚJO - DISSERTAÇÃO (PPGCC) 2019.pdf | Diego Fernandes de Araújo - Dissertação PPGCC 2019 | 1.85 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.