Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376
Full metadata record
DC FieldValueLanguage
dc.creator.Latteshttp://lattes.cnpq.br/2027297399918127pt_BR
dc.contributor.advisor1PIRES, Carlos Eduardo Santos.-
dc.contributor.advisor1IDPIRES, C. E. S.pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4986021622366786pt_BR
dc.contributor.referee1MARINHO, Leandro Balby.-
dc.contributor.referee2LÓSCIO, Bernadette Farias.-
dc.description.resumoDiversos métodos de Resolução de Entidades (RE) têm sido desenvolvidos na academia e indústria ao longo dos anos com o intuito de identificar entidades (e.g.registros) duplicadas em bases de dados a fim de tratá-las. Para avaliar a qualidade dos resultados de tais métodos, é necessário compará-los com um gabarito, que consiste em um documento contendo todos os pares de registros duplicados conhecidos em uma base de dados. A geração desses gabaritos para bases de dados reais é feita de forma manual a partir da inspeção de todas as combinações de pares de registros existentes nessas bases. Isso apresenta complexidade quadrática, com relação ao(s) tamanho(s) da(s) base(s) de dados, o que acarreta na necessidade e bastante tempo para realização da tarefa e na possibilidade de introdução de erros. Em virtude disto,alguns trabalhos apresentam abordagens automáticas ou semiautomáticas para geração de gabaritos para a tarefa de RE que, no entanto, ou não são aplicáveis a domínios variados ou ainda requerem um esforço manual considerável. Neste trabalho é proposta GTGenERAL, uma abordagem semiautomática que combina resultados de múltiplos algoritmos de RE juntamente com Aprendizagem Ativa para gerar gabaritos, com redução de esforço manual. Experimentos usando bases de dados reais mostram que a abordagem é capaz de gerar gabaritos próximos àqueles gerados pela abordagem do estado da arte, enquanto reduz substancialmente o esforço manual empreendido no processo.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCentro de Engenharia Elétrica e Informática - CEEIpt_BR
dc.publisher.programPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOpt_BR
dc.publisher.initialsUFCGpt_BR
dc.subject.cnpqCiência da Computaçãopt_BR
dc.titleExplorando aprendizagem ativa para reduzir o esforço manual na geração de gabaritos para resolução de entidades.pt_BR
dc.date.issued2019-05-22-
dc.description.abstractSeveral methods of Entity Resolution (ER) have been developed both at academia and industry over the years, with the aim to identify duplicate entities (e.g.records) in datasets. To evaluate the efficacy of such methods, it is necessary to compare their results with a ground-truth, which consists of a document containing all known duplicate record pairs in a dataset. In general, the generation of ground-truths for real datasets is done manually from the inspection of all combinations of pairs of records in a dataset. However, this is subject to error and presents quadratic complexity, with respect to the size(s) of the dataset(s), requiring a long time to be performed. In this context, some works present (semi) automatic approaches for the generation of ground-truths for the ER task. However, such approaches are either not applicable to several domains or still require a considerable manual effort. In this work, we propose GTGenERAL, a semiautomatic approach which combines results from multiple algorithms of ER together with Active Learning to generate ground-truths employing reduced manual effort. Experiments using real datasets show that, with great manual effort reduction, GTGenERAL is able to generate ground-truths close to those generated by the state-of-the-art approach, while substantially reducing the manual effort undertaken in the process.pt_BR
dc.identifier.urihttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376-
dc.date.accessioned2019-10-23T09:26:35Z-
dc.date.available2019-10-21-
dc.date.available2019-10-23T09:26:35Z-
dc.typeDissertaçãopt_BR
dc.subjectResolução de Entidadespt_BR
dc.subjectDeduplicaçãopt_BR
dc.subjectGabaritopt_BR
dc.subjectAprendizagem de Máquinapt_BR
dc.subjectAprendizagem Ativapt_BR
dc.subjectClassificaçãopt_BR
dc.subjectRecord Linkagept_BR
dc.subjectDeduplicationpt_BR
dc.subjectGround-Truthpt_BR
dc.subjectMachine Learningpt_BR
dc.subjectActive Learningpt_BR
dc.subjectClassificationpt_BR
dc.rightsAcesso Abertopt_BR
dc.creatorARAÚJO, Diego Fernandes de.-
dc.publisherUniversidade Federal de Campina Grandept_BR
dc.languageporpt_BR
dc.title.alternativeExploring active learning to reduce manual effort in generating entity resolution templates.pt_BR
dc.identifier.citationARAÚJO, D. F. de. Explorando aprendizagem ativa para reduzir o esforço manual na geração de gabaritos para resolução de entidades. 2019. 76 f. Dissertação (Mestrado em Ciência da Computação) – Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2019. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376pt_BR
Appears in Collections:Mestrado em Ciência da Computação.

Files in This Item:
File Description SizeFormat 
DIEGO FERNANDES DE ARAÚJO - DISSERTAÇÃO (PPGCC) 2019.pdfDiego Fernandes de Araújo - Dissertação PPGCC 20191.85 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.