Extração de passagens de texto usando um método independente de domínio.

Please use this identifier to cite or link to this item: https://dspace.sti.ufcg.edu.br/jspui/handle/riufcg/4982

Full metadata record

DC Field	Value	Language
dc.creator.ID	SILVA, W. J.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/0360011804148231	pt_BR
dc.contributor.advisor1	SAMPAIO, Marcus Costa.	-
dc.contributor.advisor1ID	SAMPAIO, M. C.	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/7407058401863661	pt_BR
dc.contributor.referee1	SCHIEL, Ulrich.	-
dc.contributor.referee1ID	SCHIEL, U.	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/2971250918247087	pt_BR
dc.contributor.referee2	SILVA, Altigran Soares da.	-
dc.contributor.referee2ID	SILVA, A. S.	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/3405503472010994	pt_BR
dc.description.resumo	Extração de Informação (EI) é uma coleção de métodos e técnicas que têm como objetivo extrair, de fontes semi-estruturadas ou não-estruturadas, informação relevante. Um sistema de EI é capaz de extrair, de fontes de informação textuais, apenas informação que seja do interesse dos usuários do sistema, as partes que não são interessantes aos usuários não são extraídas. Nesta dissertação, é proposto um novo método supervisionado de EI em que a informação extraída, partes de um texto, não é estruturada; isto representa um avanço em relação à EI ‘tradicional’, em que a informação extraída é estruturada segundo um template definido por usuário. Sendo supervisionada, a extração de informação de novos documentos é induzida de uma coleção prévia de documentos com suas partes relevantes assinaladas - conjunto de treinamento -; porém, o método inova sentido de que o conjunto de treinamento pode ser muito pequeno em termos absolutos, resultando em um baixo custo de preparação do mesmo. Outra novidade do método está em sua técnica de extração, que é uma adequada combinação de técnicas existentes. Independência de domínio e de formato de documentos são outras duas importantes características do método. Para a validação do método, o sistema TIES-Textual Information Extraction System foi desenvolvido e testado com dois domínios díspares, um sobre sistemas elétricos de potência e o outro sobre legislação para administração pública: os resultados dos testes, para os dois domínios, revelaram-se promissores.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.program	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Ciência da Computação	pt_BR
dc.title	Extração de passagens de texto usando um método independente de domínio.	pt_BR
dc.date.issued	2009-08-11	-
dc.description.abstract	Information Extraction (IE) is a collection of methods and techniques that have as objective to extract, from semi-structured or non-structured data sources, relevant information. An EI system is able to extract, from textual information sources, only information that is of interest to system users, the parts that are not interesting to users are not extracted. In this work, a new supervised IE method is proposed where the extracted information, text parts, is non-structured; this represents a progress in relation to 'traditional' IE, where the extracted information is structured according to a user-defined template. Being supervised, information extraction from new documents is induced from a previous collection of documents with their marked relevant - parts training set -; however, the method innovates in the sense that the training set can be very small in absolute terms, this way propitiating low cost of its preparation. Another innovation of the method is its extraction technique, that is an appropriate combination of existent techniques. Domain independence and independence of format of documents are other two important characteristics of the method. For the validation of the method, the system TIES-Textual Information Extraction System - was developed and tested with two disparate domains, one on electric power systems and the another on legislation for public administration: the results of the tests, for the two domains, were promising.	pt_BR
dc.identifier.uri	https://dspace.sti.ufcg.edu.br/jspui/handle/riufcg/4982	-
dc.date.accessioned	2019-07-22T13:08:28Z	-
dc.date.available	2019-07-22	-
dc.date.available	2019-07-22T13:08:28Z	-
dc.type	Dissertação	pt_BR
dc.subject	Extração de Informação	pt_BR
dc.subject	Dados Não-estruturados	pt_BR
dc.subject	Método de Extração Supervisionado	pt_BR
dc.subject	Similaridade Estrutural	pt_BR
dc.subject	Similaridade Textual	pt_BR
dc.subject	Information Extraction	pt_BR
dc.subject	Unstructured Data	pt_BR
dc.subject	Supervised Extraction Method	pt_BR
dc.subject	Structural Similarity	pt_BR
dc.subject	Textual Similarity	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	SILVA, Welmisson Jammesson da.	-
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	Extract text strings using a domain-independent method.	pt_BR
dc.identifier.citation	SILVA, Welmisson Jammesson da. Extração de passagens de texto usando um método independente de domínio. 2009. 91 f. Dissertação (Mestrado em Informática) - Programa de Pós-Graduação em Informática, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Campina Grande, Paraíba, Brasil, 2009. Disponível em: https://dspace.sti.ufcg.edu.br/jspui/handle/riufcg/4982	pt_BR
Appears in Collections:	Mestrado em Ciência da Computação.

Files in This Item:

File	Description	Size	Format
WELMISSON JAMMESSON DA SILVA-DISSERTAÇÃO (PPGCC) 2009..pdf	Welmisson Jammesson da Silva - Dissertação PPGCC 2009.	1.89 MB	Adobe PDF	View/Open

Show simple item record