Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

Araripe, Leonel Figueiredo de Alencar

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/19737

Tipo:	Artigo de Periódico
Título:	Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português
Título em inglês:	Using lexical information automatically extracted from corpora in the computational parsing of portuguese
Autor(es):	Araripe, Leonel Figueiredo de Alencar
Palavras-chave:	Linguística computacional;Processamento automático da linguagem natural;Etiquetagem morfossintática;Etiquetador morfossintático;Análise sintática automática;Gramática livre de contexto;Processamento computacional do português;Aquisição de conhecimento lexical;Aprendizado de máquina;Computational linguistics;Natural language processing;Morphosyntactic tagging;POS tagging;Part-of-speech tagging;Syntactic parsing;Context-free grammar;Computational processing of Portuguese;Lexical knowledge acquisition;Machine learning
Data do documento:	2011
Instituição/Editor/Publicador:	Revista de Estudos da Linguagem
Citação:	ARARIPE, Leonel Figueiredo de Alencar. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85, jan./jun. 2011.
Resumo:	No desenvolvimento de analisadores sintáticos profundos para textos irrestritos, a principal dificuldade a ser vencida é a modelação do léxico. Tradicionalmente, duas estratégias têm sido usadas para lidar com a informação lexical na análise sintática automática: a compilação de milhares de entradas lexicais ou a formulação de centenas de regras morfológicas. Devido aos processos produtivos de formação de palavras, aos nomes próprios ou a grafias não padrão, a primeira estratégia, que subjaz aos analisadores do português do Brasil (PB) livremente descarregáveis da Internet, não é robusta. A última estratégia, por sua vez, constitui tarefa não trivial de engenharia do conhecimento, consumindo muito tempo. No momento, o PB não dispõe de um analisador sintático de ampla cobertura licenciado como software livre. Visando ao preenchimento o mais rápido possível dessa lacuna, argumentamos neste artigo que uma solução bem menos custosa e muito mais eficiente para o gargalo lexical consiste em simplesmente reaproveitar, como componente lexical do processamento sintático profundo, etiquetadores morfossintáticos livremente disponíveis. Além disso, graças à ampla e gratuita disponibilidade de corpora morfossintaticamente anotados do PB e eficientes pacotes de aprendizado de máquina, a construção de etiquetadores de alta acurácia adicionais tornou-se uma tarefa que quase não demanda esforço. A fim de integrar facilmente o output de etiquetadores de diferentes arquiteturas em parsers tabulares de gramáticas livres de contexto compilados por meio do Natural Language Toolkit (NLTK), desenvolvemos um módulo em Python denominado ALEXP. Pelo que sabemos, o ALEXP é o primeiro software livre especialmente otimizado para o processamento do português a realizar essa tarefa. A funcionalidade da ferramenta é descrita por meio de protótipos de gramática do PB aplicados na análise de sentenças do mundo real, com resultados bastante promissores.
Abstract:	Lexicon modeling is the main difficulty to overcome when building deep syntactic parsers for unrestricted text. Traditionally, two strategies have been used for tackling lexical information in the domain of unrestricted syntactic parsing: compiling thousands of lexical entries or formulating hundreds of morphological rules. Due to productive word-formation processes, proper names, and non-standard spellings, the former strategy, resorted to by freely downloadable parsers for Brazilian Portuguese (BP), is not robust. On the other hand, deploying the latter is a time-intensive and non-trivial knowledge engineering task. At present, there is no open-source licensed wide-coverage parser for BP. Aiming at filling this gap as soon as possible, we argue in this paper that a much less expensive and much more efficient solution to the lexicon bottleneck in parsing is to simply reuse freely available morphosyntactic taggers as the system’s lexical analyzer. Besides, thanks to the free and broad availability of POS-tagged corpora for BP and efficient machine learning packages, building additional high accurate taggers has become an almost effortless task. In order to easily integrate the output of taggers constructed in different architectures into context-free grammar chart parsers compiled with the Natural Language Toolkit (NLTK), we have developed a Python module named ALEXP. To the best of our knowledge, this is the first free software specially optimized for processing Portuguese to accomplish such a task. The tool’s functionality is described by means of BP grammar prototypes applied to parsing real-world sentences, with very promising results.
URI:	http://www.repositorio.ufc.br/handle/riufc/19737
ISSN:	2237-2083
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	DLE - Artigos publicados em revistas científicas

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2011_art_lfdealencar.pdf		742,36 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas