O CoGrOO é constituído de diversos componentes. A versão corrente do Corretor Gramatical foi desenvolvida sobre o arcabouço OpenNLP. Para tal foi confeccionado códigos específicos para o OpenNLP trabalhar com a língua portuguesa corrente no Brasil. Os recursos utilizados para o treinamento foram o Corpus CETENFolha e um dicionário léxico.

Os componentes do CoGrOO são:

SentenceDetector: recebe um texto e delimita suas sentenças;
Tokenizer: delimita as palavras e marcas de pontuação de uma sentença;
ProperName Finder: delimita numa sentença os possíveis nomes próprios, inclusive nomes de pessoas, lugares e organizações, mas sem os classificar;
Part-of-Speech Tagger: etiquetar os tokens de uma sentença de acordo com sua classificação morfológica no contexto, seguindo a padronização de etiquetas do Palavra Constraint Grammar;
Chunker: processa um texto etiquetado e busca sintagmas nominais (NP) e verbais (VP);
Subject-Verb Finder: identifica o sujeito e o verbo principal de uma sentença;

Precisão dos anotadores
Os anotadores foram avaliados usando a técnica 10-fold Cross Validation. A versão corrente apresenta os seguintes valores:

Tokenizer: precisão 0,954, abrangência 0,975 – treinamento com 40000 sentenças, cutoff 150;
ProperName Finder: precisão 0,941, abrangência 0,946 – treinamento com 45000 sentenças, cutoff 250;
Part-of-Speech Tagger: precisão 0,961 – treinamento com 20000 sentenças, cutoff 150;
Chunker: precisão 0,772 (sentenças com todos os chunks corretamente delimitados) – treinamento com 20000 sentenças, cutoff 150;
Shallow Parser: precisão 0,688 (sentenças com todos os sujeitos e verbos corretamente delimitados) – treinamento com 20000 sentenças, cutoff 100;

Menu principal

Navegação

Você está aqui

Componentes do CoGrOO