terça-feira, 13 de março de 2012

Corpus de textos históricos

CORPTEXLIT – Corpus de Língua Portuguesa de Textos Literários do Século XIX


Projeto vinculado ao CompLin – Computação e Linguagem Natural, grupo de pesquisa sobre lingüística computacional, lingüística de corpus e gramática gerativa na Universidade Federal do Ceará



Descrição

O CORPTEXLIT é um corpus de textos de literatura brasileira do século XIX que compreenderá 40 obras do período anotadas morfossintaticamente de forma automática, totalizando cerca de 2,500,000 tokens, com 10% a serem revistos manualmente, constituindo base para versões mais robustas do etiquetador utilizado, o Aelius (Alencar, 2010). Dada a dimensão histórica do CORPTEXLIT, adotamos o sistema de anotação do Corpus Histórico do Português Tycho Brahe (CHPTB). Dessa forma, o CORPTEXLIT preencherá lacuna deixada em aberto pelo CHPTB, que, no momento, só dispõe de um único texto brasileiro do século XIX anotado (Alencar, 2010).
O projeto iniciou-se em junho de 2010 e tem uma duração prevista de 4 anos. No momento, está anotado automaticamente o romance Luzia-Homem, com os oito primeiros capítulos (quase 25% do total) manualmente corrigidos (para mais detalhes, ver Alencar, 2010).
Adotando a filosofia do software livre, o CORPTEXLIT será distribuído livremente à comunidade de estudantes e pesquisadores para utilização sem finalidades comerciais. O projeto está aberto, igualmente, à participação de quem quer que, imbuído dessa filosofia, se disponha a colaborar. Especialmente bem-vinda é a colaboração na revisão dos textos. Escreva-nos caso se interesse em participar do projeto. 

Equipe

  • Prof. Dr. Leonel Figueiredo de Alencar – Coordenador
  • Andréa Feitosa dos Santos – Bolsista da FUNCAP – Doutoranda  – Programa de Pós-Graduação em Lingüística
  • André Chaves Santiago – Bolsista de Iniciação Científica (PIBIC) do CNPq
  • Roberto Lopes da Silva Filho – Bolsista de Iniciação Científica (PIBIC) da UFC

Amostra do Corpus

Luzia-Homem (1903), de Domingos Olímpio (1850-1906)

Início do 1º capítulo

Anotação automática pelo Aelius

Etiquetador RUBT com cadeia de backoff [RegexpTagger, UnigramTagger, BigramTagger, TrigramTagger]

Versão anotada automaticamente sem correções (erros destacados em negrito)

Neste trecho de Luzia-Homem, o etiquetador RUBT do Aelius comete 5 erros em um total de 158 tokens, alcançando índice de acurácia de 96.84%.

O/D<1> morro/N<2> do/P+D<3> Curral/NPR<4> do/P+D<5> Açougue/NPR<6> emergia/VB-D<7> em/P<8> suave/ADJ-G<9> declive/N<10> da/P+D-F<11> campina/N<12> ondulada/VB-AN-F<13> ./.<14>
Escorchado/VB-AN<15> ,/,<16> indigente/ADJ-G<17> de/P<18> arvoredo/N<19> ,/,<20> o/D<21> cômoro/N<22> enegrecido/VB-AN<23> pelo/P+D<24> sangue/N<25> de/P<26> reses/N-P<27> sem/P<28> conto/N<29> ,/,<30> deixara/VB-RA<31> de/P<32> ser/SR<33> o/D<34> sítio/N<35> sinistro/N<36> do/P+D<37> matadouro/N<38> e/CONJ<39> a/D-F<40> pousada/N<41> predileta/ADJ-F<42> de/P<43> bandos/N-P<44> de/P<45> urubutingas/N-P<46> e/CONJ<47> camirangas/N-P<48> vorazes/ADJ-G-P<49> ./.<50>


Bateram/VB-D<51> -/+<52> se/SE<53> os/D-P<54> vastos/ADJ-P<55> currais/N-P<56> ,/,<57> de/P<58> grossos/ADJ-P<59> esteios/N-P<60> de/P<61> aroeira/N<62> ,/,<63> fincados/VB-AN-P<64> a/P<65> pique/N<66> ,/,<67> rijos/ADJ-P<68> como/CONJS<69> barras/N-P<70> de/P<71> ferro/N<72> ,/,<73> currais/N-P<74> seculares/ADJ-G-P<75> ,/,<76> obra/N<77> ciclópica/ADJ-F<78> ,/,<79> da/P+D-F<80> qual/WPRO<81> restava/VB-D<82> apenas/ADV<83> ,/,<84> como/CONJS<85> lúgubre/ADJ-G<86> vestígio/N<87> ,/,<88> o/D<89> moirão/VB-R<90> ligeiramente/ADV<91> inclinado/VB-AN<92> ,/,<93> adelgaçado/VB-AN<94> no/P+D<95> centro/N<96> ,/,<97> polido/ADJ<98> pelo/P+D<99> contínuo/ADJ<100> atrito/N<101> das/P+D-F-P<102> cordas/N-P<103> de/P<104> laçar/VB<105> as/D-F-P<106> vítimas/N-P<107> ,/,<108> que/WPRO<109> a/D-F<110> ele/PRO<111> eram/SR-D<112> arrastadas/VB-AN-F-P<113> aos/P+D-P<114> empuxões/N-P<115> ,/,<116> bufando/VB-G<117> ,/,<118> resistindo/VB-G<119> ,/,<120> ou/CONJ<121> entregando/VB-G<122> ,/,<123> resignadas/VB-AN-F-P<124> e/CONJ<125> mansas/N-P<126> ,/,<127> o/D<128> pescoço/N<129> à/P+D-F<130> faca/N<131> do/P+D<132> magarefe/N<133> ./.<134>
Ali/ADV<135> ,/,<136> no/P+D<137> sítio/N<138> de/P<139> morte/N<140> ,/,<141> fervilhavam/VB-D<142> ,/,<143> então/ADV<144> ,/,<145> em/P<146> ruidosa/ADJ-F<147> diligência/N<148> ,/,<149> legiões/N-P<150> de/P<151> operários/N-P<152> construindo/VB-G<153> a/D-F<154> penitenciária/N<155> de/P<156> Sobral/NPR<157> ./.<158>

Versão anotada corrigida (correções em negrito)

O/D<1> morro/N<2> do/P+D<3> Curral/NPR<4> do/P+D<5> Açougue/NPR<6> emergia/VB-D<7> em/P<8> suave/ADJ-G<9> declive/N<10> da/P+D-F<11> campina/N<12> ondulada/VB-AN-F<13> ./.<14>
Escorchado/VB-AN<15> ,/,<16> indigente/ADJ-G<17> de/P<18> arvoredo/N<19> ,/,<20> o/D<21> cômoro/N<22> enegrecido/VB-AN<23> pelo/P+D<24> sangue/N<25> de/P<26> reses/N-P<27> sem/P<28> conto/N<29> ,/,<30> deixara/VB-RA<31> de/P<32> ser/SR<33> o/D<34> sítio/N<35> sinistro/ADJ<36> do/P+D<37> matadouro/N<38> e/CONJ<39> a/D-F<40> pousada/N<41> predileta/ADJ-F<42> de/P<43> bandos/N-P<44> de/P<45> urubutingas/N-P<46> e/CONJ<47> camirangas/N-P<48> vorazes/ADJ-G-P<49> ./.<50>


Bateram/VB-D<51> -/+<52> se/SE<53> os/D-P<54> vastos/ADJ-P<55> currais/N-P<56> ,/,<57> de/P<58> grossos/ADJ-P<59> esteios/N-P<60> de/P<61> aroeira/N<62> ,/,<63> fincados/VB-AN-P<64> a/P<65> pique/N<66> ,/,<67> rijos/ADJ-P<68> como/CONJS<69> barras/N-P<70> de/P<71> ferro/N<72> ,/,<73> currais/N-P<74> seculares/ADJ-G-P<75> ,/,<76> obra/N<77> ciclópica/ADJ-F<78> ,/,<79> da/P+D-F<80> qual/WPRO<81> restava/VB-D<82> apenas/ADV<83> ,/,<84> como/CONJS<85> lúgubre/ADJ-G<86> vestígio/N<87> ,/,<88> o/D<89> moirão/N<90> ligeiramente/ADV<91> inclinado/VB-AN<92> ,/,<93> adelgaçado/VB-AN<94> no/P+D<95> centro/N<96> ,/,<97> polido/VB-AN<98> pelo/P+D<99> contínuo/ADJ<100> atrito/N<101> das/P+D-F-P<102> cordas/N-P<103> de/P<104> laçar/VB<105> as/D-F-P<106> vítimas/N-P<107> ,/,<108> que/WPRO<109> a/P<110> ele/PRO<111> eram/SR-D<112> arrastadas/VB-AN-F-P<113> aos/P+D-P<114> empuxões/N-P<115> ,/,<116> bufando/VB-G<117> ,/,<118> resistindo/VB-G<119> ,/,<120> ou/CONJ<121> entregando/VB-G<122> ,/,<123> resignadas/VB-AN-F-P<124> e/CONJ<125> mansas/ADJ-F-P<126> ,/,<127> o/D<128> pescoço/N<129> à/P+D-F<130> faca/N<131> do/P+D<132> magarefe/N<133> ./.<134>
Ali/ADV<135> ,/,<136> no/P+D<137> sítio/N<138> de/P<139> morte/N<140> ,/,<141> fervilhavam/VB-D<142> ,/,<143> então/ADV<144> ,/,<145> em/P<146> ruidosa/ADJ-F<147> diligência/N<148> ,/,<149> legiões/N-P<150> de/P<151> operários/N-P<152> construindo/VB-G<153> a/D-F<154> penitenciária/N<155> de/P<156> Sobral/NPR<157> ./.<158>


Anotação por etiquetadores do Projeto Lácio-Web (http://www.nilc.icmc.usp.br/lacioweb/ferramentas.htm)

TreeTagger

Neste trecho de Luzia-Homem, o TreeTagger comete 25 erros em um total de 164 tokens, alcançando índice de acurácia de 84,76%. As etiquetas precedidas de @ assinalam correções manuais desses erros.

O/ART morro/N de/PREP|+ o/ART Curral/N@NPROP de/PREP|+ o/ART Açougue/NPROP emergia/N@V em/PREP suave/ADJ declive/N de/PREP|+ a/ART campina/N ondulada/PCP ./.
Escorchado/NPROP@PCP ,/, indigente/N@ADJ de/PREP arvoredo/N ,/, o/ART cômoro/N enegrecido/PCP pelo/PDEN@PREP|+ART sangue/N de/PREP reses/N sem/PREP conto/N ,/, deixara/V@VAUX de/PREP ser/V o/ART sítio/N sinistro/N@ADJ de/PREP|+ o/ART matadouro/N e/KC a/ART pousada/PCP@N predileta/N@ADJ de/PREP bandos/N de/PREP urubutingas/N e/KC camirangas/N vorazes/ADJ ./.

Bateram-se/KS@V|+PROPESS os/ART vastos/ADJ currais/N ,/, de/PREP grossos/PROADJ@ADJ esteios/N de/PREP aroeira/N ,/, fincados/N@PCP a/PREP pique/N ,/, rijos/N@ADJ como/PREP barras/N de/PREP ferro/N ,/, currais/N seculares/ADJ ,/, obra/N ciclópica/ADJ ,/, de/PREP@PREP|+ a/PROSUB qual/PRO-KS-REL restava/V apenas/PDEN ,/, como/PREP lúgubre/ADJ vestígio/N ,/, o/ART moirão/N ligeiramente/ADV inclinado/PCP ,/, adelgaçado/PCP em/PREP|+ o/ART centro/N ,/, polido/N@PCP pelo/PDEN@PREP|+ART contínuo/ADJ atrito/N das/NPROP@PREP|+ART cordas/N de/PREP laçar/V as/ART vítimas/N ,/, que/KS@PRO-KS-REL a/PROSUB@PREP ele/PROPESS eram/V@VAUX arrastadas/PCP aos/ADV@PREP|+ART empuxões/N ,/, bufando/N@V ,/, resistindo/V ,/, ou/KC entregando/V ,/, resignadas/N@PCP e/KC mansas/N@ADJ ,/, o/ART pescoço/N à/PREP@PREP|+ART faca/N de/PREP|+ o/ART magarefe/N ./.
Ali/ADV ,/, em/PREP|+ o/ART sítio/N de/PREP morte/N ,/, fervilhavam/V ,/, então/ADV ,/, em/PREP ruidosa/ADJ diligência/N ,/, legiões/N de/PREP operários/N construindo/V a/ART penitenciária/N de/PREP Sobral/NPROP ./.

BrillTagger

Neste trecho de Luzia-Homem, o BrillTagger comete 26 erros em um total de 164 tokens, alcançando índice de acurácia de 84,15%. As etiquetas precedidas de @ assinalam correções manuais desses erros.

O/ART morro/N de/PREP@PREP|+ o/ART Curral/NPROP de/PREP@PREP|+ o/ART Açougue/NPROP emergia/N@V em/PREP|+@PREP suave/ADJ declive/N de/PREP@PREP|+ a/ART campina/N ondulada/PCP ./.
Escorchado/PCP ,/, indigente/N@ADJ de/PREP arvoredo/N ,/, o/ART cômoro/N enegrecido/PCP pelo/PDEN@PREP|+ART sangue/N de/PREP reses/N sem/PREP conto/N ,/, deixara/VAUX de/PREP ser/VAUX@V o/ART sítio/N sinistro/ADJ de/PREP o/ART matadouro/N e/KC a/ART pousada/N predileta/N@ADJ de/PREP bandos/N de/PREP urubutingas/N e/KC camirangas/N vorazes/N@ADJ ./.

Bateram-se/NPROP@V|+PROPESS os/ART vastos/N@ADJ currais/N ,/, de/PREP grossos/ADJ esteios/N de/PREP aroeira/N ,/, fincados/PCP a/ART@P pique/N ,/, rijos/N@ADJ como/PREP barras/N de/PREP ferro/N ,/, currais/N seculares/ADJ ,/, obra/N ciclópica/ADJ ,/, de/PREP@PREP|+ a/ART@PROSUB qual/PRO-KS-REL restava/V apenas/PDEN ,/, como/PREP lúgubre/N@ADJ vestígio/N ,/, o/ART moirão/N ligeiramente/ADV inclinado/PCP ,/, adelgaçado/PCP em/PREP|+ o/ART centro/N ,/, polido/PCP pelo/PDEN@PREP|+ART contínuo/ADJ atrito/N das/NPROP@PREP|+ART cordas/N de/PREP laçar/V as/ART vítimas/N ,/, que/PRO-KS-REL a/ART@PREP ele/PROPESS eram/V@VAUX arrastadas/PCP aos/ADV@PREP|+ART empuxões/N ,/, bufando/V ,/, resistindo/V ,/, ou/KC entregando/V ,/, resignadas/PCP e/KC mansas/N@ADJ ,/, o/ART pescoço/N à/NPROP@PREP|+ART faca/N de/PREP@PREP|+ART o/ART magarefe/N ./.
Ali/ADV ,/, em/PREP|+ o/ART sítio/N de/PREP morte/N ,/, fervilhavam/V ,/, então/ADV ,/, em/PREP|+@PREP ruidosa/ADJ diligência/N ,/, legiões/N de/PREP operários/N construindo/V a/ART penitenciária/N de/PREP Sobral/NPROP ./.


Anotação por etiquetador construído por meio do VLMMTagger

Neste trecho de Luzia-Homem, um etiquetador treinado em 100% de uma versao depurada CHPTB, usando o VLMMTagger, comete 8 erros em um total de 158 tokens, alcançando índice de acurácia de 94,94%. As etiquetas precedidas de @ assinalam correções manuais desses erros.

O/D morro/N do/P+D Curral/N@NPR do/P+D Açougue/N@NPR emergia/NPR@VB-D em/P suave/ADJ-G declive/N da/P+D-F campina/N ondulada/NPR@VB-AN-F ./.
Escorchado/VB-AN ,/, indigente/ADJ-G de/P arvoredo/N ,/, o/D cômoro/N enegrecido/VB-AN pelo/P+D sangue/N de/P reses/N-P sem/P conto/N ,/, deixara/VB-RA de/P ser/SR o/D sítio/N sinistro/NPR@ADJ do/P+D matadouro/N e/CONJ a/D-F pousada/N predileta/ADJ-F de/P bandos/N-P de/P urubutingas/N-P e/CONJ camirangas/N-P vorazes/ADJ-G-P ./.


Bateram/VB-D -/+ se/SE os/D-P vastos/ADJ-P currais/N-P ,/, de/P grossos/ADJ-P esteios/N-P de/P aroeira/N ,/, fincados/VB-AN-P a/P pique/N ,/, rijos/ADJ-P como/CONJS barras/N-P de/P ferro/N ,/, currais/N-P seculares/ADJ-G-P ,/, obra/N ciclópica/ADJ-F ,/, da/P+D-F qual/WPRO restava/VB-D apenas/ADV ,/, como/CONJS lúgubre/ADJ-G vestígio/N ,/, o/D moirão/N ligeiramente/ADV inclinado/VB-AN ,/, adelgaçado/VB-AN no/P+D centro/N ,/, polido/VB-AN pelo/P+D contínuo/ADJ atrito/N das/P+D-F-P cordas/N-P de/P laçar/VB as/D-F-P vítimas/N-P ,/, que/C@WPRO a/P ele/PRO eram/SR-D arrastadas/VB-AN-F-P aos/P+D-P empuxões/N-P ,/, bufando/VB-G ,/, resistindo/VB-G ,/, ou/CONJ entregando/VB-G ,/, resignadas/VB-AN-F-P e/CONJ mansas/N-P@ADJ-F-P ,/, o/D pescoço/N à/P+D-F faca/N do/P+D magarefe/NPR@N ./.
Ali/ADV ,/, no/P+D sítio/N de/P morte/N ,/, fervilhavam/VB-D ,/, então/ADV ,/, em/P ruidosa/ADJ-F diligência/N ,/, legiões/N-P de/P operários/N-P construindo/VB-G a/D-F penitenciária/N de/P Sobral/NPR ./. 

Acesso ao corpus

Em construção.

Documentos

Guia de revisão da anotação morfossintática automática

Publicações

ALENCAR, Leonel Figueiredo de. Aelius: uma ferramenta para anotação automática de corpora usando o NLTK. Trabalho aceito para apresentação como pôster no ELC 2010 – IX Encontro de Linguística de Corpus, na PUCRS, em Porto Alegre, em 8 e 9 de outubro de 2010.

SANTOS, Andréa Feitosa dos; OLIVEIRA JÚNIOR, Raimundo Cleodimar. Etiquetagem morfossintática de um corpus do português do Nordeste para extração automática de entradas lexicais. Trabalho aceito para apresentação como work in progress no ELC 2010 – IX Encontro de Linguística de Corpus, na PUCRS, em Porto Alegre, em 8 e 9 de outubro de 2010.


ALENCAR, L. F. de. A wide-coverage free/open-source deep parser for Brazilian Portuguese: a work in progress. Trabalho apresentado via teleconferência no Encontro Logics and Ontologies for Portuguese, na Escola de Matemática Aplicada da Fundação Getúlio Vargas, Rio de Janeiro, de 21 a 25 de novembro de 2011. Disponível em: http://emap.fgv.br/events/nlp-2011/program.html Acesso em: 1º dez. 2011. 

ALENCAR, Leonel Figueiredo de. Aelius Brazilian Portuguese POS-Tagger. Disponível em: http://aelius.sourceforge.net/

Última atualização desta página: 05/04/2012

© 2010 – 2012  Leonel F. de Alencar   

Página do CompLin – Lingüística Computacional e Lingüística de Corpus no Diretório dos Grupos de Pesquisa no Brasil


Nenhum comentário:

Postar um comentário