Mancomún

Presentado Carvalho, o tradutor automático estatístico do inglés ao galego con licenza GPL

Xoves, 17 Xuño 2010

Imaxin|Software presentou onte, no Centro ON de Santiago de Compostela, o proxecto Carvalho, un proxecto de tradución automática estatística, de código aberto e sustentábel, entre o inglés e o galego encadrado dentro da plataforma de servizos de tradución automática Opentrad e publicado baixo licenza GPL.

Proxecto Carvalho

O proxecto está aberto á colaboración de toda a comunidade. O obxectivo é mellorar e enriquecer o corpus inglés-galego actual, que inclúe xa uns 71 millóns de palabras, contribuíndo ao tempo á plantación de especies autóctonas por toda a nosa xeografía, xa que Imaxin comprometeuse a facer repoboacións forestais de árbores autóctonas segundo vaia medrando o corpus coas achegas da comunidade.

Na web do proxecto teñen instrucións detalladas, mesmo con videotitorias, nas que se indica que unha das formas de colaborar é enviándolles ao proxecto corpora de inglés-galego ou de inglés-portugués. Este último se ademais se transforma ao galego sería de grande utilidade.

Este proxecto forma parte dunha nova liña de investigación aberta na empresa compostelá, consistente en por unha banda basear a tradución automática no uso de tecnoloxías de tradución estatística e por outro tomar como base para a mesma corpus aliñados entre o inglés e o portugués de Portugal, ante a inexistencia de corpus paralelos inglés – galego grandes dabondo. O punto de partida desta nova vía radica en que a tradución baseada en regras, empregada ata o momento polo sistema de tradución Opentrad, funciona de maneira excelente entre linguas lingüisticamente próximas como é o caso do español e o galego por exemplo, mais non resulta efectiva para linguas tan distantes como o inglés e o galego.
O tipo de tradución estatística en que se basea o proxecto Carvalho é o tipo coñecido como Phrase-based Statistical Machine Translation (tradución automática estatística baseada en frases). Os corpus de portugués e inglés empregados foron obtidos a través das actas do Parlamento Europeo, un material libremente dispoñible. Sobre estes fíxose unha adaptación dos termos portugueses ao galego. En grandes liñas, a metodoloxía subxacente a este tipo de tradución automática parte da descuberta nunha primeira fase de relacións estatísticas de aliñamento entre palabras e nunha segunda fase, partindo do aliñamento de palabras indúcese a relación entre chunks –isto é, segmentos– das oracións do corpus. Para a primeira fase empregouse o sistema GIZA++ e para a segunda empregouse Moses.

Esta estratexia innovadora está a ser moi ben valorada nos principais congresos científicos españois e portugueses de lingüística computacional e de corpus como a SEPLN, o CILC ou o ICEIS de Portugal. Durante o proceso de desenvolvemento deste proxecto, decatáronse de que Google seguira unha estratexia semellante, pero con algunhas diferenzas como por exemplo o feito de que a ferramenta do buscador non é quen de diferenciar de xeito claro entre galego e portugués.

Xunta

Xunta de Galicia, Información mantida e publicada na internet pola Xunta de Galicia

Atención á cidadanía - Accesibilidade - Aviso legal - Mapa do portal