Mancomún

Carballo, primer gran modelo de linguaxe para o galego

Luns, 8 Xullo 2024
Carballo, primer gran modelo de linguaxe para o galego

CiTIUS e o Instituto da Lingua Galega presentan o primeiro modelo lingüístico de Intelixencia Artificial para o galego. Carballo permitirá o desenvolvemento de ferramentas tecnolóxicas e sistemas intelixentes creados especificamente para o galego.

Ilustración dunha árbore saíndo dun libro

Carballo

Trátase dun modelo coñecido como fundacional, por ser a peza básica para construír ferramentas versátiles e de moi alta calidade mediante IA xerativa con tecnoloxía lingüística, como chatbots, tradutores ou correctores automáticos.

Carballo precisa aínda de adaptacións técnicas para se converter nun sistema de diálogo co que poder manter unha conversa fluída e ofrecer respostas automáticas cunha interacción sinxela e intuitiva.

Carballo é froito de dous proxectos de investigación: Nós, impulsado pola Xunta de Galicia, e ILENIA, promovido polo Ministerio para a Transformación Dixital e da Función Pública para o impulso de tódalas linguas oficiais do Estado. Neste sentido, o modelo galego está baseado en Flor1.3, o modelo homólogo desenvolvido previamente para o catalán no marco do proxecto AINA-ILENIA, que se desenvolve no Barcelona Supercomputing Centre (BSC-CNS).

Captura de pantalla de hugging face
Proxectonos/Carballo-bloom-1.3B

Carballo conta cunha arquitectura GPT de 1.300 millóns de ‘parámetros’.

Para o adestramento de Carballo usouse un corpus masivo de textos en galego, chamado CorpusNós, formado por aproximadamente 2.100 millóns de palabras.

Unha parte significativa deste corpus foi elaborada no contexto do propio Proxecto Nós, en virtude de numerosos convenios e acordos de cesión con empresas e organizacións fornecedoras de datos textuais.

Recursos libres e gratuítos

O proxecto ILENIA, impulsado polo Ministerio para a Transformación Dixital e da Función Pública, ten como obxectivo xerar recursos dixitais que permitan desenvolver aplicacións multilingües nas diferentes linguas oficiais do Estado. Xunto á USC (Nós, galego) e o BSC-CNS (AINA, catalán), no proxecto participan tamén os centros CENID (proxecto VIVES, valenciano) e HiTZ (proxecto NEL-GAITU, éuscaro). Cómpre subliñar que, xunto a Carballo, foi tamén desenvolvido en colaboración coa Universidade de Évora, o primeiro modelo fundacional galego e portugués, Carvalho, co obxectivo de fortalecer a nosa lingua mediante a inclusión do portugués europeo.

O modelo fundacional Carballo para o galego é un paso máis nesta estratexia de dispoñer das capacidades científico-tecnolóxicas para non depender de grandes corporacións alleas á realidade social e cultural de Galicia, creando recursos abertos e libres para que outras empresas e institucións poidan desenvolver tecnoloxías lingüísticas en galego de amplo interese social, e mesmo económico.

Polo que respecta ao Proxecto Nós, o equipo responsable de Carballo continúa a traballar na mellora da calidade do modelo, así como no incremento do tamaño de novos modelos fundacionais e a súa adaptación á resolución de múltiples tarefas, tal e como fan xa ferramentas comerciais de uso estendido como ChatGPT. Polo de agora xa está dispoñible un demostrador, que mesmo permite un uso básico do modelo, xunto con algúns exemplos preconstruídos.

Xunta

Xunta de Galicia, Información mantida e publicada na internet pola Xunta de Galicia

Atención á cidadanía - Accesibilidade - Aviso legal - Mapa do portal