CiTIUS y el Instituto da Lingua Galega presentan el primer modelo lingüístico de Inteligencia Artificial para el gallego. Carballo permitirá el desarrollo de herramientas tecnológicas y sistemas inteligentes creados específicamente para el gallego.

Carballo
Se trata de un modelo conocido como fundacional, por ser la pieza básica para construir herramientas versátiles y de muy alta calidad mediante IA generativa con tecnología lingüística, como chatbots, traductores o correctores automáticos.
Carballo necesita aún adaptaciones técnicas para convertirse en un sistema de diálogo con el que poder mantener una conversación fluida y ofrecer respuestas automáticas con una interacción sencilla e intuitiva.
Carballo es fruto de dos proyectos de investigación: Nós, impulsado por la Xunta de Galicia, e ILENIA, promovido por el Ministerio para la Transformación Digital y de la Función Pública para el impulso de todas las lenguas oficiales del Estado. En este sentido, el modelo gallego está basado en Flor1.3, el modelo homólogo desarrollado previamente para el catalán en el marco del proyecto AINA-ILENIA, que se desarrolla en el Barcelona Supercomputing Centre (BSC-CNS).

Carballo cuenta con una arquitectura GPT de 1.300 millones de ‘parámetros’.
Para el entrenamiento de Carballo se usó un corpus masivo de textos en gallego, llamado CorpusNós, formado por aproximadamente 2.100 millones de palabras.
Una parte significativa de este corpus fue elaborada en el contexto del propio Proyecto Nós, en virtud de numerosos convenios y acuerdos de cesión con empresas y organizaciones proveedoras de datos textuales.
Recursos libres y gratuitos
El proyecto ILENIA, impulsado por el Ministerio para la Transformación Digital y de la Función Pública, tiene como objetivo generar recursos digitales que permitan desarrollar aplicaciones multilingües en las diferentes lenguas oficiales del Estado. Junto a la USC (Nós, gallego) y el BSC-CNS (AINA, catalán), en el proyecto participan también los centros CENID (proyecto VIVES, valenciano) y HiTZ (proyecto NEL-GAITU, euskera). Cabe destacar que, junto a Carballo, fue también desarrollado en colaboración con la Universidad de Évora, el primer modelo fundacional gallego y portugués, Carvalho, con el objetivo de fortalecer nuestra lengua mediante la inclusión del portugués europeo.
El modelo fundacional Carballo para el gallego es un paso más en esta estrategia de disponer de las capacidades científico-tecnológicas para no depender de grandes corporaciones ajenas a la realidad social y cultural de Galicia, creando recursos abiertos y libres para que otras empresas e instituciones puedan desarrollar tecnologías lingüísticas en gallego de amplio interés social, e incluso económico.
Con respecto al Proyecto Nós, el equipo responsable de Carballo continúa trabajando en la mejora de la calidad del modelo, así como en el incremento del tamaño de nuevos modelos fundacionales y su adaptación a la resolución de múltiples tareas, tal y como ya hacen herramientas comerciales de uso extendido como ChatGPT. Por ahora ya está disponible un demostrador, que incluso permite un uso básico del modelo, junto con algunos ejemplos preconstruidos.
