En que consisten estas ferramentas?
Son tres ferramentas: un extractor de termos, un analizador sintáctico e un construtor de tesaurus. O extractor terminolóxico multilingüe o que fai é extraer as expresións chave de calquera texto, permitindo xerar os tópicos do texto e a partir destes crear resumos. O analizador sintáctico fai unha análise sintáctica do texto con todas as súas dependencias sintácticas (verbos, nomes, obxectos…). E a última das ferramentas, o construtor de tesaurus, integra o analizador sintáctico multilingüe co propósito de establecer os sinónimos ou as palabras parecidas foneticamente dentro dun texto.
Que achega de novidoso cada unha destas aplicacións?
O novidoso destas aplicacións, basicamente, é que son válidas para distintas linguas. Estas ferramentas foron desenvolvidas para galego, portugués, inglés, español e francés. Por exemplo, non había analizadores que cubrisen cinco linguas porque precisaban dunha gramática para cada unha delas, é dicir, un etiquetador. Nós o que fixemos foi coller etiquetadores libres, unificamos as súas saídas nunha soa saída. Isto é, collendo as regras comúns a todas estas linguas, fixemos varias gramáticas.
Sendo prácticos, para que serven estas ferramentas?
En realidade son ferramentas orientadas a cubrir as nosas necesidades científicas. Precisámolas para poder facer outros traballos de extracción automática ou outro tipo de traballos máis ambiciosos que che permitan publicar. Non buscamos as necesidades do usuario final, pero, cando ves que as ferramentas que desenvolves funcionan e están ben, libéralas para que outra xente se aproveite delas. Neste sentido, o extractor de termos é quizais a ferramenta máis intuitiva e por iso tamén está dispoñible o seu acceso na web. As outras dúas están máis orientadas ao desenvolvemento doutras aplicacións.
Podes poñerme un caso práctico?
"Este extractor de tesaurus ten un gran potencial para a mellora de buscadores como Google" |
O construtor de tesaurus non é para un usuario habitual, pero ten un gran potencial de cara, por exemplo, á mellora dos buscadores no que se refire á recuperación clásica de información. Poñamos por caso unha busca do termo “Madonna” en Google. Nesa busca hai unha certa ambigüidade, porque poden saír cousas sobre a cantante ou sobre arte renacentista. Con este tesaurus sería posible colocar palabras semellantes para cada un dos sentidos, de xeito que o usuario escollese a que realmente se adaptase á súa busca. Son servizos que aínda non aparecen nos grandes buscadores porque teñen un custo computacional en tempo de procesamento, pero por aí irá a cousa. É dicir, creo que é incluso probable que se evolucione cara a buscadores que analicen automaticamente varias palabras dunha pesquisa para ver cal é o sentido da busca.
Cal cres que é o potencial do software libre na investigación?
O software libre permite evitar a duplicidade de esforzos na investigación. O que fai un investigador é ler o que se está a facer e tentar mellorar os aspectos febles do que se fixo. Estas tres ferramentas, por exemplo, non se terían feito de non ser pola apertura dos códigos. As tres usan software libre desenvolvido por outra xente, concretamente, os etiquetadores Tree-tager, sen eles non se tería avanzado tanto nos aspectos innovadores destas ferramentas.
E, non obstante, hai unha morea de recursos pechados no eido da investigación, especialmente no campo da lingüística.
Precisamente. Eu non entendo como pode haber xente nas universidades ou nas institucións públicas que estea a desenvolver software privativo. Dende o punto de vista científico é absurdo, porque a ciencia mellora cantas máis posibilidades teñamos de acceder ao coñecemento doutras persoas.
Será un punto de vista egoísta?
Supoño que si, pero aínda dende ese punto de vista o software libre é moito máis poderoso có outro. As distribucións libres permiten que o teu traballo teña máis visualización. Por exemplo, Wordnet é unha base de datos lexical de libre distribución, que cientificamente é moi básica pero que ten unha gran difusión. por que? porque houbo moitísimos proxectos que tiveron como obxecto mellorar este recurso e agora é como a biblia no mundo da lexicografía computacional. Non obstante, hai outros recursos por aí que non son libres e que son usados polos seus autores e por algúns amigos dos seus autores. A idea pode ser mellor, pero ao final estas ferramentas non son coñecidas, non son usadas e non son melloradas. E fican esquecidas.
"Non existe ningún argumento para xustificar o peche do coñecemento" |
Que supón iso para o investigador?
Dende o punto de vista dun investigador é moi negativo porque a xente non te cita. Hoxe en día a principal forma de avaliar a un investigador é a través do número de xente que te cita. Se tes un recurso libre vas ser moi citado e por tanto vas ser un investigador mellor valorado. Por iso eu non encontro ningún argumento para xustificar o peche do coñecemento. O único que fas é non permitir que unha idea mellor ca outra se espalle e siga a enriquecerse.
En que outros proxectos estades a traballar?
Agora estamos coa extracción de léxico en dicionarios bilingües, para mellorar os sistemas de tradución automática. Coa empresa Imaxin imos comezar un proxecto co par de linguas inglés- galego. Para este traballo o que estou a facer é extraer automaticamente traducións multipalabra do galego para o inglés, construíndo así rapidamente o dicionario. É o que ten de positivo a extracción automática.
Canta xente traballades en proxectos de lingüística computacional?
Non somos moitos. Hai un grupo que é o de Gramática do Español pero é moi heteroxéneo. Basicamente dentro do grupo, estamos Paula Santalla, Susana Sotelo, Guillermo Rojo e máis eu. Trátase dunha pequena liña de investigación porque é moi difícil de fomentar. A filoloxía non está orientada a traballar nestas cousas, as filoloxías están orientadas a preparar os estudantes a sacar as oposicións de secundaria. O mundo da lingüística computacional está a mudar constantemente, pero como docencia é practicamente inexistente.
Quizais semelle un campo demasiado árido, o mesmo pode suceder no eido do software libre. Cres que é algo accesible para todo o mundo?
Para un usuario final o SwL significa gratuidade, aínda que non signifique só iso. Esa vantaxe por si mesma é fantástica. Pero é que ademais, o software llibre está pensado para desenvolvedores que lle saiban sacar o maior rendemento as aplicacións que emprega mediante a modificación do código fonte. Tanto o usuario non informático, coma o informático, aprovéitanse das melloras. Hai cinco anos a xente utilizaba Linux por ideoloxía, hoxe en día hai unha morea de razóns para facelo.
