Innovación

El MIT crea un algoritmo que descifra automáticamente idiomas muertos

WikiCommons

Existen todavía muchísimos idiomas muertos cuyos textos no podemos leer ya que no están descifrados. El MIT ha creado un innovador sistema de Inteligencia Artificial con el que podremos comprenderlos.

La mayoría de idiomas que han vertebrado diversas civilizaciones de nuestro planeta ya no se hablan pero además, los vestigios y textos de docenas de ellos que han llegado hasta nuestros días no han podido descifrarse ya que no sabemos lo bastante acerca de su gramática, vocabulario o sintaxis, puesto que no existe un lenguaje relativo bien investigado con el que compararlos.

No obstante, los avances tecnológicos nos echan un cable. En concreto, los filólogos y antropólogos agradecerán este pionero sistema de machine learning basado en IA. Se trata de un programa capaz de descifrar de forma automática idiomas perdidos, utilizando solo unos pocos miles de palabras.

Los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) son los responsables tras este algoritmo capaz de descifrar automáticamente un lenguaje perdido, sin necesidad de conocimientos avanzados de su relación con otros lenguajes. Su sistema también puede determinar por sí mismo las relaciones entre lenguas. Por ejemplo, lo usaron para corroborar estudios recientes que confirman que el euskera no está relacionado con las lenguas románicas como el castellano.

Texto de antiguas tablas de arcilla transcrito por machine learning

Encabezado por la profesora Regina Barzilay del MIT, el sistema se basa en varios principios basados ​​en conocimientos de la lingüística histórica, como el hecho de que los idiomas generalmente solo evolucionan de ciertas formas predecibles. Por ejemplo, si bien un idioma determinado rara vez agrega o elimina un sonido completo, es probable que se produzcan ciertas sustituciones de sonido. Una palabra con una “p” en el idioma principal puede cambiar a una “b” en el idioma descendiente, pero el cambio a una “k” es menos probable debido a la brecha significativa de pronunciación.

Junto con el estudiante doctorado del MIT Jiaming Luo, estos especialistas desarrollaron un algoritmo de descifrado, el cual aprende a incrustar los sonidos del lenguaje en un espacio multidimensional donde las diferencias en la pronunciación se reflejan en la distancia entre los vectores correspondientes. Así, el diseño del sistema inteligente puede capturar patrones pertinentes de cambio de lenguaje y expresarlos como restricciones computacionales. El modelo resultante puede segmentar palabras en un idioma antiguo y asignarlas a sus contrapartes en un idioma relacionado.

Un algoritmo capaz de inferir la relación entre los idiomas

El proyecto se basa en un documento que Barzilay y Luo escribieron el año pasado, el cual descifró dos idiomas desaparecidos: el ugarítico y el lineal B, el último de los cuales se tardo décadas en decodificar. El principal avance de la presente investigación es que en aquel entonces el equipo conocía la relación respectiva de dichos idiomas con el hebreo y el griego. 

Con el nuevo sistema, el algoritmo infiere la relación entre los idiomas, uno de los desafíos más importantes a la hora de descifrar un lenguaje muerto. Así, la IA mide la proximidad entre idiomas, identificando con precisión familias idiomáticas. El equipo aplicó su algoritmo al ibérico considerando al vasco, así como a los candidatos menos probables de las familias romance, germánica, turca y urálica. Si bien el vasco y el latín estaban más cerca del ibérico que otros idiomas, todavía eran demasiado diferentes para considerarlos relacionados.

Loa próximos planes pasan de ampliar el punto de mira y además de conectar textos con palabras relacionadas en un idioma conocido, identificar el significado semántico de las palabras, incluso si no saben cómo leerlas. “Pomos identificar todas las referencias a personas o lugares en el documento que luego pueden investigarse más a la luz de la evidencia histórica conocida”, explica Barzilay. “Estos métodos de ‘reconocimiento de entidades’ se utilizan comúnmente en varias aplicaciones de procesamiento de texto en la actualidad y son muy precisos, pero la pregunta clave de la investigación es si la tarea es factible sin datos de entrenamiento en el idioma antiguo”.

Imagen | WikiCommons

Fuente | MIT News

Te recomendamos

Sobre el autor

Andrea Núñez-Torrón Stock

Licenciada en Periodismo y creadora de la revista Literaturbia. Entusiasta del cine, la tecnología, el arte y la literatura.