Navegando los mapas del lenguaje

10-02-2018

Supongamos que te dieran una biblioteca con gran cantidad de libros en castellano, digamos unos diez mil, y otra con un número equivalente en una lengua que te es completamente desconocida, como por ejemplo sueco o finlandés. Y te pidieran que construyas un diccionario que permita traducir de un idioma al otro, identificando qué vocablo de esta lengua extraña equivale a cada uno en español. Seguramente lo primero que harías sería buscar libros en común en ambas bibliotecas. Una vez hecho esto, intentarías ir comparando ambos textos para descubrir de a poco las equivalencias.

Hacer esto suena sumamente laborioso, pero no demasiado difícil. Subamos entonces la dificultad. Imaginá que te dan más cantidad de textos aún en cada lengua, pero no hay ninguno que se repita, ninguno que puedas usar para hacer la comparación. ¿Sería posible en este caso descubrir el sentido de cada palabra en ese idioma totalmente ajeno? En un impresionante experimento reseñado hace dos meses en la prestigiosa revista Science, un grupo de investigadores logró demostrar que construir ese diccionario es viable. El secreto es entender los mapas del lenguaje.

Para ilustrarlo con un ejemplo, las palabras que designan a “mesa” y a “silla” seguramente aparezcan con frecuencia juntas en cualquier lengua que sea. Pero “mesa” también tendrá varias otras “amigas”, como “de examen” o “de operaciones” que casi nunca andan cerca de “silla”. Y contrariamente, ésta se junte cada tanto con “de ruedas” o “eléctrica” pero su amiga “mesa” no. Podemos avanzar viendo que “eléctrica” es también cercana a “corriente”, y esta es amiga de “marina” que casi no se ve con “eléctrica”. En otras palabras, la manera en que se agrupan las palabras en todas las lenguas tiene grandes similitudes. Y si podemos construir ese mapa de conexiones, después podemos superponerlos y detectar qué vocablo se corresponde con cuál. Por supuesto que construir este mapa es tan laborioso que no puede ser hecho a mano. Los científicos requirieron para ello de una súper computadora equipada con una red neuronal (IA).

Descifrar de este modo profundo la estructura del lenguaje tiene varias aplicaciones mucho más interesantes que fabricar diccionarios, como por ejemplo permitir identificar personas o determinar si cierto texto fue escrito por un determinado autor. Es que si bien todos los que hablamos español compartimos a grandes rasgos el mismo mapa, cada uno tiene una manera de redactar que es única, ciertas palabras que jamás usamos u otras a las que apelamos más a menudo que la media. Esas pequeñas variaciones funcionan como una “huella digital idiomática”.

El Bitcoin, por caso, fue creado por una persona que utilizó el seudónimo de Satoshi Nakamoto y cuya verdadera identidad se desconoce. La Agencia Nacional de Seguridad estadounidense habría usado esta técnica para identificarlo. También permitió conjeturar que algunos fragmentos de la obra de William Shakespeare Enrique VI fueron escritos en coautoría e incluso determinar que el coautor probablemente se tratara de Christopher Marlowe.  Finalmente, en un paper publicado por la revista Nature hace dos años, un grupo de investigadores entre los que se cuentan los argentinos Mariano Sigman y Diego Fernández Slezak utilizaron computadoras para buscar alteraciones en el mapa discursivo y así detectar tempranamente enfermedades psiquiátricas como la psicosis.

El uso de los mapas del lenguaje recién está comenzando y en los próximos años seguramente descubramos muchas otras fascinantes aplicaciones.

Esta nota fue publicada en la Revista La Nación el 11 de febrero de 2018

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *