Comunicarse a veces es realmente difícil, incluso
cuando hablamos nuestro propio idioma. La tecnología lo ha visto como un
reto desde una perspectiva que no sólo busca entenderlo, con teorías
matemáticas como la de Shannon, pero también hacer hacer una traducción
eficaz entre diferentes idiomas. Si las telecomunicaciones han logrado
romper la barrera de distancia el próximo objetivo es el de las lenguas.
¿Llegará un momento donde todos nos podremos entender en términos
lingüísticos? Estamos detrás de conseguir esta especie de piedra Rosetta
digital para acabar con aquel castigo divino que sufrimos al intentar
construir la torre de Babel. Microsoft ha dado un paso muy importante con su anuncio hoy pero no son los únicos trabajando en esta dirección.
De las máquinas de traducción a las redes neuronales artificiales
Ahora hablar de cosas como la traducción simultánea y usar latecnología para tal propósito nos parece algo muy innovador. Sin embargo
tiene ya unos cuantos años de historia. Ya en 1951 se empezó a gestar
la primera máquina de traducción, tres años más tarde se hizo la primera
demostración pública en la universidad de Georgetown.
El trabajo de investigadores como Yehosha Bar-Hillely Warren Weaver
nos demostraba que una máquina podía decodificar el texto, interpretarlo
y hacer una traducción no sólo literal sino también del significado que
tenía originalmente. Más que una solución final fue una tecnología que
empezó a atraer el interés de muchos otros científicos para sumarse a
este campo.
Se llegaron a fundar academias en Estados Unidos relacionadas con la
tecnología de la computación lingüística y se lograron hacer progresos
significativos. Sin embargo, un informe de 1966 tiró las expectativas
por los suelos ya que el progreso había sido insuficiente. De golpe se
perdió mucha de la fe que se había depositado en este proyecto.
Aún con eso no se perdió el interés por este proyecto y en Europa se
presentó en 1970 un software capaz de traducir el texto de los papers a
diferentes idiomas. Un proyecto ambicioso pero bastante realista para
demostrar que se podía hacer. ¿Por qué? Muy sencillo: el lenguaje de los
papers es bastante aséptico lo cual facilita pasar de un idioma a otro
en comparación con otro tipo de textos.
Pasaron los años y mientras la tecnología se hacía más económica
empezaron a aparecer compañías dedicadas a la traducción. La primera fue
Trados, 1984, aunque el primer software para el usuario final fue
desarrollado en la Universidad del estado de Kharkov y era capaz de
manejarse con ruso, inglés, alemán y ucraniano. De ahí ya saltamos a la
web con SYSTRAN, que además era gratuito y Altavista Babelfish en 1997.
Lo cierto es que sería injusto atribuirle todo el mérito a las
máquinas de traducción a la hora de derribar esa torre de Babel. Su
éxito a día de hoy es también el de otras tecnologías que han servido
para que podamos disfrutar de servicios como el que usan Microsoft y
Google a día de hoy.
Los sistemas de reconocimiento de voz tienen un peso muy importante.
De hecho, lo que ha presentado hoy Microsoft está basado en el estudio
de un algoritmo basado en la red neuronal artificial.Un paradigma
convencional de programación con el que se modelan los problemas para
posteriormente buscar una solución mediante un algoritmo codificado para
buscar una respuesta.
Y Skype se convirtió en algo más que una herramienta de videoconferencia
Cuando Microsoft compró Skype, muchos creyeron —con bastante atino—que la adquisición iba enfocada a reforzar la posición de los de Redmond
en el mundo de la mensajería y dar carpetazo a la era MSN Messenger.
Así fue, pero hay una realidad menos conocida que nos enseña que esta
operación escondía otros intereses que empiezan a ver la luz .
Durante décadas, se ha utilizado la tecnología para desarrollar herramientas de traducción de todo tipo.
No sólo para ayudar a las personas sino también para entender el
lenguaje humano y poder comprenderlo a un nivel que nos permita
comunicarnos con cualquier persona independientemente de nuestro idioma.
Microsoft no ha escatimado en recursos y ha puesto todo los medios
necesario para presentar por fin sus sistema de traducción simultánea en
tiempo real.
El trabajo que hoy presenta la división de investigación de Microsoft
es el fruto de muchos años buscando una herramienta no sólo de
traducción sino enfocada al habla. El reto ha sido
crearla pero también perfeccionarla para que sea útil y no una mera
demostración técnica de lo que se podía hacer. Querían hacer algo que
fuera útil para las personas, para quienes nos comunicamos día a día.
Hace unos meses empezó una beta en un pequeño grupo cerrado. Hoy, nuestros compañeros en Genbeta nos enseñan un vídeo para ver cómo funciona.
Es el trabajo de más de diez años de investigación por parte de
Microsoft y la colaboración con Skype ha sido clave para poder llevar a
cabo este proyecto.
Todo empezó en un centro de investigación en Beijing donde se
empezaron analizando secuencias de conversaciones de 24 horas. Con el
tiempo y según se refinaba la tecnología se iban procesando cadenas cada
vez más larga para seguir mejorando la eficacia de este sistema.
pasaron los años y fue en 2010 desarrollaron lo que se conoció como Translating! Telephone.
Fue la base para seguir avanzando en el proyecto que tenían en mente
tanto Skype como Microsoft para llevar a cabo su último gran anuncio: un
teléfono que nos permita hablar con otra persona independientemente del
idioma que hable.
Uno de los problemas que tuvo que afrontar este grupo de
investigadores fue la obtención de conversaciones para analizar. Se
obtuvieron muchos resultados de las redes sociales, que además incluían
el reto de ser una forma de hablar diferente a la que normalmente usamos
cuando tenemos a una persona delante nuestra.
Sin embargo el gran obstáculo fue hilar las palabras para darle un sentido.
Este ha sido el verdadero desafío para todos los sistemas de
traducción, independientemente de su naturaleza. No sólo vale con hacer
una consulta rápida en el diccionario sino que hay que respetar una
serie de reglas gramaticales sencillas o complejas, en función del
idioma, para dar sentido a toda una oración.
A todo esto hay que sumarle el reto de la interpretación de la voz.
Es cierto que este tipo de tecnologías han evolucionado mucho y a día de
hoy asistentes como Siri, Cortana o el de Google Now
nos parecen de lo más normal y eficaces, aunque sus defectos tienen por
supuesto. Según añadimos variables al sistema que propone Microsoft más
nos damos cuenta de lo difícil que es el reto tecnológico para entender
diferentes lenguas.
Si tenéis acceso, algo caro la verdad, merece la pena echarle un vistazo a algunos de los papers
que han publicado los investigadores que han trabajado con Microsoft.
Por ejemplo, en este documento escrito por Yu y Deng hablando por
primera vez de la red neural profunda, un concepto que luego se ha
utilizado posteriormente en muchos trabajos de sistemas de
reconocimiento de voz.
Google, de Translate a Word Lens
Todos aquellos que vivieron los primeros años de la popularización de Internet recordarán traductores como el de Babylon.Herramientas que nos permitían de forma algo tosca traducir fases. Es
cierto que no servía para textos largos pero para sacar las ideas claves
a veces era más que suficiente.
Con el tiempo Google, en la época donde no paraba de ampliar servicios web lanzó Translate:
un traductor de diferentes idiomas que suponía un paso adelante
respecto a lo que habíamos visto. Es cierto que no era, ni sigue siendo,
perfecto pero para salir del paso era más que suficiente.
Con la llegada de Android, en Mountain View decidieron integrar su
servicio de traductor no sólo a través de la aplicación web en sí sino
también a través de una aplicación que permitía traducir los textos de
fotos. ¿Os acordáis de todos aquellos captchas que ponéis día sí y día
también en las diferentes web? Bien, gracias a vuestro trabajo
introduciendo textos con tipografías deformadas se ha mejorado muchísimo
los algoritmos para que se puedan reconocer sin necesidad de que le
digamos nosotros qué pone.
El último paso de Google ha sido comprar la aplicación para móviles Word Lens.
A través de la realidad aumentada, este traductor es capaz de
interpretar el texto con ayuda de la cámara y hacernos una traducción al
momento. Lo interesante es que funciona sin conexión por lo que
tendremos que reservar un poco de memoria en el teléfono pero podremos
usarla en cualquier lugar independientemente de que tengamos conexión o
no.
La adquisición por parte de Google, que se produjo hace menos de dos
semanas, debería servir como impulso para ayudar a mejorar el
funcionamiento de este servicio de traducción. Es una aproximación
diferente pero igualmente interesante a la que propone Microsoft. Ojo también al futuro a través de Google Glass. Mountain View va a por los textos y en Redmond están centrados en la voz y las conversaciones.
El próximo paso: la estabilidad
Creo que todas las herramientas relacionadas con la comunicación, en
todas sus vertientes, tienen el mismo problema: que deben ser fiables
siempre para que sigamos usándolas. Somos pacientes, uno más que otros,
pero nos gusta usar herramientas que sean eficaces y que no tengamos que
estar repitiendo el proceso varias veces con cierta frecuencia.
Si hablamos de los problemas de los sistemas de reconocimiento de voz
vemos que los avances que se han hecho en los últimos años son pequeños
incrementos que apenas se notan de un avance a otro. Eso sí el objetivo
parece el mismo para la mayoría de los investigadores: que el
rendimiento sea mucho más robusto tanto a la hora de reconocer acentos
como para eliminar el ruido del ambiente.
Los traductores en cambio tienen mucho más trabajo por delante ya que
tienen que lidiar con el hecho de que los lenguajes sean entes vivos
que cambian, se transforman y crecen. Al final hablar de forma estándar
se ajusta a varias situaciones pero hacer traducciones de jergas o
palabras que no siempre tienen una traducción precisa son problemas muy
difíciles de afrontar.
También se habla de la importancia de la inteligencia artificial para
dar más valor a los traductores. Un algoritmo que sea capaz, por
ejemplo, de diferenciar entre diferentes significados de una palabra
entendiendo el contexto. Es más, que pudiera traducir documentos tomando
como referencia otros textos para que fuera más preciso. Quizá sea el
futuro pero va ser un camino arduo.
Va ser difícil, nadie dijo lo contrario, pero de conseguirlo
supondría un paso muy importante dentro del acercamiento de la
tecnología al lenguaje y la traducción. De momento los dos principales
proyectos que hay en el frente son realmente esperanzadores y sobre todo
útiles. A los que hay que sumarles también, aunque su naturaleza sea
distinta, el trabajo de empresas como Duolingo que quiere enseñarnos idiomas de todo tipo.