Traducción estadística automática ¿Cómo funciona?

Publicado por Andrea Navarro el 1 agosto, 20161 agosto, 2016

La traducción estadística automática es un paradigma de traducción en el que el resultado se logra a partir del estudio estadístico realizado por un programa de un texto realizado en dos idiomas diferentes. Este tipo de sistemas no requiere que el programa aprenda la sintaxis de un lenguaje ni que se le suministre un diccionario.

Un poco de historia

Desde el inicio de la computación se han elaborado teorías para diseñar un programa que permita una traducción rápida y exacta. Los primeros modelos de traducción automática fueron diseñadas en la década del 50, estos utilizaban diccionarios bilingues y reglas creadas a mano por traductores y programadores. Sus resultados no fueron especialmente buenos pero generaron interés en el campo.

En la década del 60 se realizaron grandes proyectos de traducción en Estados Unidos y Rusia provocados por la guerra fría, se solía traducir automáticamente papers científicos y técnicos para determinar su importancia general y si el resultado era de interés se le enviaba a un traductor humano para una traducción completa.

En el año 1966 se publicó un reporte de el Comité asesor de tratamiento automático del lenguaje (ALPAC) que concluía que la traducción automática era mas cara y lenta que la humana y que nunca llegaría a emular su calidad en el futuro cercano. Esto minimizó el esfuerzo de investigación en el tema en gran medida.

En la década del 80 se generó una gran demanda de traductores automáticos causada por el avance de la globalización y el comercio internacional, lo que llevó a una gran diversidad de sistemas de traducción automático que aumentaron su velocidad gracias a el avance en microcomputadoras. Estos sistemas implementaban nuevo métodos basados en representaciones lingüísticas que utilizaba análisis semántico, sintáctico y morfológico.

Al final del siglo 80 empezaron a utilizarse traductores basados en métodos estadísticos, ahora más demandados por su bajo costo y por la utilización de computadoras personales y estaciones de trabajo. La traducción estadística automática elimina la creación de reglas y el análisis semántico e intenta obtener la traducción correcta a partir de estudios estadísticos realizados de un par de textos con el mismo contenido pero idioma diferente.

¿Cómo funciona la traducción estadística automática?

Obtención del parallel corpora o texto paralelo

Obtención de datos: Se elige un conjunto de textos escritos en los idiomas que se quieren traducir. Cuanto más extensos sean estos contenidos mejor será el estudio estadístico y por lo tanto la capacidad de traducción. Estos textos pueden encontrarse en literatura, páginas webs con contenido multilingue, textos técnicos, etc.
Alineación de documentos: Se extrae y mapea secciones del texto
Separación de oraciones: Se separa las secciones de texto en oraciones separadas
Normalización: Se preparan las entradas para ser ingresadas en el sistema. Esto dependerá del diseño del sistema y su lenguaje.
Alineación de oraciones: Se mapean las oraciones de un idioma con el otro

Modelado

Modelo de traducción: Especifica el conjunto de posibles traducciones para una oración objetivo pudiendo asignar probabilidades a cada traducción que representa su posibilidad de ser correcta. Este conjunto de probabilidades dependerá del parallel corpora y de el par de lenguajes a utilizar.

Modelo de lenguaje: Especifica la fluidez de la oración objetivo propuesta mostrando más probabilidad a las oraciones que son más representativas del lenguaje natural.

Proceso de búsqueda: Navega a través del mapa creado buscando posibles traducciones para una oración dada y elige la que tiene más probabilidad de ser correcta.

Estimación

Una vez seleccionada la traducción se utilizan algoritmos heurísticos y correctores gramaticales para minimizar de esta manera los posibles errores y tener un resultado final más refinado.

Ventajas de la traducción estadística automática

Esta técnica permite traducir gran cantidad de texto en poco tiempo lo que habilita el acceso al contenido (aunque de manera parcial ya que puede contener errores) a personas que no conocen el idioma, lo cual resulta especialmente útil para datos de que deben ser accedidos con urgencia como noticias, chats o soporte al cliente.

También permite incrementar la productividad de los traductores humanos que solo deberán realizar correcciones (Se estima que la productividad se aumenta de entre 2000 a 24000 palabras por día). Los LSP (Language Service Providers), es decir la industria de la traducción profesional utilizan traducciones automáticas para disminuir los tiempos de trabajo mientras que utilizan traductores humanos para asegurar los estándares de calidad.

Finalmente en muchos casos el tiempo y dinero requerido para traducir grandes cantidades de texto puede no considerarse como una buena inversión para entidades o empresas, estos sistemas minimizan el costo y el tiempo aunque por el momento su calidad no sea la misma que la de los traductores humanos.

Para mejorar el rendimiento y la calidad de los traductores las empresas normalmente utilizan traductores personalizados, estos traductores están diseñados para traducir dentro del contexto del lenguaje de la empresa, terminología y vocabulario especifico y estilo de escritura. A diferencia de un traductor general como el utilizado por el buscador de Google un traductor personalizado sabrá cual es la acepción de la palabra o la el significado de la frase mas indicado ya que tiene como referencia el contexto de la empresa.

El paradigma de la traducción automática estadística se ha convertido en la técnica dominante siendo utilizada por Google Translate, Microsoft Translator y Yandex Translate entre otros.

Fuentes:

Statistical Machine Translation Miles Osborne, University of Edinburgh

Europarl: A Parallel Corpus for Statistical Machine Translation Philipp Koehn, School of Informatics University of Edinburgh, Scotland

Statistical Machine Translation Adam Lopez, University of Edinburgh

Traducción estadística automática ¿Cómo funciona?

Un poco de historia

¿Cómo funciona la traducción estadística automática?

Obtención del parallel corpora o texto paralelo

Modelado

Estimación

Ventajas de la traducción estadística automática

¿Querés aprender más? 📚

Andrea Navarro

1 comentario

Traducción automática basada en estadísticas | Shape of the Net · 12 septiembre, 2017 a las 22:52

Los comentarios están cerrados.

Heliograph, el bot usado en las Olimpiadas

Redes neuronales artificiales ¿Qué son?

Encog, un framework para machine learning

Traducción estadística automática ¿Cómo funciona?

Un poco de historia

¿Cómo funciona la traducción estadística automática?

Obtención del parallel corpora o texto paralelo

Modelado

Estimación

Ventajas de la traducción estadística automática

¿Querés aprender más? 📚

Andrea Navarro

1 comentario

Traducción automática basada en estadísticas | Shape of the Net · 12 septiembre, 2017 a las 22:52

Los comentarios están cerrados.

Entradas relacionadas

Heliograph, el bot usado en las Olimpiadas

Redes neuronales artificiales ¿Qué son?

Encog, un framework para machine learning