¿Tengo tu atención? Bueno, ¿qué significa realmente tener tu atención? La atención se define como «la atención prestada a alguien o algo; la consideración de alguien o algo como interesante o importante». Como seres humanos, somos capaces de concentrarnos selectivamente en aspectos de, digamos, una imagen y entender el contexto de manera eficiente y, al mismo tiempo, sacar conclusiones. En lugar de examinar cada píxel o detalle de una imagen, el cerebro humano opta por centrarse primero en los objetos clave.
Este rasgo humano de «atención» se imita en las tareas de visión artificial. En lugar de tener que escanear toda la imagen, la visión artificial permite a las computadoras enfocarse en áreas relevantes.
Arriba, la atención se centra en las áreas resaltadas para generar una palabra determinada. «Una mujer está lanzando un frisbee en el parque».
Este concepto de atención también se puede aplicar a otros campos del aprendizaje automático. Piense en un libro de texto de ciencias de una escuela primaria. Si alguien te preguntara «¿Cuáles son las tres clasificaciones principales de las rocas?» , para encontrar la respuesta, consultaría el capítulo sobre las rocas y no leería todo el libro de texto de principio a fin. Esto le permite encontrar una respuesta específica en lugar de generalizar basándose en todo el libro que acaba de leer. Esta misma lógica es la forma en que funcionan los mecanismos de atención en las tareas de procesamiento del lenguaje natural.
En 2017, Ashish Vaswani y otros miembros del equipo de Google Brain publicaron un nuevo método de procesamiento del lenguaje llamado «red Transformer» en un artículo titulado «La atención es todo lo que necesitas». El Transformer utiliza estos mecanismos de atención (de ahí el nombre de «Atención es todo lo que necesitas») para procesar largas secuencias de datos, es decir, largas cadenas de texto, de forma más rápida y precisa que antes.
En lugar de abordar el lenguaje desde la perspectiva típica de procesar cada palabra una por una, el equipo de Google se inspiró en los mecanismos de atención de las redes neuronales convolucionales (CNN) y vio los cuerpos de texto casi como si fueran imágenes en sí mismas. «La atención es todo lo que necesita» utilizó las ideas clave de la atención en las CNN para enseñar a las máquinas a leer, escribir y comprender el lenguaje humano (procesamiento del lenguaje natural o PNL) de una manera más eficiente y precisa que nunca. El Transformer buscaba convertirse en una herramienta computacional más exitosa que se utilizara para manipular, interpretar y generar el lenguaje.
Los problemas abordados por los mecanismos de atención
Problemas de dependencia a largo plazo de la solución anterior (la RNN)
Una red neuronal recurrente (RNN) es la estructura que se usó originalmente para capturar las dependencias oportunas en secuencias/cadenas de texto procesando cada palabra una a la vez en orden. Una RNN tiene una estructura de codificador/decodificador. Piense en el codificador y el decodificador como cosas que hablan dos idiomas, un idioma único y otro que comparten. El codificador toma el texto, traduce un resumen al idioma que comparten y, a continuación, el decodificador lo traduce de nuevo a su propio idioma.
El problema con esto es que si el «resumen» es malo, entonces la traducción será mala. Las RNN tienen un «problema de dependencia a largo plazo»; cuanto más largo sea el texto (recordemos el ejemplo del libro de texto), peor será el resumen. Como las RNN procesan cada palabra por vez, también tienen dificultades para recordar la información clave de las primeras partes del pasaje. Esto se conoce como el problema del gradiente que desaparece. Por ejemplo, si un pasaje menciona al principio que un hombre es de Estados Unidos y luego dice: Habla _______. Las RNN tienen dificultades para recurrir a esa información anterior para llenar el espacio en blanco porque no tienen forma de identificar lo que es importante recordar. Mientras que los humanos sabrían que lo más probable es que la respuesta sea «en inglés».
Cómo los transformadores intentan resolver el problema de la dependencia a largo plazo con mecanismos de atención
El gran avance que impulsa a Transformers por delante de los métodos anteriores de PNL es el uso de estos mecanismos de atención. Recuerde que los mecanismos de atención se centran en las palabras clave de un cuerpo de texto en lugar de considerar todas las palabras con el mismo peso. Así que, en el caso de «el hombre era de Estados Unidos, ¿qué idioma habla?» , tener mecanismos de atención consistiría en tomar nota de la palabra «Estados Unidos» y usarla como contexto para darse cuenta de que habla inglés. Esta adición ayuda a combatir el «problema de la desaparición del gradiente» que padecían los RNN. Si bien representan una clara mejora con respecto a los RNN, las investigaciones sugieren que los Transformers todavía no gestionan muy bien las dependencias a largo plazo; es evidente que hay más margen de mejora.
Computación paralela
Otra diferencia a tener en cuenta entre los Transformers en comparación con los RNN es la forma en que cada método procesa el lenguaje. En el pasado, la solución consistía en procesar cada palabra una por una, de forma similar a como lee un humano. Sin embargo, los transformadores procesan todas las palabras exactamente al mismo tiempo, es decir, en paralelo; esto se llama computación paralela. Esto acelera drásticamente el tiempo de procesamiento y facilita el entrenamiento de modelos increíblemente grandes con cantidades de datos increíblemente grandes.
Contexto
Las soluciones de procesamiento del lenguaje anteriores demostraron ser ineficientes y no tenían en cuenta las dependencias oportunas (es decir, cuando una palabra aparece en una oración afecta al significado) que se encuentran en el lenguaje. En otras palabras, para entender una oración no basta con contar el número de veces que aparece una palabra en una secuencia. Este método se denomina «bolsa de palabras», y en su día fue un intento de procesar el lenguaje.
Para los humanos, las dos oraciones de la figura anterior tienen significados drásticamente diferentes. Pero, en el método Bag of Words, parecen ser idénticas. El siguiente paso obvio era encontrar una solución que tuviera en cuenta el orden de las palabras además de la frecuencia de las palabras.
Los modelos anteriores incorporaban cada palabra una por una, por lo que no había ningún problema de saber dónde estaba la palabra en la oración. Sin embargo, dado que los Transformers transmiten las palabras en paralelo, tenía que haber una nueva solución para dar contexto a las palabras. Al procesar cada palabra, el Transformer traduce la palabra a algo que el ordenador pueda entender y, además, añade una referencia de posición a la palabra. Por lo tanto, si hay varias instancias de la palabra «Omneky», la referencia de posición permitirá al ordenador saber dónde se encuentra cada una de esas instancias en el texto. Esta ecuación de posición entre la palabra y la posición crea un contexto para el ordenador.
Modelos lingüísticos preentrenados actuales
Muchos modelos se han basado en el Transformer inicial presentado en «La atención es todo lo que necesitas» de Google. Todas las grandes empresas están entrenando su propio modelo lingüístico a gran escala. OpenAI tiene GPT/GPT-2/GPT-3, Google tiene Bert/Albert/XLNET/T5, Facebook tiene Roberta/XLM/BART, Microsoft tiene Turing-NLG, etc. A medida que pasa el tiempo, las empresas siguen desarrollando modelos más grandes. Sin embargo, también se hace hincapié en intentar crear modelos que puedan funcionar de manera eficiente en hardware básico y que sean accesibles para la comunidad en general.
Puedes jugar con modelos preentrenados de código abierto con Huggingface aquí:
https://transformer.huggingface.co/
El futuro de los Transformers
Hay mucho revuelo en torno a la API GPT-3 de OpenAI. La API GPT-3 de OpenAI hizo que los desarrolladores habituales pudieran acceder al gigantesco modelo Transformer de OpenAI/Microsoft, entrenado en toda la web. Los usuarios acudieron en masa a Twitter para mostrar las aplicaciones creativas del nuevo modelo. Por ejemplo, el desarrollador web Sharif Shameem (@sharifshameem) modificó el GPT-3 para que produjera código HTML y publicó en Twitter sus resultados. Al usar solo indicaciones, GPT-3 aprendió a crear diseños de páginas web. Las aplicaciones para la creatividad son infinitas.

Transformadores del lenguaje y Omneky
El objetivo de Omneky es utilizar el aprendizaje profundo para nivelar el «campo de juego del marketing digital» entre las empresas grandes y pequeñas. Richard Socher, científico jefe de Salesforce, afirma: «Omneky está haciendo que los transformadores sean útiles para todas las empresas que desean que la IA les ayude con el marketing». Mediante el uso de la PNL y los transformadores del lenguaje, Omneky redacta textos publicitarios personalizados que, sin duda, impulsarán las conversaciones. Al combinar herramientas de análisis predictivo y generación de texto, el software de Omneky puede ayudar a crear anuncios publicitarios de Facebook personalizados con solo hacer clic en un botón. Esto permite a Omneky crear y gestionar campañas publicitarias a una cuarta parte del coste de las empresas de marketing tradicionales. Actualmente ofrecemos una prueba gratuita de dos semanas para probar nuestro servicio de forma gratuita; solo tiene que programar una demostración aquí!