SmartReply para creadores de YouTube

Publicado por Rami Al-Rfou, científico investigador de Google Research

Han pasado más de 4 años desde que se lanzó SmartReply y, desde entonces, se ha expandido a más usuarios con el lanzamiento de Gmail y Mensajes de Android y a más dispositivos con Android Wear . Los desarrolladores ahora usan SmartReply para responder a las reseñas dentro de Play Developer Console y pueden configurar sus propias versiones utilizando las API que se ofrecen en MLKit y TFLite . Con cada lanzamiento ha habido un desafío único en el modelado y el servicio que requirió personalizar SmartReply para los requisitos de la tarea.

Ahora nos complace compartir un SmartReply actualizado creado para YouTube e implementado en YouTube Studio que ayuda a los creadores a interactuar más fácilmente con sus espectadores. Este modelo aprende la representación de comentarios y respuestas a través de una red de auto-atención dilatada computacionalmente eficiente, y representa el primer modelo SmartReply en varios idiomas y basado en bytes de caracteres. SmartReply para YouTube está disponible actualmente para creadores en inglés y español, y este enfoque simplifica el proceso de extender la función SmartReply a muchos más idiomas en el futuro.

Los creadores de YouTube reciben un gran volumen de respuestas a sus videos. Además, la comunidad de creadores y espectadores en YouTube es diversa, como lo refleja la creatividad de sus comentarios, discusiones y videos. En comparación con los correos electrónicos, que tienden a ser largos y dominados por el lenguaje formal, los comentarios de YouTube revelan patrones complejos de cambio de idioma, palabras abreviadas, jerga, uso inconsistente de la puntuación y uso intensivo de emoji. A continuación se muestra una muestra de comentarios que ilustran este desafío:

Recuperación profunda
La versión inicial de SmartReply for Inbox codificó los correos electrónicos de entrada palabra por palabra con una red neuronal recurrente y luego decodificó las posibles respuestas con otra red neuronal recurrente a nivel de palabra. A pesar de la expresividad de este enfoque, era computacionalmente costoso. En cambio, descubrimos que uno puede lograr los mismos fines diseñando un sistema que busca en una lista predefinida de sugerencias la respuesta más adecuada.

Este sistema de recuperación codificó el mensaje y su sugerencia de forma independiente. Primero, el texto fue preprocesado para extraer palabras y frases cortas. Este preprocesamiento incluyó, entre otros, identificación, tokenización y normalización del idioma. Luego, dos redes neuronales codificaron simultánea e independientemente el mensaje y la sugerencia. Esta factorización permitió a uno precalcular las codificaciones de sugerencias y luego buscar a través del conjunto de sugerencias utilizando una estructura de datos de búsqueda de producto interna máxima eficiente. Este enfoque de recuperación profunda nos permitió expandir SmartReply a Gmail y, desde entonces, ha sido la base de varios sistemas SmartReply, incluido el sistema actual de YouTube.

Más allá de las palabras
Los sistemas SmartReply anteriores descritos anteriormente se basaban en un preprocesamiento a nivel de palabra que está bien ajustado para un número limitado de idiomas y géneros de escritura restringidos. Dichos sistemas enfrentan desafíos importantes en el caso de YouTube, donde un comentario típico puede incluir contenido heterogéneo, como emoji, arte ASCII, cambio de idioma, etc. A la luz de esto, e inspirándonos en nuestro trabajo reciente sobre el modelado del lenguaje de caracteres y bytes, decidió codificar el texto sin ningún procesamiento previo. Este enfoque está respaldado por investigaciones que demuestran que una red Transformer profunda es capaz de modelar palabras y frases desde cero con solo alimentarlo con texto como una secuencia de caracteres o bytes, con una calidad comparable a los modelos basados en palabras.

Aunque los resultados iniciales fueron prometedores, especialmente para el procesamiento de comentarios con emoji o errores tipográficos, la velocidad de inferencia fue demasiado lenta para la producción debido al hecho de que las secuencias de caracteres son más largas que los equivalentes de palabras y la complejidad computacional de las capas de atención personal crece cuadráticamente en función de longitud de la secuencia. Descubrimos que reducir la longitud de la secuencia mediante la aplicación de capas de reducción temporal en cada capa de la red, similar a la técnica de dilatación aplicada en WaveNet , proporciona una buena compensación entre el cálculo y la calidad.

La siguiente figura presenta una red de codificador dual que codifica tanto el comentario como la respuesta para maximizar la información mutua entre sus representaciones latentes entrenando la red con un objetivo contrastivo . La codificación comienza con alimentar al transformador una secuencia de bytes después de que se hayan integrado. La entrada para cada capa subsiguiente se reducirá al eliminar un porcentaje de caracteres en compensaciones iguales. Después de aplicar varias capas de transformador, la longitud de la secuencia se trunca en gran medida, lo que reduce significativamente la complejidad computacional. Este esquema de compresión de secuencia podría ser sustituido por otros operadores como la agrupación promedio , aunque no notamos ninguna ganancia de métodos más sofisticados y, por lo tanto, optamos por usar la dilatación por simplicidad.

Una red de doble codificador que maximiza la información mutua entre los comentarios y sus respuestas a través de un objetivo contrastivo . Cada codificador recibe una secuencia de bytes y se implementa como una red de transformadores dilatados computacionalmente eficiente.

Un modelo para aprenderlos todos
En lugar de entrenar un modelo separado para cada idioma, optamos por entrenar un único modelo multilingüe para todos los idiomas admitidos. Esto permite el apoyo del uso de idiomas mixtos en los comentarios y permite que el modelo utilice el aprendizaje de elementos comunes en un idioma para comprender otro, como emoji y números. Además, tener un solo modelo simplifica la logística de mantenimiento y actualizaciones. Si bien el modelo se ha implementado en inglés y español, la flexibilidad inherente a este enfoque permitirá expandirlo a otros idiomas en el futuro.

La inspección de las codificaciones de un conjunto multilingüe de sugerencias producidas por el modelo revela que el modelo agrupa las respuestas adecuadas, independientemente del idioma al que pertenecen. Esta capacidad multilingüe surgió sin exponer el modelo durante el entrenamiento a ningún corpus paralelo. Demostramos en la figura siguiente para tres idiomas cómo las respuestas se agrupan por su significado cuando se prueba el modelo con un comentario de entrada. Por ejemplo, el comentario en inglés “ Este es un gran video ” está rodeado de respuestas apropiadas, como “ ¡Gracias! Además, la inspección de las respuestas más cercanas en otros idiomas revela que también son apropiadas y tienen un significado similar al de la respuesta en inglés. La proyección 2D también muestra varios otros grupos en varios idiomas que consisten en respuestas de significado similar. Esta agrupación demuestra cómo el modelo puede admitir una rica experiencia de usuario en varios idiomas en los idiomas admitidos.

Una proyección 2D de las codificaciones del modelo cuando se presenta con un comentario hipotético y una pequeña lista de posibles respuestas. El vecindario que rodea a los comentarios en inglés (color negro) consiste en respuestas apropiadas en inglés y sus contrapartes en español y árabe. Tenga en cuenta que la red aprendió a alinear las respuestas en inglés con sus traducciones sin acceso a ningún corpus paralelo.

¿Cuándo Sugerir?
Nuestro objetivo es ayudar a los creadores, por lo que debemos asegurarnos de que SmartReply solo haga sugerencias cuando sea muy probable que sea útil. Idealmente, las sugerencias solo se mostrarían cuando sea probable que el creador responda al comentario y cuando el modelo tenga una alta probabilidad de proporcionar una respuesta sensata y específica. Para lograr esto, entrenamos modelos auxiliares para identificar qué comentarios deberían activar la función SmartReply.

Conclusión
Hemos lanzado YouTube SmartReply, comenzando con comentarios en inglés y español, el primer SmartReply en varios idiomas y basado en bytes de caracteres. YouTube es un producto global con una base de usuarios diversa que genera contenido heterogéneo. En consecuencia, es importante que mejoremos continuamente los comentarios para esta audiencia global, y SmartReply representa un gran paso en esta dirección.

Agradecimientos
SmartReply para creadores de YouTube fue desarrollado por Golnaz Farhadi, Ezequiel Baril, Cheng Lee, Claire Yuan, Coty Morrison, Joe Simunic, Rachel Bransom, Rajvi Mehta, Jorge González, Mark Williams, Uma Roy y muchos más. Estamos agradecidos por el apoyo de liderazgo de Nikhil Dandekar, Eileen Long, Siobhan Quinn, Yun-hsuan Sung, Rachel Bernstein y Ray Kurzweil.

Miguel Ángel Morell Fuentes

Buscar este blog

SmartReply para creadores de YouTube