Google Bert.

Así denominó Google el cambio de algoritmo que introdujo a fines de 2019 para su motor de búsqueda, afectando todo el SEO de las páginas web.

Desde su instauración, Google BERT ha ido impactando todas las búsquedas mundiales y, de acuerdo a Google, es el mayor cambio en la búsqueda desde que se lanzó RankBrain, en 2015, la anterior actualización más grande que ha hecho Google de sus algoritmos.

Pero, ¿De qué se trata Google Bert y qué impacto tiene?, ¿Qué deben considerar las empresas?

Chécalo aquí.

prueba google bert, API Natural Language
Haz clic en la imagen para probar Google Bert para tu SEO.

Google Bert el Gran Cambio de Google

Con Google Bert, la empresa presentó un nuevo modelo de representación de lenguaje.

Bert (o «Beto») trae inmediatamente el recuerdo del famoso personaje de los Open Sesame Street Muppets (o «Plaza Sésamo»).

Si bien Google normalmente denomina sus actualizaciones en relación a cosas u objetos de la cultura pop, en este caso el nombre sólo es un alcance.

Bert significa «Representaciones de codificador bidireccional de Transformadores» y está diseñado para prevenir las representaciones bidireccionales profundas del texto sin etiquetar, mediante el condicionamiento conjunto del contexto izquierdo y derecho en todas las capas.

Suena denso, ¿no? Pero no es tan así.

Como resultado, el modelo BERT pre-entrenado se puede ajustar con sólo una capa de salida adicional para crear modelos de vanguardia para una amplia gama de tareas, como la respuesta a preguntas y la inferencia del lenguaje, sin modificaciones sustanciales de la arquitectura específica de la tarea.

En palabras simples, el objetivo de Google Bert es ayudar al motor de búsqueda de Google a comprender mejor el idioma para ofrecer resultados más relevantes.

Y, ¿Por qué y cómo sucede esto? Pues simplemente porque las personas tienen muchas formas de escribir o expresarse en su idioma. Basta sólo pensar la jerga, modismos, términos, sinónimos, semántica. Todo esto influye.

Es así como con esta actualización de Google Bert, el motor de búsqueda es capaz ahora de aplicar más las tecnologías de Machine Learning de Google y entender contextos en frases largas.

De ahí viene el nombre «codificador bidireccional», ya que intenta interpretar palabras antes y después de la palabra clave principal.

Google Bert Ejemplo:

Por ejemplo, la palabra «canasta» tendría la misma representación sin contexto en «canasta de mimbre» y «juego de canasta».

Los modelos contextuales en cambio generan una representación de cada palabra que se basa en las otras palabras de la oración.

En la oración “compré una canasta de mimbre”, un modelo contextual unidireccional representaría “canasta” basado en “compré una” pero no en “mimbre”. Sin embargo, BERT representa «canasta» usando su contexto anterior y siguiente – «compré una … de mimbre» – comenzando desde el fondo de una red neuronal profunda, haciéndolo profundamente bidireccional.

El Lenguaje Direccional

La incorporación de este sistema de interpretación de lenguaje por parte de Google no es casualidad.

De acuerdo a diferentes estudios en machine learning, se ha demostrado que la capacitación previa de este modelo de lenguaje es efectiva para mejorar muchas tareas de procesamiento del lenguaje natural.

Estas incluyen tareas a nivel de oración, como la inferencia del lenguaje natural y parafrasear, cuyo objetivo es predecir las relaciones entre las oraciones analizándolas holísticamente, como así como tareas a nivel de token, como el reconocimiento de entidades con nombre y la respuesta a preguntas, donde se requieren modelos para producir resultados de «grano fino», a nivel de token.

Existen 2 estrategias existentes para aplicar representaciones de lenguaje pre-entrenadas a tareas posteriores: basadas en características y ajustes.

El enfoque basado en características, como ELMo, utiliza arquitecturas específicas de tareas que incluyen las representaciones pre-entrenadas como características adicionales.

El enfoque de ajuste fino, como el Transformador Generativo Pre-entrenado (OpenAI GPT), introduce parámetros mínimos específicos de la tarea, y se entrena en las tareas posteriores simplemente ajustando todos los parámetros previamente entrenados.

Los dos enfoques comparten la misma función objetivo durante el pre-entrenamiento, donde usan modelos de lenguaje unidireccionales para aprender representaciones generales del lenguaje.

¿Qué lo Hace Tan Especial?

De acuerdo a Google, uno de los mayores desafíos en el procesamiento del lenguaje natural (PNL) es la escasez de datos de capacitación.

Dado que la PNL es un campo diversificado con muchas tareas distintas, la mayoría de los conjuntos de datos específicos de la tarea contienen solo unos pocos miles o unos cientos de miles de ejemplos de entrenamiento etiquetados por humanos.

Sin embargo, los modelos modernos de PNL basados ​​en el aprendizaje profundo ven beneficios de cantidades mucho mayores de datos, mejorando cuando se capacita en millones o miles de millones de ejemplos de capacitación anotados.

Para ayudar a cerrar esta brecha en los datos, los investigadores han desarrollado una variedad de técnicas para entrenar modelos de representación de lenguaje de propósito general utilizando la enorme cantidad de texto no anotado en la web (conocido como pre-entrenamiento).

El modelo previamente entrenado se puede ajustar en tareas de PNL de datos pequeños como la respuesta a preguntas y el análisis de sentimientos, lo que resulta en mejoras sustanciales de precisión en comparación con la capacitación en estos conjuntos de datos desde cero.

Con este lanzamiento de Google Bert, cualquier persona en el mundo puede entrenar su propio sistema de respuesta de preguntas de última generación (o una variedad de otros modelos) en aproximadamente 30 minutos en una sola TPU en la nube, o en unas pocas horas usando una sola GPU.

El lanzamiento incluye el código fuente creado sobre TensorFlow y una serie de modelos de representación lingüística previamente capacitados. En nuestro documento asociado, demostramos resultados de vanguardia en 11 tareas de PNL, incluido el muy competitivo Dataset de respuesta a preguntas de Stanford (SQuAD v1.1).

Google Blog. Link aquí.

Google Bert y el Cambio en el SEO: Pruébalo Aquí

Google tiene una API de test de lenguaje, para probar la manera en que Google Bert procesa los textos.

Para chequearla, haz clic en la imagen superior de este artículo.

Básicamente este lenguaje natural utiliza el aprendizaje automático para revelar la estructura y el significado del texto.

Permite extraer información sobre personas, lugares y eventos, y comprender mejor el sentimiento de las redes sociales y las conversaciones con los clientes.

Para todo esto, Google identifica las entities o entidades. Por ejemplo, Google relaciona a Marketing Branding como una organización.

google bert entities ejemplo
Ejemplo de la discriminación de Entities con Google Bert.

Asimismo, dentro de los cambios relevantes, Bert está entendiendo mejor las preposiciones y sus contextos.

Además, otro gran cambio se está dando con los rich snippets o fragmentos enriquecidos.

Estos marcos destacados responden a consultas directas, potencias con el nuevo algoritmo de Google Bert.

Ciertamente, con esta nueva actualización del algoritmo del motor de búsqueda, Google está cambiando completamente el modo en el que el buscador ordena los resultados orgánicos o SEO.

En líneas generales, se esperan respuestas del buscador más basadas en el contexto y jerga y modismos.

¿Qué pasará ahora con el ordenamiento de las páginas web y el SEO? Lo que es claro es que gracias a esta nueva forma de analizar las búsquedas, ya no es tan necesario aplicar palabras claves exactas y forzadas.

La propia riqueza del lenguaje, que es dinámica y cambiante con los años, basta para armar potentes y eficientes contenidos SEO friendly.