Entienda cómo Google interpreta un texto y qué puede hacer para que su sitio cumpla con las directrices.
Este post es una traducción del material How does Google understand text?, publicado originalmente en el blog de Yoast. Traducción y publicación autorizadas por la empresa.
En Yoast, hablamos mucho sobre escritura y legibilidad. Consideramos que esto es una parte esencial del SEO. Su texto necesita ser fácil de seguir y debe satisfacer las necesidades de sus usuarios. Este enfoque en el usuario ayudará a sus clasificaciones.
Sin embargo, raramente hablamos sobre cómo los motores de búsqueda, como Google, leen y entienden esos textos. En este post, exploraremos lo que sabemos sobre cómo Google analiza su contenido online.
¿Estamos seguros de que Google entiende el texto?
Sabemos que Google entiende el texto hasta cierto punto. Piense en eso. Una de las cosas más importantes que Google necesita hacer es hacer coincidir lo que alguien escribe en la barra de búsqueda con un resultado de búsqueda adecuado. Las señales del usuario (como tasas de clics y tasas de rebote) por sí solas no ayudarán a Google a hacer esto correctamente.
Además, sabemos que es posible clasificar para una palabra clave que no utiliza en su texto (aunque sigue siendo una buena práctica identificar y utilizar una o más palabras clave específicas). Por lo tanto, claramente, Google hace algo para realmente leer y evaluar su texto de alguna manera.
¿Cómo entiende Google el texto?
Volviendo a nuestra pregunta inicial: ¿cómo entiende Google el texto? Para ser honesto, no sabemos eso en detalle. Desafortunadamente, esa información no está disponible libremente. Y también sabemos que Google está evolucionando continuamente su capacidad de entender textos online. Pero hay algunas pistas de las cuales podemos sacar conclusiones.
Sabemos que Google ha dado grandes pasos cuando se trata de entender el contexto. También sabemos que el motor de búsqueda intenta determinar cómo las palabras y los conceptos están relacionados entre sí. ¿Cómo sabemos eso? Observando cualquier noticia sobre el algoritmo de Google y considerando cómo han cambiado las páginas de resultados de búsqueda reales.
Embeddings de palabras
Una técnica interesante para la cual Google ha registrado patentes y ha trabajado se llama embedding de palabras. El objetivo es descubrir qué palabras están estrechamente relacionadas con otras palabras.
Un software recibe una cierta cantidad de texto. Luego analiza las palabras en ese texto y determina cuáles tienden a aparecer juntas. Luego, traduce cada palabra en una serie de números. Esto permite que sean representadas como un punto en el espacio en un diagrama, como un gráfico de dispersión.
Este diagrama muestra qué palabras están relacionadas de qué maneras. Más precisamente, muestra la distancia entre las palabras, como una galaxia hecha de palabras. Así, por ejemplo, una palabra como “palabras clave” estaría mucho más cerca de “redacción” que de “utensilios de cocina”.
Esto también se puede hacer para frases, oraciones y párrafos. Cuanto mayor sea el conjunto de datos que alimente al programa, mejor podrá categorizar y entender palabras y descubrir cómo se utilizan y qué significan. Y, quién lo diría, Google tiene una base de datos de toda Internet. Con un conjunto de datos así, es posible crear modelos muy confiables que predicen y evalúan el valor del texto y del contexto.
Google ha invertido mucho en PLN
El procesamiento de lenguaje natural es la comprensión del lenguaje por máquinas. Es una de las partes más difíciles de la ciencia de la computación y donde se están haciendo los mayores avances.
Hoy en día, con un mundo cada vez más impulsado por sistemas gestionados por IA, la comprensión adecuada del lenguaje es fundamental. Google entiende esto e invierte mucho en el desarrollo de modelos de PLN.
Un sistema clave fue el BERT, un modelo que podía entender el texto que venía después de las palabras de contenido y antes de esas palabras. De esta manera, el sistema tiene el contexto completo de una oración para dar sentido adecuado a su significado.
Lo que hizo BERT es increíble, pero Google está haciendo más. Conozca a MUM.
MUM: el modelo de lenguaje de Google
En 2021, Google introdujo un nuevo modelo de lenguaje que puede realizar varias tareas: el MUM.
Esto significa que este modelo puede leer texto, entender su significado y formar un conocimiento más profundo sobre el tema. También puede usar otros medios para enriquecer ese conocimiento, obtener información de más de 75 idiomas y traducir todo en contenido que responda a consultas de búsqueda complejas. Todo al mismo tiempo.
¿El auge de la IA cambia todo esto?
En el último año, hemos visto muchos desarrollos en el área de IA. Naturalmente, Google no se quedó atrás e introdujo su propio conjunto de herramientas, incluido el conocido modelo de IA Gemini.
Más recientemente, han introducido resúmenes de IA en su motor de búsqueda. Y ya lo habrá adivinado, pero los modelos de procesamiento de lenguaje natural son útiles cuando se están desarrollando funciones de IA. Por lo tanto, la investigación continua de Google en PLN y aprendizaje automático no está disminuyendo pronto.
Conclusiones prácticas
Entonces, ¿cómo entiende exactamente Google el texto? Lo que sabemos nos lleva a dos puntos muy importantes:
El contexto es fundamental
Si Google entiende el contexto, es probable que evalúe y juzgue el contexto también. Cuanto mejor su texto coincida con la noción de contexto de Google, mejores serán sus posibilidades de clasificación. Por lo tanto, los textos superficiales con un alcance limitado estarán en desventaja.
Necesita cubrir sus temas adecuadamente y con detalles suficientes. Y, en una escala mayor, cubrir conceptos relacionados y presentar un cuerpo de trabajo completo en su sitio reforzará su autoridad en el tema sobre el que escribe y se especializa.
Escriba para su lector
Los textos que son fáciles de leer y reflejan las relaciones entre conceptos no solo benefician a sus lectores, sino que también ayudan a Google. La escritura difícil, inconsistente y mal estructurada es más difícil de entender tanto para humanos como para máquinas.
Puede ayudar al motor de búsqueda a entender sus textos enfocándose en:
- Legibilidad: haciendo que su texto sea lo más fácil de leer posible sin comprometer su mensaje.
- Estructura adecuada: añadiendo subtítulos claros y utilizando palabras de transición.
- Buen contenido: añadiendo explicaciones claras que muestren cómo lo que está diciendo se relaciona con lo que ya se sabe sobre un tema.
Cuanto mejor haga esto, más fácil será para sus usuarios y Google entender su texto y lo que intenta lograr. Lo que también le ayuda a clasificarse con las páginas correctas cuando un usuario escribe una consulta de búsqueda determinada. Especialmente porque Google está básicamente creando un modelo que imita la forma en que los humanos procesan el lenguaje y la información.
Google quiere ser un lector
Al final, todo se reduce a esto: Google se está volviendo cada vez más como un lector real. Al escribir contenido rico, bien estructurado, fácil de leer y enmarcado en el tema en cuestión, mejorará sus posibilidades de tener éxito en los resultados de búsqueda.