Tokenización e incrustación: conceptos de IA y LLM que se utilizan en SEO.

Tokenización e incrustación: conceptos de IA y LLM que se utilizan en SEO.

Los tokens y la incrustación son conceptos que están muy presentes hoy en día, ya sea en el estudio y la aplicación de la Inteligencia Artificial (IA) y los Modelos de Lenguaje a Gran Escala ( MLGE ), o en el desarrollo de agentes, aplicaciones, herramientas y negocios, ¡pero llevan mucho tiempo presentes en el SEO ! Quizás me digas: «Pero Alex, ¿cómo es eso? ¡Solo empecé a oír hablar de esto después de que las GPT y tecnologías similares lo dominaran todo!».

Así que no se vayan, les mostraré cómo funcionaba esto antes y cómo funciona hoy en día en el panorama de los motores de búsqueda. Empecemos desde el principio con los tokens.

Agente CTA+Semántica

¿Qué son los tokens?

Un token es una unidad individual de texto. Imagina una oración descompuesta en sus partes significativas más pequeñas; estas partes son los tokens. Para ilustrarlo, tomemos una oración simple:

En la frase: " La búsqueda semántica mejora la calidad de la búsqueda".

Al aplicar la tokenización básica (separación por espacios y signos de puntuación), los tokens serían:

[“A”, “Búsqueda”, “Semántica”, “mejora”, “la”, “calidad”, “de”, “búsqueda”, “.”]

En este ejemplo, cada palabra y el punto se consideran tokens distintos, dado que este sistema realiza una tokenización básica. Sistemas más sofisticados podrían, por ejemplo, tratar «Búsqueda Semántica» como un único token si se tratara de una entidad nombrada o un concepto de búsqueda frecuente, incluso si estuviera presente en el corpus de textos utilizado para el entrenamiento.

Antiguamente, en el contexto de la búsqueda tradicional o basada en tokens , el sistema funcionaba dividiendo el texto en tokens. Estos se utilizaban para crear una representación denominada incrustación dispersa . Esta incrustación se puede entender como una larga lista que muestra cuántas veces aparece cada palabra o subpalabra en un texto.

La principal característica aquí es que las representaciones dispersas no consideran el significado de las palabras , solo la frecuencia de sus apariciones. Es como un de biblioteca , donde se buscan palabras clave .

Para ilustrarlo de nuevo, imaginemos que tenemos una frase como la del ejemplo anterior. Esta se tokeniza (se divide en tokens) para que el sistema pueda indexarla y compararla con las palabras exactas de la consulta . Existen algoritmos clásicos para generar embeddings dispersos, como TF-IDF (Frecuencia de Término-Frecuencia Inversa de Documento) , BM25 o SPLADE .

TF-IDF, por ejemplo, otorga mayor peso a las palabras que son frecuentes en un documento específico pero raras en el corpus general, resaltando su importancia para ese documento. Pero, en general, todos estos métodos solo consideran la frecuencia de las palabras.

Históricamente, la búsqueda era más determinista; es decir, el contenido se indexaba tal como se recibía, sin mucha interpretación por parte de los algoritmos. Los documentos se «descomponían» de una manera que llamamos «léxica», básicamente contando la distribución de las palabras. Esto contrasta con el de información , que es semántico. Y para llegar a la semántica, otro concepto es esencial: ¡los embeddings!

¿Qué son las incrustaciones (densas)?

Por otro lado, una incrustación relaciones semánticas e información contextual . Imagine cada palabra o texto como un punto en un «mapa» multidimensional, donde la proximidad entre puntos indica similitud de significado. La distancia y la dirección entre estos vectores codifican el grado de similitud semántica entre las palabras.

incrustación de palabras espacio vectorial 3D
La imagen superior es simplemente una representación artística de los vectores utilizados en el proceso de incrustación.

Entonces, ¿por qué necesitamos esto?, te preguntarás.

Dado que la mayoría de los algoritmos de aprendizaje automático no pueden procesar texto sin procesar, necesitan usar números como entrada. Aquí es donde se utilizan las incrustaciones.

Estas representaciones vectoriales se crean mediante modelos de incrustación (que merecen un artículo aparte), los cuales se entrenan analizando grandes volúmenes de texto, como la Wikipedia , por ejemplo. De ahí proviene el término LLM: Modelos de Lenguaje a Gran Escala. Se utiliza este volumen ingente de texto para que estos modelos aprendan las relaciones entre las palabras y sus contextos.

Este proceso implica:

  1. Preprocesamiento : tokenización y eliminación de "palabras vacías" (palabras comunes como "el", "un", "y") y puntuación.
  2. Ventana de contexto deslizante : identifica las palabras objetivo y sus contextos para que el modelo pueda aprender sus relaciones.
  3. Entrenamiento : El modelo se entrena para predecir palabras basándose en su contexto, colocando palabras semánticamente similares cerca unas de otras en el espacio vectorial. Los parámetros del modelo se ajustan para minimizar los errores de predicción.
incrustación de palabras espacio vectorial 3D
La imagen superior es simplemente una representación artística de los vectores utilizados en el proceso de incrustación.

Estas representaciones vectoriales también se conocen como representaciones densas , y reciben este nombre porque las matrices que las representan contienen principalmente valores distintos de cero, a diferencia de las representaciones dispersas. Me costó mucho comprender este concepto, pero, simplificando densificar una gran cantidad de puntos en este gráfico, agrupándolos por similitud, lo cual resulta útil en varios aspectos, incluido el rendimiento . Según entiendo, se eliminan los ceros y se buscan los valores significativos.

Por favor, corríjanme en los comentarios si he dicho algo incorrecto.

Pero lo que importa para nuestro artículo es que son extremadamente eficientes creando modelos que comprenden el significado y el contexto de las palabras.

Por ejemplo, en un sistema que utiliza uno de estos modelos, una búsqueda de «película» también podría devolver resultados relevantes con «cine» o «largometraje», ya que el modelo de incrustación entiende que estas palabras tienen significados similares. Esto mejora significativamente la calidad de la búsqueda.

Incrustaciones en la recuperación de información: un tema antiguo

Google lleva años incorporando esta tecnología a su motor de búsqueda!

RankBrain , lanzado en 2015, fue el primer sistema de aprendizaje profundo implementado en búsquedas, que en aquel momento ya ayudaba a comprender cómo las palabras con los conceptos .

En 2018, Neural Matching hizo posible comprender cómo se relacionan las consultas con las páginas analizando la consulta o la página completa, y no solo las palabras clave.

BERT , en 2019, supuso un gran avance en la comprensión del lenguaje natural, ayudando a entender cómo las combinaciones de palabras expresan diferentes significados e intenciones .

Y MUM , lanzado en 2021, supuso un gran avance, siendo mil veces más potente que BERT, capaz de comprender y generar lenguaje, multimodal (texto, imágenes, etc.) y entrenado en 75 idiomas. Esto marcó el inicio de la búsqueda multimodal, lo que significa que diversos tipos de contenido, no solo texto, se transformaban en incrustaciones. ¿Transformado? ¿Les suena de algo?

Para optimizar este proceso, los documentos también se descomponen en una capa de incrustaciones vectoriales para su indexación . ¿Qué tal si organizamos todo esto en una tabla para entenderlo mejor? Eso es lo que hice para comprenderlo.

Diferencias fundamentales entre tokens e incrustaciones:

CaracterísticaSimbólicoIncrustación (densa)
RepresentaciónUnidades de texto sin procesar (palabras, subpalabras)vectores numéricos
EnfocarFrecuencia de palabras y sintaxis del textoSignificado semántico y contexto
SemejanzaBasado en palabras clave exactas y su distribución.Basándonos en la proximidad de significado en el espacio vectorial
Uso principalBúsqueda tradicional por palabras clave (búsqueda léxica)Búsqueda semántica y aplicaciones de IA que requieren comprensión del significado.
DimensionalidadPuede tener decenas de miles de dimensiones, con muchos ceros (dispersos).Generalmente cientos o miles de dimensiones, con valores predominantemente distintos de cero (densos).
EjemplosTF-IDF, BM25, SPLADEModelos como Word2Vec, GloVe y otros más recientes como BERT, MUM y Gemini.

Búsqueda híbrida, IA, tokens e incrustaciones

La principal conclusión de este cambio es que, para una recuperación de búsqueda eficiente con Inteligencia Artificial, no se utiliza solo una de las dos, sino una combinación estratégica: la Búsqueda Híbrida . Si quieres saber más, haz clic en el enlace que te proporcioné; te llevará a un artículo de LinkedIn basado en una investigación que realicé sobre el tema.

En resumen, la búsqueda híbrida combina la búsqueda semántica con la búsqueda vectorial para satisfacer una necesidad muy específica: encontrar similitudes fuera de un dominio de conocimiento determinado y lograr que el sistema que usted creó y entrenó comprenda entidades fuera de él.

¿Por qué necesitas una búsqueda híbrida?

Esto te será útil en casos muy específicos, como si estás creando un agente que interactuará con tus clientes y estos podrían hacer preguntas que escapan al ámbito de conocimiento con el que se entrenó tu modelo. Piensa en tu negocio: ¿es esto posible? Si es así, te conviene familiarizarte con este modelo de búsqueda.

La búsqueda semántica, si bien es muy eficaz, tiene una desventaja: puede presentar dificultades con información «fuera del dominio», es decir, datos con los que no se entrenó el modelo de incrustación. ¿Recuerdan cuando se filtraron las consultas de Claude y ChaGPT y vimos que realizaban búsquedas fuera del dominio de entrenamiento? Esto compensa dicha carencia, pero también incluye, por ejemplo, números de producto específicos, nombres de productos nuevos o códigos internos de empresa.

En estos casos, la búsqueda semántica "resulta infructuosa" porque solo puede encontrar lo que ya "conoce". Y si el usuario necesita algo que está fuera del alcance del modelo, recurre a la búsqueda basada en tokens, con el objetivo de llenar ese vacío.

La búsqueda híbrida, al integrar la búsqueda semántica (para consultas más sutiles y contextuales) con la búsqueda tradicional por palabras clave (para términos específicos fuera del dominio), busca lo "mejor de ambos mundos", garantizando una experiencia debido a las necesidades específicas de los modelos de IA, algo que no ocurría en Google antes de la Visión General de la IA.

¿Podría ser esta la razón por la que Google tardó tanto en sumarse?

incrustación de palabras espacio vectorial 3D
La imagen superior es simplemente una representación artística de los vectores utilizados en el proceso de incrustación.

¿Resumimos entonces?

Los tokens constituyen la base léxica del lenguaje , mientras que las representaciones vectoriales densas (embeddings) representan numéricamente su significado . La búsqueda moderna, mediada por algoritmos e inteligencia artificial, puede utilizar ambas, como en el caso de la búsqueda híbrida, pero existe una creciente tendencia a centrarse en las representaciones vectoriales. El hecho de que ayuden a los modelos a comprender el contexto y la intención, e incrementen la capacidad de razonamiento de los modelos de lenguaje, hace que su elección sea más que evidente.

Parte de nuestro trabajo como especialistas en búsqueda consiste en estructurar los datos y el contenido para que estos sistemas puedan comprenderlos, analizarlos y presentarlos de forma eficaz, incluso de manera hiperpersonalizada. La era de los agentes de IA , y nuestro próximo «cliente» es precisamente uno de estos agentes.

Hola, soy Alexander Rodrigues Silva, especialista en SEO y autor del libro "SEO Semántico: Flujo de Trabajo Semántico". Llevo más de dos décadas trabajando en el mundo digital, centrándome en la optimización web desde 2009. Mis decisiones me han llevado a profundizar en la intersección entre la experiencia del usuario y las estrategias de marketing de contenidos, siempre con el objetivo de aumentar el tráfico orgánico a largo plazo. Mi investigación y especialización se centran en el SEO Semántico, donde investigo y aplico la semántica y los datos conectados a la optimización web. Es un campo fascinante que me permite combinar mi formación en publicidad con la biblioteconomía. En mi segunda titulación, en Biblioteconomía y Documentación, busco ampliar mis conocimientos en indexación, clasificación y categorización de la información, ya que veo una conexión intrínseca y una gran aplicación de estos conceptos al trabajo de SEO. He estado investigando y conectando herramientas de Biblioteconomía (como Análisis de Dominios, Vocabulario Controlado, Taxonomías y Ontologías) con nuevas herramientas de Inteligencia Artificial (IA) y Modelos de Lenguaje a Gran Escala (MLGE), explorando desde Grafos de Conocimiento hasta el papel de los agentes autónomos. Como consultor SEO, busco aportar una nueva perspectiva a la optimización, integrando una visión a largo plazo, la ingeniería de contenidos y las posibilidades que ofrece la inteligencia artificial. Para mí, el SEO es una estrategia que debe estar alineada con los objetivos de su negocio, pero requiere un profundo conocimiento del funcionamiento de los motores de búsqueda y la capacidad de interpretar los resultados de búsqueda.

Publicar comentario

Blog semántico
Resumen de privacidad

Este sitio web utiliza cookies para ofrecerle la mejor experiencia de usuario posible. La información de las cookies se almacena en su navegador y realiza funciones como reconocerle cuando regresa a nuestro sitio web y ayudar a nuestro equipo a comprender qué secciones del sitio web le resultan más interesantes y útiles.