La paradoja de la ganancia de información y el SEO.

La paradoja de la ganancia de información y lo que el SEO necesita aprender de la teoría de la información.

Cuando pensamos en « información », solemos imaginar una acumulación de hechos, datos o noticias. Pero ¿y si la verdadera naturaleza de la información no fuera la acumulación, sino la transformación? ¿Y si obtener información no fuera como llenar un cubo, sino como cambiar la forma del cubo mismo?

Para nosotros, del SEO , esta distinción es la diferencia entre el SEO del pasado y el SEO semántico , que, desde mi punto de vista, es el SEO del presente y apunta hacia el futuro.

El concepto de «ganancia de información» es uno de los más contraintuitivos, pero a la vez uno de los más poderosos de la ciencia moderna. Para empezar a comprenderlo, debemos abandonar la idea de que la información es meramente contenido . En cambio, la exploraremos como un proceso de transformación sustancial, guiados por tres perspectivas revolucionarias.

Recuerda que tenemos un artículo aquí en el Blog Semántico que habla más específicamente sobre qué son los datos, la información y el conocimiento desde nuestro punto de vista: Diferencia entre datos, información y conocimiento .

En primer lugar, Claude Shannon , padre de la teoría de la información, nos enseñó que la información es aquello que reduce la incertidumbre . Posteriormente, Norbert Wiener , fundador de la cibernética, la definió de forma complementaria: así como la cantidad de información en un sistema es una medida de su grado de organización , la entropía es una medida de su desorganización; una es simplemente el negativo de la otra. Finalmente, la ciencia de la información , a través de pensadores como B.C. Brookes, nos brindó la definición más radical: la información es aquello que transforma el estado de conocimiento de una persona .

En este vídeo, obtendrá una visión más completa del proceso que he descrito brevemente, centrándome en el trabajo de Wiener debido a su importancia fundamental para comprender la información como algo cuantificable y sistematizable.

Estas tres perspectivas no son meramente académicas; describen a la perfección muchos sistemas computarizados y, en particular, uno que nos interesa enormemente: el de Google . Un algoritmo de búsqueda es, en esencia, un sistema cibernético (Wiener) que busca reducir la incertidumbre del usuario (Shannon) con el fin de, idealmente, transformar su estado de conocimiento (Brookes).

En nuestro campo, debemos acabar de una vez por todas con esta idea absurda de que el conocimiento académico está desligado de nuestra vida cotidiana. He escrito numerosos artículos que presentan teorías y aplicaciones que resultan sumamente útiles para nuestro trabajo.

Dicho esto, les pido que se preparen para descubrir que la información no reside en los datos, sino en la sorpresa; no en lo que se dice, sino en el cambio que provoca en el oyente. Prepárense para descubrir qué significa realmente «optimizar» el contenido.

El punto cero de la información

Por qué la predictibilidad es inútil y el "relleno de palabras clave" está muerto.

Puede parecer extraño pensarlo así, pero un mensaje no aporta información. Piénsalo: si te digo algo que ya sabes con absoluta certeza, ¿qué ganas? Nada. Tu incertidumbre no se ha reducido; tu conocimiento no ha cambiado.

Una vez que entendemos esto, parece sencillo, pero llegar a ese punto de comprensión no es nada fácil.

Esta es la base de la teoría de Claude Shannon. Para él, el contenido informativo de un mensaje es directamente proporcional a su improbabilidad. Cuanto más sorprendente sea el mensaje, más información contiene. Un evento con una probabilidad de 1 (certeza absoluta) tiene, por definición, información cero.

La analogía clásica es la del lanzamiento de una moneda. Una moneda equilibrada, con un 50% de probabilidad de que salga cara y un 50% de que salga cruz, presenta la máxima incertidumbre y, por lo tanto, el mayor potencial de información en un solo lanzamiento. Una moneda con dos caras, en cambio, no ofrece ninguna información, ya que el resultado siempre es el mismo. La sorpresa desaparece.

Aquí encontramos la primera lección esencial para el SEO.

Durante años, las primeras estrategias de SEO se basaban en la certeza relleno de palabras clave buscaba crear un mensaje totalmente predecible. Si un profesional del SEO quería un buen posicionamiento para "zapatos rojos", creaba un texto que dijera: "Compra nuestros zapatos rojos. Nuestros zapatos rojos son los mejores zapatos rojos del mercado".

Para un algoritmo de búsqueda moderno, este mensaje es como una moneda de dos caras: no ofrece información. No reduce la incertidumbre del usuario; simplemente repite lo que ya ha escrito. La ganancia informativa es nula.

A menudo buscamos certezas, pero la comunicación, el aprendizaje y la ciencia misma prosperan en lo inesperado. Si entiendes Google como un mecanismo de repetición, te estás perdiendo la parte más fundamental de su utilidad. Considera Google como un motor de descubrimiento y surgirán nuevas oportunidades. De esta manera, queda claro que busca páginas que sorprendan al usuario con conocimientos que desconoce.

Este principio no es una mera curiosidad filosófica; es el fundamento matemático de muchas tecnologías de comunicación modernas, incluidos los algoritmos de búsqueda.

La entropía de Shannon para un conjunto de resultados posibles viene dada por la fórmula:

$$H(X) = – \sum_{i=1}^{n} P(x_i) \log_b P(x_i)$$

  • H(X) : es la entropía del sistema;
  • N es el número de resultados posibles;
  • P(i) es la probabilidad del resultado (i).

Shannon formalizó esto en su medida de entropía (H), que representa la incertidumbre. H = 0 si y solo si todas las probabilidades p(i), excepto una, son cero, siendo este valor igual a 1. Por lo tanto, H desaparece solo cuando tenemos certeza del resultado. De lo contrario, H es positiva.

Esto parece complicado, y realmente lo es si no le dedicamos tiempo a comprenderlo, así que usemos una analogía con nuestro mundo del SEO:

Imagina una página de resultados de búsqueda (SERP) ideal, desde la perspectiva de Google: una con alta entropía, que ofrece diversas respuestas que abarcan las múltiples facetas de la incertidumbre del usuario, maximizando así el potencial de obtención de información. Una SERP donde los 10 resultados dicen exactamente lo mismo es una SERP poco informativa.

Detengámonos un momento y avancemos hacia el futuro, o mejor dicho, hacia nuestro presente: si recordamos el concepto de Query Fan-out , vemos que los modelos de IA hacen precisamente eso. Se formulan múltiples preguntas para generar información adicional y reducir la incertidumbre. ¡Pero volvamos a Shannon!

Pero esta definición matemática, centrada en el mensaje, es solo el comienzo. No nos dice nada sobre el significado del mensaje ni sobre lo que lo hace útil. Para ello, debemos examinar la estructura de la comunicación en sí misma.

La sorprendente verdad sobre el lenguaje.

¿Y qué tiene que ver Google BERT con esto?

He aquí un dato que podría cambiar tu percepción del lenguaje: según Shannon, aproximadamente el 50 % del inglés común es redundante. En portugués, no he encontrado estudios sobre este tema, pero esta afirmación no significa que la mitad de lo que decimos sea inútil; más bien, significa que la redundancia está determinada por la estructura estadística del propio idioma.

En su teoría de la comunicación, la «redundancia» es la parte de un mensaje que no se elige libremente, sino que sigue las reglas y patrones del lenguaje. Por ejemplo, en la oración «el gato subió al tejado», la estructura gramatical y la probabilidad de que ciertas palabras sigan a otras (como un artículo antes de un sustantivo) completan gran parte del contenido.

Quiero que tengas presente esta información: en una oración, ciertas palabras siguen a otras. Esto explicará algo importante sobre los modelos de IA que, al parecer, nuestros amigos del SEO se resisten a comprender.

Pero, volviendo al tema de la redundancia, es importante aclarar que, lejos de ser un defecto, es una característica importante e incluso brillante. Es lo que nos permite entender una conversación en un entorno ruidoso (aunque no oigamos todas las palabras de una frase), corregir mentalmente errores tipográficos e incluso completar palabras o frases que están incompletas, como en los juegos donde las palabras se mezclan o incluso se omiten. Aun así, logramos comprender el significado .

La redundancia es el mecanismo de defensa del lenguaje contra el ruido y el error , asegurando que el mensaje llegue a su destino.

Esta «redundancia» es precisamente lo que de procesamiento del lenguaje natural (PLN), como BERT (Representaciones de codificador bidireccional de transformadores) de Google. BERT no «lee» el contenido como un humano; analiza patrones estadísticos y predice las palabras faltantes basándose en el contexto que proporcionan las palabras redundantes circundantes.

Esto nos lleva de nuevo a lo que les pedí que tuvieran en cuenta: BERT, al ser un Transformer como GPT, funciona de manera muy similar: predice, basándose en estadísticas, cuáles serán las siguientes palabras en el contexto y genera una oración.

Piénsalo: ¿de verdad crees que es posible influir en un sistema que genera este tipo de respuesta creando preguntas frecuentes? ¿Estructurando listas? ¿O mediante cualquier otra estrategia creada por pura desesperación derivada de la falta de comprensión de cómo funcionan los modelos?

Al escribir, la mitad del texto está determinada por la estructura del idioma y la otra mitad es de libre elección. Para el SEO semántico, esto es crucial. Google utiliza la parte redundante (la estructura) para comprender la sintaxis y la parte libre (la elección de palabras y entidades ) para comprender el significado. Por eso, en el flujo de trabajo semántico, recomendamos recurrir a redactores expertos.

En un proyecto relacionado con la medicina (nuestro ámbito de conocimiento), la participación de médicos o residentes marca la diferencia. El marco mental y lingüístico del especialista ya abarca todas las entidades y conceptos, con sus definiciones, así como todas las relaciones entre ellos. Al escribir, todo este conocimiento se presenta en el contenido de forma muy natural, expresando la estructura y sus relaciones de significado.

Ahora que ya tienes algo de información, sabes que la redundancia nos muestra cómo la estructura del lenguaje nos ayuda a recibir el mensaje, pero esto aún no explica qué sucede en nuestra mente cuando lo recibimos. ¿Qué constituye, en realidad, la "ganancia" de información?

La información es lo que transforma lo que sabes.

Hasta ahora, nos hemos centrado en la información como una propiedad del mensaje. Pero la Ciencia de la Información (CI) nos invita a ir un paso más allá y centrarnos en el efecto que el mensaje tiene en el receptor, aunque no utilice estos términos, que he importado de la Teoría de la Comunicación.

Desde esta perspectiva, la información no es un objeto que se transfiere, sino una fuerza que impulsa el cambio cognitivo. Esta es la perspectiva que se relaciona con el SEO semántico y la actualización de contenido útil de Google.

El científico de la información BC Brookes resumió esta idea en una "ecuación fundamental":

K(S) + ΔI = K(S + ΔS)

Traduzcamos: una estructura de conocimiento K(S) se transforma mediante un incremento de información ΔI, dando como resultado una nueva estructura de conocimiento K(S + ΔS). La información no se «añade» simplemente a un conjunto de datos; reorganiza, reestructura y, a veces, incluso destruye lo que sabíamos antes. Espero que lo que lean ahora les cause el mismo impacto que a mí cuando lo comprendí.

El SEO tradicional se centraba en K(S). Optimizaba para lo que el usuario ya sabía (la palabra clave que escribía).

El SEO semántico se centra en la transición Δ para lograr K(S + ΔS).

Nuestro trabajo no es optimizar una página sobre "La paradoja de la ganancia de información y el SEO". Nuestro trabajo es crear una página que tome el K(S) del usuario (su noción básica de lo que significa "información") y lo transforme en K(S + ΔS), su nueva comprensión de cómo Shannon, Brookes y la subjetividad impactan el SEO.

Esta perspectiva se vincula directamente con otras teorías importantes. Aquí, el concepto de "incertidumbre" de Shannon se replantea radicalmente. Ya no se trata de una incertidumbre matemática en la transmisión de una señal, sino de una brecha cognitiva, un "estado de incertidumbre" que debe resolverse.

Y es por esta razón (comprobada científica y académicamente) que los proyectos de SEO semántico hacen que cada artículo, página o contenido optimizado atraiga cientos, e incluso cientos más, de búsquedas diferentes. Al generar una nueva estructura de conocimiento en cada contenido, proporcionamos a los algoritmos información para diversos tipos de búsquedas. Maximizamos la ganancia de información, reducimos la incertidumbre, y al algoritmo le encanta eso.

La teoría del "Estado Anómalo del Conocimiento" (EAC) de N.J. Belkin describe a la perfección por qué alguien recurre a un buscador. El usuario busca porque percibe una anomalía en su mapa mental del mundo. La información, por lo tanto, es la solución a un problema cognitivo.

Existen otras teorías válidas para comprender por qué creamos y utilizamos herramientas de búsqueda. En este artículo encontrarás una muy interesante: el proceso de recuperación de información de Kuhlthau

Esto significa que obtener información es una experiencia profundamente personal. Un mismo documento puede ser transformador para una persona e irrelevante para otra. El enfoque se desplaza del texto al cambio que se produce en la mente del lector. Y, en el artículo que mencioné anteriormente, encontrarás una propuesta para incluir las emociones de los usuarios en tu estrategia de contenido.

El concepto de información, desde la perspectiva de la ciencia de la información, debe satisfacer un doble requisito: por un lado, la información debe ser el resultado de una transformación de las estructuras de conocimiento del generador… y, por otro lado, debe ser algo que, al ser percibido, afecte y transforme el estado de conocimiento del receptor, con un profundo impacto en cómo se sintió al darse cuenta de que necesitaba información que no tenía.

La relatividad de la información

Las palabras clave son brillantes e inútiles al mismo tiempo.

Si la información es lo que nos transforma, entonces su valor es completamente relativo y contextual. Y es aquí donde el SEO basado únicamente en palabras clave fracasa irremediablemente.

Un ejemplo llamativo de esto es el "Caso de la pintura de Mark Twain", descrito por el investigador Peter Ingwersen.

Este ejercicio imaginativo es un ejemplo clásico del campo de la Ciencia de la Información, utilizado para ilustrar y explicar el proceso de búsqueda y recuperación de información. Si bien no se trata de un hecho histórico real en el que participe el autor, la historia se utiliza como alegoría para demostrar los desafíos y la dinámica del comportamiento humano al buscar datos en sistemas de información. Analicémoslo:

Twain describe un óleo que representa el último encuentro entre los generales Lee y Jackson. Observa que, sin un título, la pintura carece de significado. La misma imagen (los datos en bruto) podría interpretarse de innumerables maneras, algunas incluso contradictorias.

  • Primer encuentro entre Lee y Jackson
  • Último encuentro entre Lee y Jackson
  • Jackson le pide un combate a Lee.
  • Jackson informa de una gran victoria
  • Jackson se disculpa por una gran derrota.

Cada uno de estos "títulos" genera información completamente diferente en la mente del espectador.

En SEO semántico, tu contenido (artículo, vídeo, imagen) es la obra de arte. Los "pies de foto" son las entidades que utilizas para proporcionar contexto. Si tu artículo solo trata sobre la palabra clave "Jackson", Google no tiene forma de saber si el usuario busca a "Michael Jackson" o a "Andrew Jackson". La palabra clave, por sí sola, es ambigua y no aporta información adicional. La información obtenida depende por completo de la comprensión previa y el contexto del usuario.

El caso de Mark Twain pone de manifiesto la limitación fundamental de la teoría puramente matemática de la información. La incertidumbre reducida no reside en la «pintura» como signo, sino en la mente del observador.

¿Cómo lo resuelve Google? Mapeando entidades en su grafo de conocimiento . La función del SEO semántico es proporcionar las descripciones adecuadas para nuestra "pintura" (nuestra publicación).

Podemos hacerlo de varias maneras:

  • Al utilizar datos estructurados y etiquetar nuestro contenido con schema.org, estaremos "detallando" explícitamente nuestro artículo para el algoritmo de búsqueda. Estamos diciendo: "Este artículo no trata sobre cualquier Jackson; trata sobre Andrew Jackson [Entidad: Persona], el séptimo presidente de los Estados Unidos [Entidad: Título]".
  • Crear un grafo de conocimiento con sistemas como Wordlift, conectando palabras que representan entidades en ese grafo y exponiéndolo a algoritmos.
  • Estructurar la estrategia de contenidos y todo el proyecto a partir de un análisis exhaustivo del dominio del conocimiento, y presentar esta estructura en forma de menús, categorías y directrices para la creación de contenidos.

Para aprender cómo hacerlo, recomiendo leer mi libro: SEO Semántico: Flujo de Trabajo Semántico.

Esta idea se relaciona con el concepto de los "tres mundos" del filósofo Karl Popper, que Brookes aplicó a la ciencia de la información.

Nuestra realidad consta de… tres mundos interconectados y de alguna manera interdependientes, que en parte se interpenetran entre sí. Estos tres mundos son: el Mundo Físico, Mundo 1, de cuerpos y estados físicos, fenómenos y fuerzas; el Mundo Psíquico, Mundo 2, de emociones y procesos psíquicos inconscientes; y el Mundo 3, de Productos Intelectuales.

Karl Popper
  1. Mundo 1: el mundo físico.
  2. Mundo 2: el mundo subjetivo de nuestros estados mentales (donde se produce la necesidad de información y la obtención de información ).
  3. Mundo 3: el mundo del conocimiento objetivo y registrado (libros, arte, ciencia… y tu sitio web).

La adquisición de información, la transformación, es un evento totalmente subjetivo que ocurre en el Mundo 2 de cada espectador. Nuestro sitio web (Mundo 3) y los datos estructurados (Mundo 3) son las herramientas que utilizamos para influir en el Mundo 2 del usuario.

Ingwersen, figura clave en el estudio de la intersección entre la cognición humana y la recuperación de información, utiliza el "Caso de la pintura de Mark Twain" para destacar varios conceptos fundamentales para comprender la búsqueda moderna:

La representación del conocimiento: este es el punto más importante para nosotros. El caso ilustra cómo se representa (o «modela») el conocimiento en un sistema de información y cómo esta representación influye directamente en la capacidad del usuario para encontrarlo. La información sobre la pintura (la entidad principal) se puede catalogar de diversas maneras: por el nombre del autor (otra entidad), por la fecha de la obra (un atributo) o por la persona retratada (una tercera entidad). Un algoritmo de búsqueda eficiente y una estrategia de SEO semántico competente deben considerar, conectar y desambiguar todas estas representaciones. Para esto precisamente sirven los datos estructurados: proporcionan la «leyenda» inequívoca que conecta los puntos en el grafo de conocimiento.

La naturaleza dinámica de la necesidad de información: este caso demuestra claramente que la búsqueda de información rara vez es un proceso lineal. No se trata de que el usuario sepa exactamente lo que quiere, ni de que el sistema simplemente se lo proporcione. Al contrario, es un ciclo sustancial de ensayo, error y aprendizaje. La comprensión del usuario, y por lo tanto su intención de búsqueda, que se basa en la necesidad de información, evoluciona y se transforma con cada nueva interacción con el algoritmo de búsqueda y los resultados que este presenta.

La «interacción cognitiva» o el factor humano: Ingwersen destaca que el éxito de una búsqueda no se debe únicamente a la tecnología del sistema. El factor determinante es cómo el cerebro del usuario (el «Mundo 2» subjetivo) interactúa con la información presentada. La intuición, la capacidad de interpretar contextos ambiguos y la habilidad para establecer conexiones inesperadas son cruciales para el proceso. El motor de búsqueda no trabaja con una consulta estática; trabaja con una mente en funcionamiento.

El papel del sistema como facilitador del descubrimiento : si la búsqueda es un descubrimiento, el algoritmo de búsqueda ideal debería actuar como facilitador. El sistema debe diseñarse no solo para «responder», sino también para asistir activamente al usuario en el proceso cognitivo. Esto se logra ofreciendo sugerencias relevantes (como «Otras preguntas de los usuarios» o búsquedas relacionadas), organizando los resultados de forma útil (agrupando temas y entidades) y permitiendo consultas flexibles que se adaptan a la necesidad de información en constante evolución.

Por lo tanto, las implicaciones para nuestra era digital son profundas.

Esta subjetividad es la razón por la que la «relevancia» resulta un problema tan complejo para los algoritmos de búsqueda y la inteligencia artificial. La ganancia de información no es una propiedad inherente del documento, sino algo que se crea en la interacción dinámica entre un texto y un usuario específico en un momento determinado.

Una etiqueta buena y legible a menudo vale, a efectos informativos, una gran cantidad de actitud y expresión significativas dentro de un contexto histórico.

Panofsky, E. (1955). El significado en las artes visuales. Doubleday

Twain solía citar esta frase de Panofsky de forma ingeniosa, relacionando la idea de que un etiquetado claro es muy valioso para quienes necesitan la información.

Para fines de SEO, podemos parafrasear: "Para un algoritmo de búsqueda, unos datos bien estructurados y un contexto claro valen mucho más que un montón de palabras clave".

Navegando el océano de la incertidumbre

El SEO como transformación

¡Uf! Espero que me hayan acompañado en este viaje. Sí, superar tantas complejidades fue, para mí, toda una odisea. Escribir estos artículos, que requieren tanta investigación, me habría sido imposible hace años. Pero usar el enfoque de agente y semántica lo facilita.

Agente CTA+Semántica

Esta investigación me llevó de una definición rigurosa y matemática de la información como sorpresa, cortesía de Claude Shannon, a una visión profundamente humana y cognitiva, en la que la información es una fuerza transformadora. Espero que les haya aportado un gran impulso informativo, un verdadero beneficio.

Hasta ahora hemos visto que la información real no surge de la certeza, sino de la reducción de la incertidumbre. Y esto se relaciona con un hecho que lo desencadena todo: la percepción de que nos falta algo, lo cual genera la necesidad de información.

Descubrimos que la redundancia en nuestro lenguaje, lejos de ser un defecto, es lo que lo hace robusto y permite que Google lo entienda.

Y lo más importante, entendemos que la verdadera ganancia informativa no consiste en acumular datos, sino en permitir que nuestro conocimiento se reestructure activamente.

Por lo tanto, el SEO no consiste en tener contenido, sino en diseñar contenido que interactúe con el usuario. La información es el cambio, la reorganización, el «clic» mental que transforma nuestra visión del mundo.

Esto nos deja con una última reflexión:

Si la verdadera medida de la información es el cambio que provoca, ¿cómo podemos diseñar nuestras estrategias de SEO y nuestros propios sitios web para que sean más abiertos a la transformación?

La solución es dejar de centrarse únicamente en K(S) (lo que el usuario escribió) y empezar a centrarse obsesivamente en crear Δ (contenido sorprendente, útil y contextualizado) que los lleve a K(S + ΔS) (el estado transformado del conocimiento).

¡Y por eso, el SEO semántico es imbatible!

Hola, soy Alexander Rodrigues Silva, especialista en SEO y autor del libro "SEO Semántico: Flujo de Trabajo Semántico". Llevo más de dos décadas trabajando en el mundo digital, centrándome en la optimización web desde 2009. Mis decisiones me han llevado a profundizar en la intersección entre la experiencia del usuario y las estrategias de marketing de contenidos, siempre con el objetivo de aumentar el tráfico orgánico a largo plazo. Mi investigación y especialización se centran en el SEO Semántico, donde investigo y aplico la semántica y los datos conectados a la optimización web. Es un campo fascinante que me permite combinar mi formación en publicidad con la biblioteconomía. En mi segunda titulación, en Biblioteconomía y Documentación, busco ampliar mis conocimientos en indexación, clasificación y categorización de la información, ya que veo una conexión intrínseca y una gran aplicación de estos conceptos al trabajo de SEO. He estado investigando y conectando herramientas de Biblioteconomía (como Análisis de Dominios, Vocabulario Controlado, Taxonomías y Ontologías) con nuevas herramientas de Inteligencia Artificial (IA) y Modelos de Lenguaje a Gran Escala (MLGE), explorando desde Grafos de Conocimiento hasta el papel de los agentes autónomos. Como consultor SEO, busco aportar una nueva perspectiva a la optimización, integrando una visión a largo plazo, la ingeniería de contenidos y las posibilidades que ofrece la inteligencia artificial. Para mí, el SEO es una estrategia que debe estar alineada con los objetivos de su negocio, pero requiere un profundo conocimiento del funcionamiento de los motores de búsqueda y la capacidad de interpretar los resultados de búsqueda.

Publicar comentario

Blog semántico
Resumen de privacidad

Este sitio web utiliza cookies para ofrecerle la mejor experiencia de usuario posible. La información de las cookies se almacena en su navegador y realiza funciones como reconocerle cuando regresa a nuestro sitio web y ayudar a nuestro equipo a comprender qué secciones del sitio web le resultan más interesantes y útiles.