O paradoxo do ganho de informação e o SEO

O paradoxo do ganho de informação e o que SEO precisa aprender com a teoria da informação

Quando pensamos em “informação“, geralmente imaginamos um acúmulo de fatos, dados ou notícias. Mas e se a verdadeira natureza da informação não for acumular, e sim transformar? E se ganhar informação não for como encher um balde, mas como mudar a forma do próprio balde?

Para nós, profissionais de SEO, essa distinção é a diferença entre o SEO do passado e o SEO Semântico, que, do meu ponto de vista, é o SEO do presente e indica o futuro.

O conceito de “ganho de informação” é um dos mais contraintuitivos, mas, ao mesmo tempo, um dos mais potentes da ciência moderna. Para começar a entendê-lo, precisamos abandonar a ideia de que a informação é apenas conteúdo. Em vez disso, vamos explorá-la como um processo de transformação substancial, guiado por três perspectivas revolucionárias.

Lembrando que temos um artigo aqui no Blog Semântico que fala mais especificamente sobre o que são dados, informação e conhecimento do nosso ponto de vista: Diferença entre dados, informação e conhecimento.

Primeiro, Claude Shannon, o pai da teoria da informação, nos ensinou que a informação é aquilo que reduz a incerteza. Depois, Norbert Wiener, o fundador da cibernética, a definiu de forma complementar: assim como a quantidade de informação em um sistema é uma medida de seu grau de organização, a entropia é uma medida de sua desorganização; uma é simplesmente o negativo da outra. Por fim, a Ciência da Informação, por meio de pensadores como B.C. Brookes nos deu a definição mais radical: informação é aquilo que transforma o estado de conhecimento de uma pessoa.

Neste vídeo, você tem um panorama mais completo desse processo que descrevi brevemente, com foco no trabalho do Wiener, por sua importância seminal no entendimento da informação como algo quantificável e sistematizável.

Essas três visões não são apenas acadêmicas; elas descrevem perfeitamente muitos sistemas informatizados e, em particular, um que nos interessa muito: o ecossistema de busca do Google. Um algoritmo de busca atual é, em essência, um sistema cibernético (Wiener) que busca reduzir a incerteza do usuário (Shannon) para, idealmente, transformar seu estado de conhecimento (Brookes).

Precisamos, de uma vez por todas, na nossa área, acabar com essa bobagem de que o conhecimento acadêmico fica afastado do nosso dia a dia. Tenho escrito artigos e mais artigos que apresentam muitas teorias e aplicações que se mostram mais do que úteis para o nosso trabalho.

Isso posto, peço que prepare-se para descobrir que a informação não está nos dados, mas na surpresa; não está no que é dito, mas na mudança que provoca em quem ouve. Prepare-se para descobrir o que realmente significa “otimizar” um conteúdo.

O Ponto Zero da Informação

Por que a previsibilidade é inútil e o “Keyword Stuffing” morreu

Pode parecer estranho pensar assim, mas uma mensagem totalmente previsível não carrega nenhuma informação. Pense nisso: se eu lhe disser algo que você já sabe com 100% de certeza, o que você ganha? Nada. Sua incerteza não foi reduzida; seu conhecimento não mudou.

Depois que entendemos isso, parece simples, mas para chegar a esse ponto de entendimento não é nada fácil.

Essa é a base da teoria de Claude Shannon. Para ele, o conteúdo informacional de uma mensagem é diretamente proporcional à sua improbabilidade. Quanto mais surpreendente a mensagem, mais informação ela contém. Um evento com probabilidade 1 (certeza absoluta) tem, por definição, zero de informação.

A analogia clássica é o lançamento de uma moeda. Uma moeda justa, com 50% de chance de cara e 50% de coroa, apresenta o máximo de incerteza e, portanto, o maior potencial de informação em um único lançamento. Já uma moeda com duas caras não oferece informação alguma, pois o resultado é sempre o mesmo. A surpresa foi eliminada.

Aqui, encontramos a primeira lição essencial para o SEO.

Durante anos, o SEO primitivo baseou-se na certeza. A prática do “keyword stuffing” (o excesso de palavras-chave) era uma tentativa de criar uma mensagem 100% previsível. Se um profissional de SEO quisesse uma boa classificação para “sapatos vermelhos”, ele criaria um texto que dizia: “Compre nossos sapatos vermelhos. Nossos sapatos vermelhos são os melhores sapatos vermelhos do mercado.”

Para um algoritmo de busca moderno, essa mensagem é como a moeda de duas caras: não oferece nenhuma informação. Ela não reduz a incerteza do usuário; apenas repete o que ele já digitou. O ganho de informação é zero.

Frequentemente buscamos a certeza, mas a comunicação, o aprendizado e a própria ciência prosperam no inesperado. Se você entende o Google como um mecanismo de repetição, está perdendo a parte mais fundamental da sua utilidade. Veja o Google como um mecanismo de descoberta e novas oportunidades vão aparecer. Desta forma, fica claro que ele procura páginas que surpreendem o usuário com conhecimento que ele não possui.

Este princípio não é apenas uma curiosidade filosófica; é o fundamento matemático de muitas tecnologias de comunicação modernas, incluindo os algoritmos de busca.

A entropia de Shannon para um conjunto de resultados possíveis é dada pela fórmula:

$$H(X) = – \sum_{i=1}^{n} P(x_i) \log_b P(x_i)$$

  • H(X): é a entropia do sistema;
  • N é o número de resultados possíveis;
  • P(i) é a probabilidade do resultado (i). 

Shannon formalizou isso em sua medida de entropia (H), que representa a incerteza. H = 0 se e somente se todas as probabilidades p(i), exceto uma, forem zero, tendo este valor de 1. Assim, H desaparece apenas quando temos certeza do resultado. Caso contrário, H é positivo.

Isso parece complicado e realmente é, se não dedicarmos tempo para entender, por isso vamos a uma analogia com o nosso mundo do SEO:

Imagine uma página de resultados (SERP) ideal, do ponto de vista do Google: é aquela com alta entropia, pois oferece uma variedade de respostas que cobrem as múltiplas facetas da incerteza do usuário, maximizando o potencial de ganho de informação. Uma SERP em que todos os 10 resultados dizem exatamente a mesma coisa é uma SERP de baixa informação.

Vamos parar um pouco e dar um pulo para o futuro, ou melhor, para o nosso presente: se formos lembrar do conceito de Query Fan-out, vemos exatamente os modelos de IA fazendo isso. São múltiplas perguntas formuladas para gerar ganho de informação e reduzir a incerteza. Mas vamos voltar a Shannon!

Mas essa definição matemática, focada na mensagem, é apenas o começo da história. Ela não nos diz nada sobre o significado da mensagem nem sobre o que a torna útil. Para isso, precisamos olhar para a estrutura da própria comunicação.

A surpreendente verdade sobre a linguagem

E o Google BERT tem a ver com isso?

Aqui está um fato que pode abalar sua percepção sobre a linguagem: de acordo com Shannon, cerca de 50% do inglês comum é redundante. Em português, não encontrei nenhum estudo sobre esse assunto, mas essa afirmação não significa que metade do que dizemos seja inútil, e sim que a redundância é determinada pela estrutura estatística da própria língua.

Em sua teoria da comunicação, a “redundância” é a parte de uma mensagem que não é escolhida livremente, mas que segue as regras e os padrões da linguagem. Por exemplo, na frase “o gato subiu no telhado”, a estrutura gramatical e a probabilidade de certas palavras seguirem outras (como um artigo antes de um substantivo) preenchem grande parte do conteúdo.

Eu quero que guarde essa informação na sua mente: numa frase, certas palavras seguem outras. Isso vai explicar uma coisa importante sobre modelos de IA, que, aparentemente, nossos amigos do SEO teimam em não entender.

Mas, voltando à redundância, é preciso deixar claro que, longe de ser uma falha, ela é uma característica importante e até genial. É o que nos permite entender uma conversa em um ambiente ruidoso (mesmo quando não ouvimos todas as palavras de uma frase), corrigir erros de digitação mentalmente e até mesmo completar palavras ou frases cortadas, como nas brincadeiras em que palavras são misturadas ou até mesmo sem todas as letras. Mesmo assim, conseguimos entender o sentido.

A redundância é o sistema de defesa da linguagem contra o ruído e o erro, garantindo que a mensagem chegue ao destino.

Essa “redundância” é exatamente o que algoritmos de Processamento de Linguagem Natural (PLN), como o BERT (Bidirectional Encoder Representations from Transformers) do Google, exploram. O BERT não “lê” o seu conteúdo como um humano. Ele analisa padrões estatísticos. Ele prevê as palavras faltantes com base no contexto fornecido pelas palavras redundantes ao redor.

É aqui que voltamos ao que eu pedi para guardar na cabeça: o BERT, por ser um Transformer, como o GPT, funciona de forma bem parecida: ele prevê, com base em estatística, quais são as próximas palavras no contexto e gera uma frase.

Pensa bem comigo: você acha mesmo que é possível influenciar um sistema que gera uma resposta desta maneira, criando FAQs? Estruturando listas? Ou qualquer outra estratégia criada por puro desespero vindo do não entendimento de como os modelos funcionam?

Quando escrevemos, metade do que escrevemos é determinada pela estrutura da língua e a outra metade é escolhida livremente. Para o SEO semântico, isso é um ponto de virada. O Google usa a parte redundante (a estrutura) para entender a sintaxe e a parte “livre” (sua escolha de palavras, suas entidades) para entender o significado. É por isso que, no Fluxo de Trabalho Semântico, recomendamos o uso de redatores especialistas.

Em um projeto relacionado à medicina (o nosso Domínio do Conhecimento), contar com médicos ou residentes faz toda a diferença. Na estrutura mental e linguística do especialista, já estão construídas todas as entidades e conceitos, com suas definições, bem como todas as relações entre esses conceitos. Quando essa pessoa escreve, todo esse conhecimento é apresentado no conteúdo de forma muito natural, expressando a estrutura e suas relações de significado.

Agora você teve um pequeno ganho de informação; sabe que a redundância nos mostra como a estrutura da linguagem nos ajuda a receber a mensagem, mas isso ainda não explica o que acontece em nossa mente ao recebê-la. O que, de fato, constitui o “ganho” de informação?

Informação é aquilo que transforma o que você sabe

Até agora, focamos na informação como propriedade da mensagem. Mas a Ciência da Informação (CI) nos convida a dar um passo adiante e focar no efeito que a mensagem tem sobre o receptor, apesar de não usar esses termos, que eu importei da Teoria da Comunicação.

Nessa visão, a informação não é um objeto a ser transferido, mas sim uma força que promove uma mudança cognitiva. Esta é a visão que pode ser conectada ao SEO Semântico e ao Google Helpful Content Update.

O cientista da informação B.C. Brookes resumiu essa ideia em uma “equação fundamental”:

K(S) + ΔI = K(S + ΔS)

Vamos traduzir: uma estrutura de conhecimento K(S) é transformada por um incremento de informação ΔI, resultando em uma nova estrutura de conhecimento K(S + ΔS). A informação não é simplesmente “adicionada” a uma pilha de fatos; ela reorganiza, reestrutura e, às vezes, até demole o que sabíamos antes. Agora eu espero o que vai ler tenha o mesmo impacto que teve em mim quando me dei conta disso:

O SEO tradicional focava em K(S). Ele otimizava para o que o usuário já sabia (a palavra-chave que ele digitou).

O SEO semântico foca na transição Δ para alcançar K(S + ΔS).

Nosso trabalho não é otimizar uma página sobre “O paradoxo do ganho de informação e SEO”. Nosso trabalho é criar uma página que pegue o K(S) do usuário (sua noção básica do que “informação” significa) e o transforme em K(S + ΔS), a sua nova compreensão de como Shannon, Brookes e a subjetividade impactam o SEO.

Essa visão se conecta diretamente a outras teorias importantes. Aqui, o conceito de “incerteza” de Shannon é radicalmente reimaginado. Não se trata mais de uma incerteza matemática na transmissão de um sinal, mas de uma lacuna cognitiva, um “estado de incerteza” a ser resolvido.

E é por esse motivo (provado cientificamente e academicamente) que os projetos de SEO semântico fazem com que cada artigo, página ou conteúdo otimizado traga centenas, e até mais centenas, de buscas diferentes. Como geramos uma nova estrutura de conhecimento em cada conteúdo, fornecemos aos algoritmos informações para diversos tipos de busca. Potencializamos o ganho de informação, reduzimos a incerteza e o algoritmo adora isso.

A teoria do “Estado Anômalo de Conhecimento” (Anomalous State of Knowledge – ASK), de N.J. Belkin, descreve perfeitamente o porquê de alguém recorrer a um mecanismo de busca. O usuário busca porque percebe uma anomalia em seu mapa mental do mundo. A informação, portanto, é a solução para um problema cognitivo.

Existem outras teorias válidas para entender por que criamos e usamos ferramentas de busca. Neste artigo vai encontrar uma bem interessante: Processo de busca da informação de Kuhlthau

Isso significa que o ganho de informação é um evento profundamente pessoal. O mesmo documento pode ser transformador para uma pessoa e irrelevante para outra. O foco muda do que está escrito no papel para a mudança que ocorre na mente do leitor. E, no artigo que citei acima, você vai encontrar uma proposta para incluir os sentimentos dos usuários na sua estratégia de conteúdo!

O conceito de informação, sob a perspectiva da ciência da informação, tem que satisfazer a um requisito duplo: por um lado, a informação ser o resultado de uma transformação das estruturas de conhecimento do gerador… e, por outro lado, ser algo que, quando percebido, afeta e transforma o estado de conhecimento do receptor, com impacto profundo em como ele se sentia quando percebeu que precisava de uma informação que não tinha.

A Relatividade da Informação

Keywords são brilhantes e inúteis ao mesmo tempo

Se a informação é o que nos transforma, então seu valor é completamente relativo e contextual. E é aqui que o SEO baseado puramente em palavras-chave falha de forma irrecuperável.

Um exemplo impactante disso é o “Caso da Pintura de Mark Twain”, descrito pelo pesquisador Peter Ingwersen.

Esse exercício imaginativo é um exemplo clássico da área de Ciência da Informação, utilizado para ilustrar e explicar o processo de busca e recuperação de informações. Embora não seja um evento histórico real envolvendo o autor, a história é utilizada como alegoria para demonstrar os desafios e a dinâmica do comportamento humano ao buscar dados em sistemas de informação. Vamos a ele:

Twain descreve uma pintura a óleo do último encontro entre os generais Lee e Jackson. Ele observa que, sem uma legenda, a pintura não significa nada. A mesma imagem (os dados brutos) poderia ser interpretada de inúmeras maneiras, algumas até contraditórias:

  • Primeiro encontro entre Lee e Jackson
  • Último encontro entre Lee e Jackson
  • Jackson pedindo um fósforo a Lee
  • Jackson relatando uma grande vitória
  • Jackson se desculpando por uma grande derrota

Cada uma dessas “legendas” gera uma informação completamente diferente na mente do espectador.

No SEO semântico, o seu conteúdo (artigo, vídeo, imagem) é a pintura. As “legendas” são as entidades que você usa para fornecer contexto. Se o seu artigo é apenas sobre a palavra-chave “Jackson”, o Google não tem como saber se o usuário busca a entidade “Michael Jackson” ou a “Andrew Jackson”. A palavra-chave, sozinha, é ambígua e não traz ganho de informação. A informação obtida depende inteiramente do “pré-entendimento” e do contexto de quem observa.

O caso de Mark Twain expõe o limite básico da teoria puramente matemática da informação. A incerteza reduzida não está na “pintura” como um sinal, mas na mente do observador.

Como o Google resolve isso? Mapeando entidades em seu grafo do conhecimento (Knowledge Graph). O trabalho do SEO semântico é fornecer as legendas adequadas para nossa “pintura” (nossa publicação).

Podemos fazer isso de várias maneiras:

  • Com dados estruturados e marcando nosso conteúdo com o schema.org. Ele estará explicitamente “legendando” nosso artigo para o algoritmo de busca. Estamos dizendo: “Este artigo não é sobre qualquer Jackson; é sobre Andrew Jackson [Entidade: Pessoa], o sétimo presidente dos EUA [Entidade: Cargo]”.
  • Criando um grafo de conhecimento com sistemas como o Wordlift, conectando palavras que representam entidades nesse grafo e expondo-o aos algoritmos.
  • Estruturando a estratégia de conteúdo e todo o projeto a partir de uma análise bem feito do Domínio do Conhecimento e expondo essa estrutura em forma de menus, categorias e orientações para criação de conteúdo.

Para saber como fazer isso eu te recomendo ler o meu livro: SEO Semântico: Fluxo de trabalho semântico

Essa ideia se conecta ao conceito dos “três mundos” do filósofo Karl Popper, que Brookes aplicou à ciência da informação.

A nossa realidade consiste… em três mundos ligados entre si e de algum modo interdependentes, e que em parte se interpenetram. Estes três mundos são: o Mundo Físico, Mundo 1, dos corpos e dos estados, fenômenos e forças físicas; o Mundo Psíquico, Mundo 2, das emoções e dos processos psíquicos inconscientes; e o Mundo 3 dos Produtos Intelectuais

Karl Popper
  1. Mundo 1: o mundo físico.
  2. Mundo 2: o mundo subjetivo de nossos estados mentais (onde ocorrem a Necessidade de Informação e o Ganho de Informação).
  3. Mundo 3: o mundo do conhecimento objetivo e registrado (livros, arte, ciência… e o seu site).

O ganho de informação, a transformação, é um evento inteiramente subjetivo que ocorre no Mundo 2 de cada espectador. O nosso site (Mundo 3) e os dados estruturados (Mundo 3) são as ferramentas que usamos para influenciar o Mundo 2 do usuário.

Ingwersen, uma figura primordial no estudo da interseção entre a cognição humana e a recuperação de informação, utiliza o “Caso da Pintura de Mark Twain” para destacar vários conceitos que são basilares para entendermos a busca moderna:

A representação do conhecimento: este é o ponto mais importante para nós. O caso ilustra como o conhecimento é representado (ou “modelado”) em um sistema de informação e como essa representação influencia diretamente a capacidade do usuário de encontrá-lo. As informações sobre a pintura (a entidade principal) podem estar catalogadas de diversas formas: pelo nome do autor (outra entidade), pela data da obra (um atributo) ou pela pessoa retratada (uma terceira entidade). Um algoritmo de busca eficiente e uma estratégia de SEO semântico competente precisam considerar, conectar e desambiguar todas essas diferentes representações. É exatamente para isso que servem os dados estruturados: fornecem a “legenda” inequívoca que conecta os pontos no Grafo do Conhecimento.

A natureza dinâmica da necessidade de informação: o caso demonstra claramente que a busca por informação raramente é um processo linear. Não se trata de um usuário que sabe exatamente o que quer nem de um sistema que simplesmente entrega. Pelo contrário, é um ciclo substancial de tentativas, erros e aprendizado. A compreensão do usuário e, portanto, sua intenção de busca, que se ancoram na necessidade de informação, evoluem e se transformam a cada nova interação com o algoritmo de busca e com os resultados que ele apresenta.

A “Interação Cognitiva” ou o fator humano: Ingwersen enfatiza que o sucesso de uma busca não é um mérito exclusivo da tecnologia do sistema. O fator determinante é a forma como o cérebro do usuário (o “Mundo 2”, subjetivo) interage com as informações apresentadas. A intuição, a capacidade de interpretar contextos ambíguos e a habilidade de estabelecer conexões inesperadas são capitais para o processo. O mecanismo de busca não está lidando com uma consulta estática; está lidando com uma mente em funcionamento.

O papel do sistema como facilitador da descoberta: se a busca é uma descoberta, o algoritmo de busca ideal deve atuar como facilitador. O sistema deve ser projetado não apenas para “responder”, mas também para auxiliar ativamente o usuário no processo cognitivo. Ele faz isso ao oferecer sugestões pertinentes (como “As pessoas também perguntam” ou pesquisas relacionadas), organizar os resultados de forma útil (agrupando tópicos e entidades) e permitir consultas flexíveis que se adaptem à necessidade de informação em constante evolução.

A implicação para nossa era digital é, portanto, profunda.

Essa subjetividade é a razão pela qual a “relevância” é um problema tão complexo para os algoritmos de busca e a inteligência artificial. O ganho de informação não é uma propriedade inerente a um documento, mas algo criado na interação dinâmica entre um texto e um usuário específico, em um momento específico.

Um bom rótulo legível geralmente vale, para fins informativos, uma tonelada de atitude e de expressão significativas em um quadro histórico.

Panofsky, E. (1955). Meaning in the Visual Arts. Doubleday

Twain costumava citar essa frase de Panofsky de forma espirituosa, conectando a ideia de que rotular com clareza vale muito para quem precisa da informação.

Para o SEO, podemos parafrasear: “Bons dados estruturados e um contexto claro valem, para um algoritmo de busca, uma tonelada de palavras-chave.”

Navegando no oceano da incerteza

O SEO como transformação

Ufa, espero que você tenha continuado comigo nessa verdadeira jornada. Sim, passar por tantas coisas complicadas foi, para mim, como uma epopeia. Escrever esses artigos que exigem tanta pesquisa, anos atrás, seria impossível para mim. Mas usando o agente+semântico fica mais fácil.

CTA Agente+Semântico

Essa pesquisa me levou de uma definição matemática e rigorosa da informação como surpresa, cortesia de Claude Shannon, a uma visão profundamente humana e cognitiva, na qual a informação é uma força de transformação. Tomara que tenha te trazido um grande incremento informacional, um verdadeiro ganho.

Até aqui vimos que a informação real não nasce da certeza, mas da redução da incerteza. E isso se conecta a um fato que desencadeia tudo isso: a percepção de que nos falta algo, o que gera a necessidade de informação.

Descobrimos que a redundância em nossa linguagem, longe de ser um defeito, é o que a torna robusta e permite ao Google entendê-la.

E o mais importante, compreendemos que o verdadeiro ganho de informação não se trata de acumular dados, mas de permitir que nosso conhecimento seja ativamente reestruturado.

O SEO, portanto, não é a prática de ter conteúdo; é a prática de projetar conteúdo que acontece com o usuário. Informação é a mudança, a reorganização, o “clique” mental que altera nossa visão de mundo.

Isso nos deixa com uma reflexão final:

Se a verdadeira medida da informação é a mudança que ela provoca, como podemos projetar nossas estratégias de SEO e nossos próprios sites para estarem mais abertos à transformação?

A resposta é parar de focar apenas em K(S) (o que o usuário digitou) e passar a focar obsessivamente em criar o Δ (o conteúdo surpreendente, útil e contextualizado) que o leve a K(S + ΔS) (o estado de conhecimento transformado).

E, para isso, o SEO semântico é imbatível!

Olá, eu sou o Alexander Rodrigues Silva, especialista SEO e autor do livro "SEO Semântico: Fluxo de trabalho semântico". Atuo há mais de duas décadas no universo digital, com foco em otimização de sites desde 2009. Minhas escolhas me levaram a aprofundar na intersecção entre experiência do usuário e estratégias de marketing de conteúdo, sempre com o foco no aumento do tráfego orgânico no longo prazo.Minhas pesquisas e especialização se concentram no SEO Semântico, onde investigo e aplico a semântica e os dados conectados na otimização de websites. É um campo fascinante que me permite unir minha formação em publicidade com a biblioteconomia.Nesta minha segunda graduação, em Biblioteconomia e Ciência da Informação, busco expandir meus conhecimentos em Indexação, Classificação e Categorização da Informação, por ver uma conexão intrínseca e de grande aplicação desses conceitos ao trabalho de SEO. Tenho pesquisado e conectado ferramentas da Biblioteconomia (como Análise de Domínio, Vocabulário Controlado, Taxonomias e Ontologias) com as novas ferramentas da Inteligência Artificial (AI) e os Modelos de linguagem de grande escala (LLMs), explorando desde Grafos de Conhecimento até o papel dos Agentes autônomos.No meu papel de consultor em SEO, busco trazer uma nova perspectiva para a otimização, integrando a visão de longo prazo, a engenharia de conteúdo e as possibilidades que a inteligência artificial oferece. Para mim, o trabalho de SEO é uma estratégia que precisa estar alinhada com os objetivos do seu negócio, mas que exige um conhecimento profundo sobre o funcionamento dos motores de busca e uma capacidade de entender os resultados da pesquisa.

Publicar comentário

Blog Semântico
Privacy Overview

This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.