{"id":8770,"date":"2025-07-07T20:25:16","date_gmt":"2025-07-07T17:25:16","guid":{"rendered":"https:\/\/semantico.com.br\/blog\/?p=8770"},"modified":"2026-03-25T17:51:56","modified_gmt":"2026-03-25T14:51:56","slug":"token-e-embedding-conceitos-da-ia-e-llms-que-estao-no-seo","status":"publish","type":"post","link":"https:\/\/semantico.com.br\/blog\/token-e-embedding-conceitos-da-ia-e-llms-que-estao-no-seo\/","title":{"rendered":"Token e Embedding: conceitos da IA e LLMs que est\u00e3o no SEO"},"content":{"rendered":"\n<p><a class=\"wl-entity-page-link\"  href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/token\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/token\" >Token<\/a> e Embedding s\u00e3o conceitos muito em foco hoje em dia, seja nos estudos e aplica\u00e7\u00e3o de <a class=\"wl-entity-page-link\" title=\"Ai\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/inteligencia-artificial-2\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/inteligencia-artificial-2\" >Intelig\u00eancia Artificial<\/a> (IA) e dos Modelos de Linguagem de Grande Escala (<a class=\"wl-entity-page-link\" title=\"modelo de linguagem grande\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/modelo-de-linguagem-grande\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/modelo-de-linguagem-grande\" >LLMs<\/a>), seja no desenvolvimento de agentes, aplica\u00e7\u00f5es, ferramentas e de neg\u00f3cios, mas que est\u00e3o presentes no <a class=\"wl-entity-page-link\" title=\"SEO Sem\u00e2ntico\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/seo-semantico\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/seo-semantico;http:\/\/data.wordlift.io\/wl0221\/entity\/seo__semantico\" >SEO<\/a> j\u00e1 h\u00e1 muito tempo! Voc\u00ea poderia me dizer: mas Alex, como assim? Eu s\u00f3 comecei a ouvir falar disso depois que os GPTs da vida tomaram conta de tudo!<\/p>\n\n\n\n<p>Ent\u00e3o fica comigo, vou te mostrar como isso funcionava, e como funciona hoje, no cen\u00e1rio das buscas. Vamos come\u00e7ar do in\u00edcio com os tokens.<\/p>\n\n\n\n<figure class=\"wp-block-image alignwide size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1408\" height=\"708\" src=\"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/09\/topo-agente-mais-semantico.webp\" alt=\"CTA Agente+Sem\u00e2ntico\" class=\"wp-image-9094\" title=\"\" srcset=\"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/09\/topo-agente-mais-semantico.webp 1408w, https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/09\/topo-agente-mais-semantico-600x302.webp 600w, https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/09\/topo-agente-mais-semantico-768x386.webp 768w\" sizes=\"auto, (max-width: 1408px) 100vw, 1408px\" \/><\/figure>\n\n\n\n<div class=\"wp-block-columns are-vertically-aligned-center is-layout-flex wp-container-core-columns-is-layout-9d6595d7 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-vertically-aligned-center is-layout-flow wp-block-column-is-layout-flow\">\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex\">\n<div class=\"wp-block-button has-custom-width wp-block-button__width-100\"><a class=\"wp-block-button__link has-white-color has-text-color has-background wp-element-button\" href=\"https:\/\/semantico.com.br\/contato.html\" style=\"background-color:#590050\" target=\"_blank\" rel=\"noreferrer noopener\">Entre em Contato<\/a><\/div>\n<\/div>\n<\/div>\n<\/div>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Conte\u00fados<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabela de conte\u00fado\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/semantico.com.br\/blog\/token-e-embedding-conceitos-da-ia-e-llms-que-estao-no-seo\/#o_que_sao_tokens\" >O que s\u00e3o tokens?<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/semantico.com.br\/blog\/token-e-embedding-conceitos-da-ia-e-llms-que-estao-no-seo\/#o_que_sao_embeddings_densos\" >O que s\u00e3o Embeddings (Densos)?<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/semantico.com.br\/blog\/token-e-embedding-conceitos-da-ia-e-llms-que-estao-no-seo\/#embeddings_na_recuperacao_da_informacao_um_assunto_antigo\" >Embeddings na recupera\u00e7\u00e3o da informa\u00e7\u00e3o: um assunto antigo<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/semantico.com.br\/blog\/token-e-embedding-conceitos-da-ia-e-llms-que-estao-no-seo\/#diferencas_fundamentais_entre_tokens_e_embeddings\" >Diferen\u00e7as fundamentais entre tokens e embeddings:<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/semantico.com.br\/blog\/token-e-embedding-conceitos-da-ia-e-llms-que-estao-no-seo\/#busca_hibrida_ia_tokens_e_embeddings\" >Busca h\u00edbrida, IA, tokens e embeddings<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/semantico.com.br\/blog\/token-e-embedding-conceitos-da-ia-e-llms-que-estao-no-seo\/#por_que_voce_precisa_de_uma_busca_hibrida\" >Por que voc\u00ea precisa de uma busca h\u00edbrida?<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"o_que_sao_tokens\"><\/span>O que s\u00e3o tokens?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Um token \u00e9 uma unidade individual de um texto. Imagine uma frase que foi quebrada em suas menores partes significativas, essas partes s\u00e3o os tokens. Para ilustrar vamos pegar uma frase simples:<\/p>\n\n\n\n<p><strong>Na frase: &#8220;A <a class=\"wl-entity-page-link\" title=\"Busca&quot;, &quot;Sem\u00e2ntica\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/busca-semantica\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/busca-semantica\" >Busca Sem\u00e2ntica<\/a> melhora a qualidade da busca.&#8221;<\/strong><\/p>\n\n\n\n<p>Quando aplicarmos a tokeniza\u00e7\u00e3o b\u00e1sica (separa\u00e7\u00e3o por espa\u00e7os e pontua\u00e7\u00e3o), os tokens seriam:<\/p>\n\n\n\n<p class=\"has-text-align-center\"><em>[&#8220;A&#8221;, &#8220;Busca&#8221;, &#8220;Sem\u00e2ntica&#8221;, &#8220;melhora&#8221;, &#8220;a&#8221;, &#8220;qualidade&#8221;, &#8220;da&#8221;, &#8220;busca&#8221;, &#8220;.&#8221;]<\/em><\/p>\n\n\n\n<p>Nesse exemplo, cada palavra e o ponto final s\u00e3o considerados tokens distintos, levando em conta que esse sistema faz a tokeniza\u00e7\u00e3o b\u00e1sica. Os sistemas mais sofisticados poderiam, por exemplo, tratar &#8220;Busca Sem\u00e2ntica&#8221; como um \u00fanico token se fosse uma entidade nomeada ou um conceito frequentemente pesquisado, e at\u00e9 mesmo se tivesse no corpus de textos usados para o treinamento.<\/p>\n\n\n\n<p>Antigamente, no contexto da busca tradicional, ou busca por <a class=\"wl-entity-page-link\" title=\"termos\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/palavra-chave-2\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/palavra-chave-2\" >palavra-chave<\/a> (token-based <a class=\"wl-entity-page-link\"  href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/search-2\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/search-2\" >search<\/a>), o sistema funcionava dividindo o texto nesses tokens. Eles er\u00e3o ent\u00e3o usados para criar um tipo de <a class=\"wl-entity-page-link\"  href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/representacao\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/representacao\" >representa\u00e7\u00e3o<\/a> num\u00e9rica chamada <strong>embedding esparso<\/strong>. Pense neste tipo de embedding como uma longa lista que mostra quantas vezes cada palavra ou subpalavra aparece em um texto.<\/p>\n\n\n\n<p>A principal caracter\u00edstica aqui \u00e9 que os embeddings esparsos <em>n\u00e3o consideram o significado das palavras<\/em>, apenas a frequ\u00eancia de suas apari\u00e7\u00f5es. \u00c9 como um \u00edndice de <a class=\"wl-entity-page-link\"  href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/biblioteca\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/biblioteca-2\" >biblioteca<\/a>, onde voc\u00ea procura por <a class=\"wl-entity-page-link\" title=\"termos\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/palavra-chave\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/palavra-chave\" >palavras-chave<\/a> exatas.<\/p>\n\n\n\n<p>Para ilustrar novamente, vamos pensar que temos uma frase como a do exemplo acima. Ent\u00e3o ela \u00e9 &#8220;tokenizada&#8221; (dividida em tokens) para que o sistema possa <strong>index\u00e1-la e compar\u00e1-la com as palavras exatas da sua <a class=\"wl-entity-page-link\" title=\"pesquisador\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/pesquisa\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/pesquisa\" >consulta<\/a><\/strong>. Existem algoritmos cl\u00e1ssicos usados para gerar os embeddings esparsos, como o <em>TF-IDF (Term Frequency-Inverse Document Frequency)<\/em>, <em>BM25<\/em> ou <em>SPLADE<\/em>.<\/p>\n\n\n\n<p>O TF-IDF, por exemplo, d\u00e1 mais peso a palavras que s\u00e3o frequentes em um documento espec\u00edfico, mas raras no corpus geral, destacando sua import\u00e2ncia para aquele documento. Mas de uma forma geral, todos eles consideram somente a frequ\u00eancia das palavras.<\/p>\n\n\n\n<p>Historicamente, a busca era mais determin\u00edstica, ou seja, o <a class=\"wl-entity-page-link\" title=\"Content\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/conteudo\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/conteudo\" >conte\u00fado<\/a> era indexado da mesma forma que entrava, sem muita interpreta\u00e7\u00e3o por parte dos algoritmos. Os documentos eram &#8220;decompostos&#8221; de uma forma que chamamos de &#8220;lexical&#8221;, basicamente contando a distribui\u00e7\u00e3o das palavras. O que contrasta com o modelo de recupera\u00e7\u00e3o da <a class=\"wl-entity-page-link\" title=\"m\u00e3e\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/informacao\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/informacao;http:\/\/data.wordlift.io\/wl0221\/entity\/otimizacao_para_motores_de_busca\" >informa\u00e7\u00e3o<\/a> atual que \u00e9 sem\u00e2ntico. E para chegarmos na sem\u00e2ntica um outro conceito \u00e9 imprescend\u00edvel: os embeddings!<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"o_que_sao_embeddings_densos\"><\/span>O que s\u00e3o Embeddings (Densos)?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Um <a class=\"wl-entity-page-link\"  href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/embedding\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/embedding-8781\" >embedding<\/a>, por outro lado, \u00e9 uma representa\u00e7\u00e3o num\u00e9rica de palavras ou textos, especificamente como vetores num\u00e9ricos, que capturam as <strong><a class=\"wl-entity-page-link\"  href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/relacoes-semanticas\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/relacoes-semanticas-8779\" >rela\u00e7\u00f5es sem\u00e2nticas<\/a><\/strong> e as <strong>informa\u00e7\u00f5es contextuais<\/strong>. Imagine cada palavra ou texto como um ponto em um &#8220;mapa&#8221; multidimensional, onde a proximidade entre os pontos indica similaridade de significado. A dist\u00e2ncia e a dire\u00e7\u00e3o entre esses vetores codificam o grau de similaridade sem\u00e2ntica entre as palavras.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1408\" height=\"768\" src=\"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d.jpg\" alt=\"word embedding 3d vector space\" class=\"wp-image-8773\" title=\"\" srcset=\"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d.jpg 1408w, https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d-600x327.jpg 600w, https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d-768x419.jpg 768w\" sizes=\"auto, (max-width: 1408px) 100vw, 1408px\" \/><figcaption class=\"wp-element-caption\">A imagem acima \u00e9 somente uma representa\u00e7\u00e3o art\u00edstica dos vetores usados no processo de embedding<\/figcaption><\/figure>\n\n\n\n<p>Por que ent\u00e3o precisamos disso, voc\u00ea pode me perguntar.<\/p>\n\n\n\n<p>Porque a maioria dos algoritmos de Machine Learning n\u00e3o consegue processar texto bruto, sem um tratamento, eles precisam usar n\u00fameros como entrada. \u00c9 aqui que os embeddings s\u00e3o usados.<\/p>\n\n\n\n<p>Ent\u00e3o, esses embeddings s\u00e3o criados por <strong>modelos de embedding<\/strong> (eles por si s\u00f3 j\u00e1 d\u00e3o um outro artigo), que s\u00e3o treinados varrendo grandes volumes de texto, como toda a <a class=\"wl-entity-page-link\" title=\"Wikip\u00e9dia\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/wikipedia\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/wikipedia\" >Wikipedia<\/a>, por exemplo, e da\u00ed surge o termo LLMs: Modelos de Linguagem em grande escala. Voc\u00ea usa esse volume absurdo de texto para que esses modelos possam <a class=\"wl-entity-page-link\" title=\"aprendizagem\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/aprendizagem\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/aprendizagem\" >aprender<\/a> as rela\u00e7\u00f5es entre as palavras e seus contextos.<\/p>\n\n\n\n<p>Esse processo envolve:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Pr\u00e9-processamento<\/strong>: tokeniza\u00e7\u00e3o e remo\u00e7\u00e3o de &#8220;stop words&#8221; (palavras comuns como &#8220;o&#8221;, &#8220;a&#8221;, &#8220;e&#8221;) e pontua\u00e7\u00e3o.<\/li>\n\n\n\n<li><strong>Janela de contexto deslizante<\/strong>: identifica as palavras-alvo e seus contextos para que o modelo aprenda suas rela\u00e7\u00f5es.<\/li>\n\n\n\n<li><strong>Treinamento<\/strong>: o modelo \u00e9 treinado para prever palavras com base em seu contexto, posicionando palavras semanticamente semelhantes pr\u00f3ximas umas das outras no espa\u00e7o vetorial. Os par\u00e2metros do modelo s\u00e3o ajustados para minimizar erros de previs\u00e3o.<\/li>\n<\/ol>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1408\" height=\"768\" src=\"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d2.jpg\" alt=\"word embedding 3d vector space\" class=\"wp-image-8772\" title=\"\" srcset=\"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d2.jpg 1408w, https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d2-600x327.jpg 600w, https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d2-768x419.jpg 768w\" sizes=\"auto, (max-width: 1408px) 100vw, 1408px\" \/><figcaption class=\"wp-element-caption\">A imagem acima \u00e9 somente uma representa\u00e7\u00e3o art\u00edstica dos vetores usados no processo de embedding<\/figcaption><\/figure>\n\n\n\n<p>Esses embeddings tamb\u00e9m s\u00e3o conhecidos como <strong>embeddings densos<\/strong> e eles tem esse nome porque as matrizes que os representam cont\u00eam principalmente valores diferentes de zero, ao contr\u00e1rio dos esparsos. Eu demorei muito para entender esse conceito, mas reduzindo a hist\u00f3ria ao meu <a class=\"wl-entity-page-link\" title=\"compreens\u00e3o\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/compreensao\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/compreensao\" >entendimento<\/a>, se usa estat\u00edstica para adensar uma quantidade grande de pontos nesse gr\u00e1fico, agrupando por similaridade, o que ajuda em v\u00e1rios aspectos, entre eles a <a class=\"wl-entity-page-link\"  href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/performance-2\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/performance-2\" >performance<\/a> do sistema. Pelo o que eu compreendi, elimino os 0 e busco os valores com significado.<\/p>\n\n\n\n<p><em>Me corrige nos coment\u00e1rios, por favor, caso tenha falado bobagem aqui.<\/em><\/p>\n\n\n\n<p>Mas o que importa para o nosso artigo \u00e9 que eles s\u00e3o extremamente eficientes para criar modelos que  entendem o <em>significado<\/em> e o <em>contexto<\/em> das palavras.<\/p>\n\n\n\n<p>Por exemplo, em um sistema que usa um desses modelos uma busca por &#8220;filme&#8221; pode tamb\u00e9m retornar resultados relevantes com &#8220;cinema&#8221; ou &#8220;longa-metragem&#8221;, pois o modelo de embedding entende que essas palavras possuem significados semelhantes. <strong>Isso melhora significativamente a qualidade da busca.<\/strong><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"embeddings_na_recuperacao_da_informacao_um_assunto_antigo\"><\/span>Embeddings na recupera\u00e7\u00e3o da informa\u00e7\u00e3o: um assunto antigo<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>O <a class=\"wl-entity-page-link\" title=\"Google Brasil\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/google\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/google\" >Google<\/a> h\u00e1 anos j\u00e1 incorpora essa tecnologia em sua busca!<\/p>\n\n\n\n<p>O <strong>RankBrain<\/strong>, lan\u00e7ado l\u00e1 em 2015, foi o primeiro sistema de deep learning implantado na busca, que naquela \u00e9poca j\u00e1 ajudava a entender como as <em>palavras se relacionam a conceitos<\/em>.<\/p>\n\n\n\n<p>Em 2018, o <strong>Neural Matching<\/strong> permitiu entender como as <em>consultas se relacionam \u00e0s <a class=\"wl-entity-page-link\" title=\"p\u00e1gina\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/pagina-web\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/pagina-web\" >p\u00e1ginas<\/a><\/em> olhando a consulta ou p\u00e1gina inteira, e n\u00e3o apenas palavras-chave.<\/p>\n\n\n\n<p>O <strong>BERT<\/strong>, em 2019, foi um grande avan\u00e7o na <a class=\"wl-entity-page-link\"  href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/compreensao-2\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/compreensao-2\" >compreens\u00e3o<\/a> da linguagem natural, auxiliando a entender como <em>combina\u00e7\u00f5es de palavras<\/em> expressam diferentes <em>significados e inten\u00e7\u00f5es<\/em>.<\/p>\n\n\n\n<p>E o <strong>MUM<\/strong>, de 2021, foi lan\u00e7ado como um avan\u00e7o por ser mil vezes mais poderoso que o BERT, capaz de entender e gerar linguagem, sendo multimodal (texto, imagens, etc.) e treinado em 75 idiomas. Aqui foi inaugurada a busca multimodal, ou seja, v\u00e1rios tipos de conte\u00fado, n\u00e3o s\u00f3 texto, eram transformados em embeddings. Transformados, isso te lembra algo?<\/p>\n\n\n\n<p>Para otimiza\u00e7\u00e3o deste processo, os documentos tamb\u00e9m s\u00e3o decompostos em um n\u00edvel de embeddings vetoriais para <a class=\"wl-entity-page-link\"  href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/indexacao\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/indexacao\" >indexa\u00e7\u00e3o<\/a>. Vamos ent\u00e3o organizar isso tudo numa tabela para poder entender melhor? Foi o que eu fiz para entender.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"diferencas_fundamentais_entre_tokens_e_embeddings\"><\/span>Diferen\u00e7as fundamentais entre tokens e embeddings:<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><th>Caracter\u00edstica<\/th><th>Token<\/th><th>Embedding (Denso)<\/th><\/tr><tr><td><strong>Representa\u00e7\u00e3o<\/strong><\/td><td>Unidades de texto brutas (palavras, subpalavras)<\/td><td>Vetores num\u00e9ricos<\/td><\/tr><tr><td><strong>Foco<\/strong><\/td><td>Frequ\u00eancia de palavras e sintaxe do texto<\/td><td>Significado sem\u00e2ntico e contexto<\/td><\/tr><tr><td><strong>Similaridade<\/strong><\/td><td>Baseada em palavras-chave exatas e sua distribui\u00e7\u00e3o<\/td><td>Baseada na proximidade de significado no espa\u00e7o vetorial<\/td><\/tr><tr><td><strong>Uso Principal<\/strong><\/td><td>Busca tradicional por palavra-chave (busca lexical)<\/td><td>Busca sem\u00e2ntica e aplica\u00e7\u00f5es de IA que exigem compreens\u00e3o de significado<\/td><\/tr><tr><td><strong>Dimensionalidade<\/strong><\/td><td>Pode ter dezenas de milhares de dimens\u00f5es, com muitos zeros (esparso)<\/td><td>Geralmente centenas ou milhares de dimens\u00f5es, com valores predominantemente n\u00e3o-zero (denso)<\/td><\/tr><tr><td><strong>Exemplos<\/strong><\/td><td>TF-IDF, BM25, SPLADE<\/td><td>Modelos como Word2Vec, GloVe, e os mais recentes como BERT, MUM, Gemini<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"busca_hibrida_ia_tokens_e_embeddings\"><\/span>Busca h\u00edbrida, IA, tokens e embeddings<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>A grande sacada dessa mudan\u00e7a \u00e9 que, para uma recupera\u00e7\u00e3o de busca eficiente com Intelig\u00eancia Artificial, n\u00e3o se usa apenas um ou outro, mas sim uma combina\u00e7\u00e3o estrat\u00e9gica: a <strong><a href=\"https:\/\/www.linkedin.com\/pulse\/busca-sem%C3%A2ntica-vetorial-ou-h%C3%ADbrida-alexander-rodrigues-silva-mlvjf\/\" data-type=\"link\" data-id=\"https:\/\/www.linkedin.com\/pulse\/busca-sem%C3%A2ntica-vetorial-ou-h%C3%ADbrida-alexander-rodrigues-silva-mlvjf\/\" target=\"_blank\" rel=\"noreferrer noopener\">Busca H\u00edbrida<\/a><\/strong>. Para voc\u00ea que quer saber o que \u00e9 isso, clica no link que eu coloquei, ele vai lhe levar para um artigo no Linkedin, que veio de uma pesquisa que eu fiz sobre o assunto.<\/p>\n\n\n\n<p>Mas em resumo, a busca h\u00edbrida combina a busca sem\u00e2ntica com a busca vetorial para suprir uma necessidade muito espec\u00edfica: conseguir encontrar similaridades fora de um dom\u00ednio do conhecimento e conseguir fazer o sistema que voc\u00ea criou e treinou, entenda entidades fora dele.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"por_que_voce_precisa_de_uma_busca_hibrida\"><\/span><strong>Por que voc\u00ea precisa de uma busca h\u00edbrida?<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Voc\u00ea vai precisar em casos muito espec\u00edficos, como por exemplo, se for criar um agente que vai interagir com os seus clientes e eles podem fazer perguntas fora do dom\u00ednio do conhecimento que o seu modelo foi treinado. Pense no seu neg\u00f3cio, existe essa possibilidade? Ent\u00e3o \u00e9 bom ficar por dentro desse modelo de busca.<\/p>\n\n\n\n<p>A busca sem\u00e2ntica, apesar de muito eficaz, tem uma desvantagem: ela pode ter dificuldades com informa\u00e7\u00f5es &#8220;fora do dom\u00ednio&#8221;, ou seja, <a class=\"wl-entity-page-link\" title=\"dado\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/dado-2\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/dado-2\">dados<\/a> nos quais o modelo de embedding n\u00e3o foi treinado. Lembra quando os prompts do Claude e do ChaGPT vazaram e vimos que eles fazem buscas fora do treinamento? \u00c9 para suprir essa falta mas tamb\u00e9m inclui, por exemplo, n\u00fameros de produtos espec\u00edficos, novos nomes de produtos ou c\u00f3digos internos de empresas.<\/p>\n\n\n\n<p>Nesses casos, a busca sem\u00e2ntica &#8220;fica vazia&#8221; porque s\u00f3 consegue encontrar o que j\u00e1 &#8220;conhece&#8221;. E se o usu\u00e1rio precisa de algo fora do que o modelo sabe ele recorre a busca token-based, com o objetivo de preencher essa lacuna.<\/p>\n\n\n\n<p>A busca h\u00edbrida, ao integrar a busca sem\u00e2ntica (para consultas mais sutis e contextuais) com a busca tradicional por palavras-chave (para termos espec\u00edficos e fora do dom\u00ednio), busca o &#8220;melhor dos dois mundos&#8221;, garantindo uma <a class=\"wl-entity-page-link\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/experiencia-2\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/experiencia-2\">experi\u00eancia<\/a> de busca mais abrangente e precisa, por conta da necessidade espec\u00edfica dos modelos de IA, o que n\u00e3o acontecia no Google antes do AI Overview.<\/p>\n\n\n\n<p><strong>Ser\u00e1 que \u00e9 por conta disso que o Google demorou tanto para entrar nesse barco?<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1408\" height=\"768\" src=\"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d3.jpg\" alt=\"word embedding 3d vector space\" class=\"wp-image-8774\" title=\"\" srcset=\"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d3.jpg 1408w, https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d3-600x327.jpg 600w, https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/vetor-3d3-768x419.jpg 768w\" sizes=\"auto, (max-width: 1408px) 100vw, 1408px\" \/><figcaption class=\"wp-element-caption\">A imagem acima \u00e9 somente uma representa\u00e7\u00e3o art\u00edstica dos vetores usados no processo de embedding<\/figcaption><\/figure>\n\n\n\n<p><strong>Vamos resumir ent\u00e3o?<\/strong><\/p>\n\n\n\n<p>Os tokens s\u00e3o a <strong>base lexical da linguagem<\/strong>, enquanto embeddings densos s\u00e3o a <strong>representa\u00e7\u00e3o num\u00e9rica do seu significado<\/strong>. A busca moderna, intermadiada por algoritmos e IA, podem utilizar ambos, como no caso da busca h\u00edbrida, mas existe uma tend\u00eancia de crescente de focar nos embeddings. O fato deles ajudaram os modelos a entender o contexto e a inten\u00e7\u00e3o, e aumentar capacidade de &#8220;racioc\u00ednio&#8221; dos modelos de linguagem torna a sua escolha mais do que \u00f3bvia.<\/p>\n\n\n\n<p>Parte do nosso trabalho de especialistas em buscas \u00e9 estruturar os dados e o conte\u00fado de forma que esses sistemas possam compreend\u00ea-los, raciocinar sobre eles e apresent\u00e1-los de forma eficaz, inclusive de maneira hiperpersonalizada. Est\u00e1 come\u00e7ando a era \u00e9 da <strong>IA Agente<\/strong>, e nosso pr\u00f3ximo &#8220;cliente&#8221; \u00e9 justamente um desses agentes.<\/p>\n\n\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Token e Embedding s\u00e3o conceitos muito em foco hoje em dia, seja nos estudos e aplica\u00e7\u00e3o de Intelig\u00eancia Artificial (IA) e dos Modelos de Linguagem de Grande Escala (LLMs), seja no desenvolvimento de agentes, aplica\u00e7\u00f5es, ferramentas e de neg\u00f3cios, mas que est\u00e3o presentes no SEO j\u00e1 h\u00e1 muito tempo! Voc\u00ea poderia me dizer: mas Alex, [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":8777,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"wl_entities_gutenberg":"","episode_type":"","audio_file":"","podmotor_file_id":"","podmotor_episode_id":"","cover_image":"","cover_image_id":"","duration":"","filesize":"","filesize_raw":"","date_recorded":"","explicit":"","block":"","itunes_episode_number":"","itunes_title":"","itunes_season_number":"","itunes_episode_type":"","footnotes":""},"categories":[626,461],"tags":[],"wl_entity_type":[51],"series":[],"class_list":["post-8770","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-recuperacao-da-informacao-pt","category-seo-semantico","wl_entity_type-article"],"episode_featured_image":"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2025\/07\/Token-e-Embedding-no-SEO.png","episode_player_image":"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2026\/03\/Capa-podcast.png","download_link":"","player_link":"","audio_player":false,"episode_data":{"playerMode":"dark","subscribeUrls":{"apple_podcasts":{"key":"apple_podcasts","url":"","label":"Apple Podcasts","class":"apple_podcasts","icon":"apple-podcasts.png"},"google_podcasts":{"key":"google_podcasts","url":"","label":"Google Podcasts","class":"google_podcasts","icon":"google-podcasts.png"},"pocketcasts":{"key":"pocketcasts","url":"","label":"PocketCasts","class":"pocketcasts","icon":"pocketcasts.png"},"podbean":{"key":"podbean","url":"","label":"Podbean","class":"podbean","icon":"podbean.png"},"stitcher":{"key":"stitcher","url":"","label":"Stitcher","class":"stitcher","icon":"stitcher.png"},"iheartradio":{"key":"iheartradio","url":"","label":"iHeartRadio","class":"iheartradio","icon":"iheartradio.png"}},"rssFeedUrl":"https:\/\/semantico.com.br\/blog\/feed\/podcast\/seo-semantico-podcast","embedCode":"<blockquote class=\"wp-embedded-content\" data-secret=\"9msTIINHxU\"><a href=\"https:\/\/semantico.com.br\/blog\/token-e-embedding-conceitos-da-ia-e-llms-que-estao-no-seo\/\">Token e Embedding: conceitos da IA e LLMs que est\u00e3o no SEO<\/a><\/blockquote><iframe sandbox=\"allow-scripts\" security=\"restricted\" src=\"https:\/\/semantico.com.br\/blog\/token-e-embedding-conceitos-da-ia-e-llms-que-estao-no-seo\/embed\/#?secret=9msTIINHxU\" width=\"500\" height=\"350\" title=\"&#8220;Token e Embedding: conceitos da IA e LLMs que est\u00e3o no SEO&#8221; &#8212; Blog Sem\u00e2ntico\" data-secret=\"9msTIINHxU\" frameborder=\"0\" marginwidth=\"0\" marginheight=\"0\" scrolling=\"no\" class=\"wp-embedded-content\"><\/iframe><script type=\"text\/javascript\">\n\/* <![CDATA[ *\/\n\/*! This file is auto-generated *\/\n!function(d,l){\"use strict\";l.querySelector&&d.addEventListener&&\"undefined\"!=typeof URL&&(d.wp=d.wp||{},d.wp.receiveEmbedMessage||(d.wp.receiveEmbedMessage=function(e){var t=e.data;if((t||t.secret||t.message||t.value)&&!\/[^a-zA-Z0-9]\/.test(t.secret)){for(var s,r,n,a=l.querySelectorAll('iframe[data-secret=\"'+t.secret+'\"]'),o=l.querySelectorAll('blockquote[data-secret=\"'+t.secret+'\"]'),c=new RegExp(\"^https?:$\",\"i\"),i=0;i<o.length;i++)o[i].style.display=\"none\";for(i=0;i<a.length;i++)s=a[i],e.source===s.contentWindow&&(s.removeAttribute(\"style\"),\"height\"===t.message?(1e3<(r=parseInt(t.value,10))?r=1e3:~~r<200&&(r=200),s.height=r):\"link\"===t.message&&(r=new URL(s.getAttribute(\"src\")),n=new URL(t.value),c.test(n.protocol))&&n.host===r.host&&l.activeElement===s&&(d.top.location.href=t.value))}},d.addEventListener(\"message\",d.wp.receiveEmbedMessage,!1),l.addEventListener(\"DOMContentLoaded\",function(){for(var e,t,s=l.querySelectorAll(\"iframe.wp-embedded-content\"),r=0;r<s.length;r++)(t=(e=s[r]).getAttribute(\"data-secret\"))||(t=Math.random().toString(36).substring(2,12),e.src+=\"#?secret=\"+t,e.setAttribute(\"data-secret\",t)),e.contentWindow.postMessage({message:\"ready\",secret:t},\"*\")},!1)))}(window,document);\n\/\/# sourceURL=https:\/\/semantico.com.br\/blog\/wp-includes\/js\/wp-embed.min.js\n\/* ]]> *\/\n<\/script>\n"},"_wl_alt_label":[],"wl:entity_url":"http:\/\/data.wordlift.io\/wl0221\/post\/tokens-e-embeddings-8770","_links":{"self":[{"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/posts\/8770","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/comments?post=8770"}],"version-history":[{"count":0,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/posts\/8770\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/media\/8777"}],"wp:attachment":[{"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/media?parent=8770"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/categories?post=8770"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/tags?post=8770"},{"taxonomy":"wl_entity_type","embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/wl_entity_type?post=8770"},{"taxonomy":"series","embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/series?post=8770"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}