{"id":919,"date":"2019-12-22T16:35:15","date_gmt":"2019-12-22T13:35:15","guid":{"rendered":"https:\/\/semantico.com.br\/blog\/?p=919"},"modified":"2026-03-25T21:16:45","modified_gmt":"2026-03-25T18:16:45","slug":"albert-google-bert-open-source","status":"publish","type":"post","link":"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/","title":{"rendered":"ALBERT, uma vers\u00e3o lite do Google BERT"},"content":{"rendered":"\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Conte\u00fados<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabela de conte\u00fado\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/#google_lanca_o_albert_uma_versao_lite_do_google_bert_uma_ferramenta_para_o_aprendizado_auto-supervisionado_de_representacoes_de_idiomas\" >Google lan\u00e7a o ALBERT, uma vers\u00e3o Lite do Google BERT, uma ferramenta para o aprendizado auto-supervisionado de representa\u00e7\u00f5es de idiomas.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/#lancamento_oficial_do_albert\" >Lan\u00e7amento oficial do ALBERT<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/#a_importancia_da_semantica_para_o_seo\" >A import\u00e2ncia da Sem\u00e2ntica para o SEO<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/#processamento_de_linguagem_natural_no_seo\" >Processamento de Linguagem Natural no SEO<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/#buscando_sentido_e_contexto_com_o_albert\" >Buscando sentido e contexto com o ALBERT<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/#o_sucesso_do_albert\" >O Sucesso do ALBERT<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/#google_bert_superado\" >Google Bert superado?<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/#o_que_e_o_algoritmo_smith\" >O que \u00e9 o algoritmo SMITH?<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/#mas_sera_que_o_google_esta_usando_o_algoritmo_smith\" >Mas ser\u00e1 que o Google est\u00e1 usando o algoritmo SMITH?<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"google_lanca_o_albert_uma_versao_lite_do_google_bert_uma_ferramenta_para_o_aprendizado_auto-supervisionado_de_representacoes_de_idiomas\"><\/span>Google lan\u00e7a o ALBERT, uma vers\u00e3o Lite do Google BERT, uma ferramenta para o aprendizado auto-supervisionado de representa\u00e7\u00f5es de idiomas.<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Em um post no Blog de <a class=\"wl-entity-page-link\" title=\"Marketing\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/tecnologia\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/tecnologia;http:\/\/data.wordlift.io\/wl0221\/entity\/motor_de_busca;http:\/\/data.wordlift.io\/wl0221\/entity\/inteligencia_artificial\" >Intelig\u00eancia Artificial<\/a> do <a class=\"wl-entity-page-link\" title=\"Google Brasil\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/google\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/google\" >Google<\/a>, os pesquisadores da empresa, Radu Soricut e Zhenshong Lan, informam o lan\u00e7amento de uma vers\u00e3o leve e open source do <a class=\"wl-entity-page-link\"  href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/bert-2\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/bert-2\" >BERT<\/a>, chamada ALBERT.<\/p>\n\n\n\n<p>A tecnologia do BERT foi melhorada e reduzida em 89% (redu\u00e7\u00e3o no n\u00famero de par\u00e2metros), no <a href=\"https:\/\/arxiv.org\/abs\/1909.11942\" target=\"_blank\" rel=\"noopener\">ALBERT<\/a>, como afirmam os pesquisadores, foi apresentada uma <a class=\"wl-entity-page-link\" title=\"Update\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/atualizacao-2\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/atualizacao-2\">atualiza\u00e7\u00e3o<\/a> para o BERT que melhora o desempenho em 12 tarefas da PNL, incluindo a competitiva <a href=\"https:\/\/rajpurkar.github.io\/SQuAD-explorer\/\" target=\"_blank\" rel=\"noopener\">Conjunto de dados da Stanford Question Answer<\/a> (SQuAD v2.0) e o benchmark <a href=\"http:\/\/www.qizhexie.com\/data\/RACE_leaderboard.html\" target=\"_blank\" rel=\"noopener\">RACE<\/a> de <a class=\"wl-entity-page-link\" title=\"entendimento\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/compreensao\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/compreensao\">compreens\u00e3o<\/a> de leitura no estilo <a href=\"https:\/\/en.wikipedia.org\/wiki\/SAT\" target=\"_blank\" rel=\"noopener\">SAT<\/a>.<\/p>\n\n\n\n<p>O ALBERT foi lan\u00e7ado como uma implementa\u00e7\u00e3o de c\u00f3digo-fonte aberto &#8211; open source &#8211; atrav\u00e9s do <a href=\"https:\/\/www.tensorflow.org\/\" target=\"_blank\" rel=\"noopener\">TensorFlow<\/a>&nbsp;e inclui v\u00e1rios modelos de representa\u00e7\u00e3o de idioma pr\u00e9-treinados e prontos para uso da ALBERT.<\/p>\n\n\n\n<p class=\"has-text-align-center\"><a title=\"O que \u00e9 o Google BERT?\" href=\"https:\/\/semantico.com.br\/blog\/novo-algoritmo-google-bert\/\" target=\"_blank\" rel=\"noopener noreferrer\"><strong>O que \u00e9 o Google BERT?<\/strong><\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"lancamento_oficial_do_albert\"><\/span>Lan\u00e7amento oficial do ALBERT<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>No post sobre o lan\u00e7amento do ALBERT, podemos ler em detalhes:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>Desde o advento do BERT, h\u00e1 um ano, a pesquisa em linguagem natural adotou um novo paradigma, aproveitando grandes quantidades de texto existente para pr\u00e9-treinar os par\u00e2metros de um modelo usando a auto-supervis\u00e3o, sem necessidade de anota\u00e7\u00e3o de <a class=\"wl-entity-page-link\" title=\"dado\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/dados\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/dados;http:\/\/data.wordlift.io\/wl0221\/entity\/conhecimento;http:\/\/data.wordlift.io\/wl0221\/entity\/ontologia;http:\/\/data.wordlift.io\/wl0221\/entity\/entidade_informatica\">dados<\/a>.<\/p>\n\n\n\n<p>Portanto, em vez de precisar treinar um modelo de aprendizado de m\u00e1quina para <a class=\"wl-entity-page-link\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/processamento-de-linguagem-natural\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/processamento-de-linguagem-natural\">processamento de linguagem natural<\/a> (PNL) do zero, pode-se come\u00e7ar com um modelo preparado com o conhecimento de uma linguagem. Mas, para aprimorar essa nova abordagem da PNL, \u00e9 preciso desenvolver um entendimento do que exatamente est\u00e1 contribuindo para o desempenho do entendimento da linguagem &#8211; a altura da rede (ou seja, n\u00famero de camadas), sua largura (tamanho da camada oculta de representa\u00e7\u00f5es), os crit\u00e9rios de aprendizagem para auto-supervis\u00e3o ou algo totalmente diferente?<\/p>\n<\/blockquote>\n\n\n\n<p>Fica mais f\u00e1cil de entender o papel do Processamento de Linguagem Natural no entendimento, atrav\u00e9s da <a href=\"https:\/\/semantico.com.br\/blog\/?post_type=post&amp;p=575\">Sem\u00e2ntica<\/a>, de como uma linguagem funciona, contribuindo para o entendimento que o Google tem das <a class=\"wl-entity-page-link\" title=\"Motores de busca\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/motor-de-busca\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/motor-de-busca\">buscas<\/a> feitas (com o BERT) e agora podendo <a class=\"wl-entity-page-link\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/ser\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/ser\">ser<\/a> usado em projetos individuais com o ALBERT.<\/p>\n\n\n\n<p class=\"has-text-align-center\"><a href=\"https:\/\/semantico.com.br\/blog\/?post_type=post&amp;p=693\"><strong>O novo algoritmo de pesquisa do Google: BERT<\/strong><\/a><\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"a_importancia_da_semantica_para_o_seo\"><\/span>A import\u00e2ncia da Sem\u00e2ntica para o SEO<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>O fato de eu dar tanta import\u00e2ncia para os lan\u00e7amentos de ferramentas como o BERT ou o ALBERT, como a <a title=\"busca sem\u00e2ntica da Amazon\" href=\"https:\/\/aws.amazon.com\/marketplace\/pp\/Charles-F-Day-Associates-LLC-Semantic-Search-Techn\/B0721V2C3Y\" target=\"_blank\" rel=\"noopener noreferrer\">Silver da Amazon<\/a>, \u00e9 que precisamos, para dar o salto necess\u00e1rio de qualidade no entendimento dos conte\u00fados criados <a class=\"wl-entity-page-link\" title=\"online costuma ter muitas imagens publicadas. E elas s\u00e3o uma fonte de problemas de lentid\u00e3o constante, por isso: dedique um tempo (ou at\u00e9 dinheiro) para otimizar suas imagens antigas.\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/online\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/online\">online<\/a>, fazer com que os <a class=\"wl-entity-page-link\" title=\"Computador\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/computador\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/computador\">computadores<\/a> compreendam (nas mais diversas l\u00ednguas e linguagens por n\u00f3s usadas) o que queremos dizer.<\/p>\n\n\n\n<p class=\"has-text-align-center\"><a href=\"https:\/\/semantico.com.br\/blog\/?post_type=post&amp;p=575\"><strong>Otimiza\u00e7\u00e3o Sem\u00e2ntica: um estudo de caso<\/strong><\/a><\/p>\n\n\n\n<p>Esse \u00e9 o passo final para a cria\u00e7\u00e3o definitiva de um <a class=\"wl-entity-page-link\" title=\"informa\u00e7\u00f5es\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/informacao\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/informacao;http:\/\/data.wordlift.io\/wl0221\/entity\/otimizacao_para_motores_de_busca\">SEO<\/a> Sem\u00e2ntico, uma <a class=\"wl-entity-page-link\" title=\"Otimiza\u00e7\u00e3o de sites\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/otimizacao\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/otimizacao;http:\/\/data.wordlift.io\/wl0221\/entity\/otimizacao;http:\/\/data.wordlift.io\/wl0221\/entity\/algoritmo_de_busca\">otimiza\u00e7\u00e3o<\/a> de projetos digitais que podem usar todo o poder das m\u00e1quinas que temos hoje, e as que est\u00e3o sendo criadas (j\u00e1 ouviu falar de <a href=\"https:\/\/pt.wikipedia.org\/wiki\/Computador_qu%C3%A2ntico\" target=\"_blank\" rel=\"noopener\">computadores qu\u00e2nticos?<\/a>) para fazer as ferramentas que entregam os resultados para as perguntas que fazemos entregarem respostas cada vez melhores.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"processamento_de_linguagem_natural_no_seo\"><\/span>Processamento de Linguagem Natural no SEO<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Identificar o fator dominante do desempenho da PNL \u00e9 complexo &#8211; algumas configura\u00e7\u00f5es s\u00e3o mais importantes que outras e, como o estudo do Google revela, uma simples explora\u00e7\u00e3o individual dessas configura\u00e7\u00f5es n\u00e3o produziria as respostas corretas, por isso a import\u00e2ncia do desenvolvimento de inova\u00e7\u00f5es como o ALBERT e Google BERT.<\/p>\n\n\n\n<p class=\"has-text-align-center\"><a href=\"https:\/\/semantico.com.br\/blog\/?post_type=post&amp;p=240\"><strong>O poder do Grafo do Conhecimento<\/strong><\/a><\/p>\n\n\n\n<p>Segundo os pesquisadores do Google, a chave para otimizar o desempenho, implementada no design do ALBERT, foi alocar a capacidade do modelo com mais efici\u00eancia.<\/p>\n\n\n\n<p>Atrav\u00e9s de incorpora\u00e7\u00f5es no n\u00edvel de entrada (palavras, sub-tokens, etc.), que precisavam <a class=\"wl-entity-page-link\" title=\"Aprendizagem\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/aprendizagem\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/aprendizagem\">aprender<\/a> representa\u00e7\u00f5es independentes do contexto, como numa representa\u00e7\u00e3o para a palavra &#8220;banco&#8221;, por exemplo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"buscando_sentido_e_contexto_com_o_albert\"><\/span>Buscando sentido e contexto com o ALBERT<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Por outro lado, as incorpora\u00e7\u00f5es de camada oculta precisam refinar os modelos em representa\u00e7\u00f5es dependentes do contexto, por exemplo, uma representa\u00e7\u00e3o para &#8220;banco&#8221; no contexto de transa\u00e7\u00f5es financeiras e uma representa\u00e7\u00e3o diferente para &#8220;banco&#8221; no contexto dos esportes ou de imobili\u00e1rios.<\/p>\n\n\n\n<p>Se voc\u00ea se interessa pelos aspectos t\u00e9cnicos por tr\u00e1s do ALBERT, leia o trecho original do post que originou este post, em ingl\u00eas:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><span>The key to optimizing performance, captured in the design of ALBERT, is to allocate the model\u2019s capacity more efficiently. Input-level embeddings (words, sub-tokens, etc.) need to learn context-<\/span><em>independent<\/em><span> representations, a representation for the word \u201cbank\u201d, for example.<\/span><\/p>\n\n\n\n<p><span>In contrast, hidden-layer embeddings need to refine that into context-<\/span><em>dependent<\/em><span>\u00a0representations, e.g., a representation for \u201cbank\u201d in the <a class=\"wl-entity-page-link\" title=\"contexto\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/contexto\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/contexto\">context<\/a> of financial transactions, and a different representation for \u201cbank\u201d in the context of river-flow management.<\/span><\/p>\n\n\n\n<p><span>his is achieved by factorization of the embedding parametrization \u2014 the embedding matrix is split between input-level embeddings with a relatively-low dimension (e.g., 128), while the hidden-layer embeddings use higher dimensionalities (768 as in the BERT case, or more). With this step alone, ALBERT achieves an 80% reduction in the parameters of the projection block, at the expense of only a minor drop in performance \u2014 80.3\u00a0<\/span><a href=\"https:\/\/rajpurkar.github.io\/SQuAD-explorer\/\" target=\"_blank\" rel=\"noopener\">SQuAD2.0<\/a><span>\u00a0score, down from 80.4; or 67.9 on\u00a0<\/span><a href=\"http:\/\/www.qizhexie.com\/data\/RACE_leaderboard.html\" target=\"_blank\" rel=\"noopener\">RACE<\/a><span>, down from 68.2 \u2014 with all other conditions the same as for BERT.<\/span><\/p>\n<\/blockquote>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"o_sucesso_do_albert\"><\/span>O Sucesso do ALBERT<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><a href=\"https:\/\/ai.googleblog.com\/2019\/12\/albert-lite-bert-for-self-supervised.html?m=1\" target=\"_blank\" rel=\"noopener\">O sucesso da ALBERT<\/a> demonstrou a import\u00e2ncia de identificar os aspectos de um modelo que d\u00e3o origem a poderosas representa\u00e7\u00f5es contextuais.<\/p>\n\n\n\n<p>A pesquisa que concentrou os esfor\u00e7os de melhoria nos aspectos da arquitetura do modelo, demonstrou ser poss\u00edvel melhorar significativamente a efici\u00eancia e o desempenho do modelo em uma ampla variedade de tarefas da PNL.<\/p>\n\n\n\n<p><strong>Se voc\u00ea se interessa por esse <a class=\"wl-entity-page-link\" title=\"Campo (inform\u00e1tica)\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/campo-informatica\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/campo-informatica\">campo<\/a> de estudos, o Google est\u00e1 oferecendo <a href=\"https:\/\/github.com\/google-research\/ALBERT\" target=\"_blank\" rel=\"noopener\">ALBERT de c\u00f3digo aberto \u00e0 comunidade de pesquisa<\/a>.<\/strong><\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"google_bert_superado\"><\/span>Google Bert superado?<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><a rel=\"noreferrer noopener\" href=\"https:\/\/www.searchenginejournal.com\/google-smith-algorithm\/391929\/#close\" target=\"_blank\">Neste post do Search Engine Journal<\/a> li que o Google publicou um <a href=\"https:\/\/research.google\/pubs\/pub49617\/\" target=\"_blank\" rel=\"noreferrer noopener\">artigo com informa\u00e7\u00f5es<\/a> sobre uma <a class=\"wl-entity-page-link\" title=\"consulta\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/pesquisa\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/pesquisa\">pesquisa<\/a> que fala sobre um novo <a class=\"wl-entity-page-link\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/algoritmo-2\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/algoritmo-2\">algoritmo<\/a> chamado SMITH. Segundo informa\u00e7\u00f5es ele supera o BERT quando o assunto \u00e9 entender consultas e <a class=\"wl-entity-page-link\" title=\"documento\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/documentos\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/documentos\">documentos<\/a> longos.<\/p>\n\n\n\n<p>Segundo informa\u00e7\u00f5es, o SMITH supera o BERT na sua capacidade de entender passagens dentro de documentos extensos. Ainda n\u00e3o est\u00e1 confirmado se o SMITH est\u00e1 sendo usado pelo buscador ativamente, mas j\u00e1 vemos resultados de <a class=\"wl-entity-page-link\" title=\"Algoritmo de busca\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/algoritmo-de-busca__trashed\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/algoritmo-de-busca__trashed\">buscas<\/a> que extraem trechos inteiros no meio de textos e os destacam nas SERPs.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"o_que_e_o_algoritmo_smith\"><\/span>O que \u00e9 o algoritmo SMITH?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Segundo a pesquisa do Google, o SMITH \u00e9 um novo modelo que procura entender documentos inteiros. Fica claro que a inten\u00e7\u00e3o \u00e9 compreender a totalidade do documento, elevando os estudos e aplica\u00e7\u00f5es do <a class=\"wl-entity-page-link\" title=\"seo\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/seo-semantico\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/seo-semantico;http:\/\/data.wordlift.io\/wl0221\/entity\/seo__semantico\">SEO Sem\u00e2ntico<\/a> a um novo n\u00edvel de import\u00e2ncia.<\/p>\n\n\n\n<p>Ao contr\u00e1rio, o BERT foi treinado para entender palavras dentro do contexto de senten\u00e7as. A <a class=\"wl-entity-page-link\" title=\"Sem\u00e2ntico\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/semantica\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/semantica;http:\/\/data.wordlift.io\/wl0221\/entity\/semantica\">sem\u00e2ntica<\/a> dentro do documento fica restrita porque a rela\u00e7\u00e3o entre as frases n\u00e3o \u00e9 contemplada.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>Enquanto algoritmos como o BERT s\u00e3o treinados em conjuntos de dados para prever palavras ocultas aleatoriamente do contexto dentro das senten\u00e7as, o algoritmo SMITH \u00e9 treinado para prever quais s\u00e3o os pr\u00f3ximos blocos de senten\u00e7as.<\/p>\n<cite>Roger Montti &#8211; Search Engine Journal<\/cite><\/blockquote>\n\n\n\n<p>Segundo o artigo \u00e9 esse treinamento que permite que o algoritmo a entender documentos mais extensos, com mais qualidade que os seu predecessores.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"mas_sera_que_o_google_esta_usando_o_algoritmo_smith\"><\/span>Mas ser\u00e1 que o Google est\u00e1 usando o algoritmo SMITH?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Todos sabemos que o Google n\u00e3o informa tudo sobre quais algoritmos usa ou n\u00e3o, mas os pesquisadores da empresa afirmam que o novo algoritmo supera o BERT e todo <a class=\"wl-entity-page-link\" title=\"O que \u00e9 e como funciona o SEO?\" href=\"https:\/\/semantico.com.br\/blog\/Vocabulario\/linguistica\/\" data-id=\"http:\/\/data.wordlift.io\/wl0221\/entity\/linguistica\">SEO<\/a> deve ficar de olho nas ferramentas e nas buscas.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-css-opacity\"\/>\n\n\n\n\n\n<hr class=\"wp-block-separator has-css-opacity\"\/>\n\n\n\n<p><em>Refer\u00eancia:<\/em><\/p>\n\n\n\n<p class=\"has-text-align-right\"><em><a href=\"https:\/\/ai.googleblog.com\/2019\/12\/albert-lite-bert-for-self-supervised.html?m=1\" target=\"_blank\" rel=\"noopener\">ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations<\/a><\/em><br><em>Em 20 de Dezembro de 2019<\/em><br><em>Por Radu Soricut e Zhenzhong Lan &#8211; Pesquisadores da Busca do Google<\/em><\/p>\n\n\n","protected":false},"excerpt":{"rendered":"<p>Google lan\u00e7a o ALBERT, uma vers\u00e3o Lite do Google BERT, uma ferramenta para o aprendizado auto-supervisionado de representa\u00e7\u00f5es de idiomas. Em um post no Blog de Intelig\u00eancia Artificial do Google, os pesquisadores da empresa, Radu Soricut e Zhenshong Lan, informam o lan\u00e7amento de uma vers\u00e3o leve e open source do BERT, chamada ALBERT. A tecnologia [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":5810,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"wl_entities_gutenberg":"","episode_type":"","audio_file":"","podmotor_file_id":"","podmotor_episode_id":"","cover_image":"","cover_image_id":"","duration":"","filesize":"","filesize_raw":"","date_recorded":"","explicit":"","block":"","itunes_episode_number":"","itunes_title":"","itunes_season_number":"","itunes_episode_type":"","footnotes":""},"categories":[665,626,461],"tags":[22,23,16],"wl_entity_type":[51],"series":[],"class_list":["post-919","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-avaliacao-de-sistemas-de-recuperacao-da-informacao","category-recuperacao-da-informacao-pt","category-seo-semantico","tag-albert","tag-bert","tag-google","wl_entity_type-article"],"episode_featured_image":"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2019\/12\/ALBERT-uma-versao-lite-do-Google-BERT.png","episode_player_image":"https:\/\/semantico.com.br\/blog\/wp-content\/uploads\/2026\/03\/Capa-podcast.png","download_link":"","player_link":"","audio_player":false,"episode_data":{"playerMode":"dark","subscribeUrls":{"apple_podcasts":{"key":"apple_podcasts","url":"","label":"Apple Podcasts","class":"apple_podcasts","icon":"apple-podcasts.png"},"google_podcasts":{"key":"google_podcasts","url":"","label":"Google Podcasts","class":"google_podcasts","icon":"google-podcasts.png"},"pocketcasts":{"key":"pocketcasts","url":"","label":"PocketCasts","class":"pocketcasts","icon":"pocketcasts.png"},"podbean":{"key":"podbean","url":"","label":"Podbean","class":"podbean","icon":"podbean.png"},"stitcher":{"key":"stitcher","url":"","label":"Stitcher","class":"stitcher","icon":"stitcher.png"},"iheartradio":{"key":"iheartradio","url":"","label":"iHeartRadio","class":"iheartradio","icon":"iheartradio.png"}},"rssFeedUrl":"https:\/\/semantico.com.br\/blog\/feed\/podcast\/seo-semantico-podcast","embedCode":"<blockquote class=\"wp-embedded-content\" data-secret=\"WffBiYI5KF\"><a href=\"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/\">ALBERT, uma vers\u00e3o lite do Google BERT<\/a><\/blockquote><iframe sandbox=\"allow-scripts\" security=\"restricted\" src=\"https:\/\/semantico.com.br\/blog\/albert-google-bert-open-source\/embed\/#?secret=WffBiYI5KF\" width=\"500\" height=\"350\" title=\"&#8220;ALBERT, uma vers\u00e3o lite do Google BERT&#8221; &#8212; Blog Sem\u00e2ntico\" data-secret=\"WffBiYI5KF\" frameborder=\"0\" marginwidth=\"0\" marginheight=\"0\" scrolling=\"no\" class=\"wp-embedded-content\"><\/iframe><script type=\"text\/javascript\">\n\/* <![CDATA[ *\/\n\/*! This file is auto-generated *\/\n!function(d,l){\"use strict\";l.querySelector&&d.addEventListener&&\"undefined\"!=typeof URL&&(d.wp=d.wp||{},d.wp.receiveEmbedMessage||(d.wp.receiveEmbedMessage=function(e){var t=e.data;if((t||t.secret||t.message||t.value)&&!\/[^a-zA-Z0-9]\/.test(t.secret)){for(var s,r,n,a=l.querySelectorAll('iframe[data-secret=\"'+t.secret+'\"]'),o=l.querySelectorAll('blockquote[data-secret=\"'+t.secret+'\"]'),c=new RegExp(\"^https?:$\",\"i\"),i=0;i<o.length;i++)o[i].style.display=\"none\";for(i=0;i<a.length;i++)s=a[i],e.source===s.contentWindow&&(s.removeAttribute(\"style\"),\"height\"===t.message?(1e3<(r=parseInt(t.value,10))?r=1e3:~~r<200&&(r=200),s.height=r):\"link\"===t.message&&(r=new URL(s.getAttribute(\"src\")),n=new URL(t.value),c.test(n.protocol))&&n.host===r.host&&l.activeElement===s&&(d.top.location.href=t.value))}},d.addEventListener(\"message\",d.wp.receiveEmbedMessage,!1),l.addEventListener(\"DOMContentLoaded\",function(){for(var e,t,s=l.querySelectorAll(\"iframe.wp-embedded-content\"),r=0;r<s.length;r++)(t=(e=s[r]).getAttribute(\"data-secret\"))||(t=Math.random().toString(36).substring(2,12),e.src+=\"#?secret=\"+t,e.setAttribute(\"data-secret\",t)),e.contentWindow.postMessage({message:\"ready\",secret:t},\"*\")},!1)))}(window,document);\n\/\/# sourceURL=https:\/\/semantico.com.br\/blog\/wp-includes\/js\/wp-embed.min.js\n\/* ]]> *\/\n<\/script>\n"},"_wl_alt_label":[],"wl:entity_url":"http:\/\/data.wordlift.io\/wl0221\/post\/albert-google-bert-open-source","_links":{"self":[{"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/posts\/919","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/comments?post=919"}],"version-history":[{"count":0,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/posts\/919\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/media\/5810"}],"wp:attachment":[{"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/media?parent=919"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/categories?post=919"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/tags?post=919"},{"taxonomy":"wl_entity_type","embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/wl_entity_type?post=919"},{"taxonomy":"series","embeddable":true,"href":"https:\/\/semantico.com.br\/blog\/wp-json\/wp\/v2\/series?post=919"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}