ALBERT, uma versão lite do Google BERT

Google lança o ALBERT, uma versão Lite do Google BERT, uma ferramenta para o aprendizado auto-supervisionado de representações de idiomas.

Em um post no Blog de Inteligência Artificial do Google, os pesquisadores da empresa, Radu Soricut e Zhenshong Lan, informam o lançamento de uma versão leve e open source do BERT, chamada ALBERT.

A tecnologia do BERT foi melhorada e reduzida em 89% (redução no número de parâmetros), no ALBERT, como afirmam os pesquisadores, foi apresentada uma atualização para o BERT que melhora o desempenho em 12 tarefas da PNL, incluindo a competitiva Conjunto de dados da Stanford Question Answer (SQuAD v2.0) e o benchmark RACE de compreensão de leitura no estilo SAT.

O ALBERT foi lançado como uma implementação de código-fonte aberto – open source – através do TensorFlow e inclui vários modelos de representação de idioma pré-treinados e prontos para uso da ALBERT.

O que é o Google BERT?

Lançamento oficial do ALBERT

No post sobre o lançamento do ALBERT, podemos ler em detalhes:

Desde o advento do BERT, há um ano, a pesquisa em linguagem natural adotou um novo paradigma, aproveitando grandes quantidades de texto existente para pré-treinar os parâmetros de um modelo usando a auto-supervisão, sem necessidade de anotação de dados.

Portanto, em vez de precisar treinar um modelo de aprendizado de máquina para processamento de linguagem natural (PNL) do zero, pode-se começar com um modelo preparado com o conhecimento de uma linguagem. Mas, para aprimorar essa nova abordagem da PNL, é preciso desenvolver um entendimento do que exatamente está contribuindo para o desempenho do entendimento da linguagem – a altura da rede (ou seja, número de camadas), sua largura (tamanho da camada oculta de representações), os critérios de aprendizagem para auto-supervisão ou algo totalmente diferente?

Fica mais fácil de entender o papel do Processamento de Linguagem Natural no entendimento, através da Semântica, de como uma linguagem funciona, contribuindo para o entendimento que o Google tem das buscas feitas (com o BERT) e agora podendo ser usado em projetos individuais com o ALBERT.

O novo algoritmo de pesquisa do Google: BERT

A importância da Semântica para o SEO

O fato de eu dar tanta importância para os lançamentos de ferramentas como o BERT ou o ALBERT, como a Silver da Amazon, é que precisamos, para dar o salto necessário de qualidade no entendimento dos conteúdos criados online, fazer com que os computadores compreendam (nas mais diversas línguas e linguagens por nós usadas) o que queremos dizer.

Otimização Semântica: um estudo de caso

Esse é o passo final para a criação definitiva de um SEO Semântico, uma otimização de projetos digitais que podem usar todo o poder das máquinas que temos hoje, e as que estão sendo criadas (já ouviu falar de computadores quânticos?) para fazer as ferramentas que entregam os resultados para as perguntas que fazemos entregarem respostas cada vez melhores.

Processamento de Linguagem Natural no SEO

Identificar o fator dominante do desempenho da PNL é complexo – algumas configurações são mais importantes que outras e, como o estudo do Google revela, uma simples exploração individual dessas configurações não produziria as respostas corretas, por isso a importância do desenvolvimento de inovações como o ALBERT e Google BERT.

O poder do Grafo do Conhecimento

Segundo os pesquisadores do Google, a chave para otimizar o desempenho, implementada no design do ALBERT, foi alocar a capacidade do modelo com mais eficiência.

Através de incorporações no nível de entrada (palavras, sub-tokens, etc.), que precisavam aprender representações independentes do contexto, como numa representação para a palavra “banco”, por exemplo.

Buscando sentido e contexto com o ALBERT

Por outro lado, as incorporações de camada oculta precisam refinar os modelos em representações dependentes do contexto, por exemplo, uma representação para “banco” no contexto de transações financeiras e uma representação diferente para “banco” no contexto dos esportes ou de imobiliários.

Se você se interessa pelos aspectos técnicos por trás do ALBERT, leia o trecho original do post que originou este post, em inglês:

The key to optimizing performance, captured in the design of ALBERT, is to allocate the model’s capacity more efficiently. Input-level embeddings (words, sub-tokens, etc.) need to learn context-independent representations, a representation for the word “bank”, for example.

In contrast, hidden-layer embeddings need to refine that into context-dependent representations, e.g., a representation for “bank” in the context of financial transactions, and a different representation for “bank” in the context of river-flow management.

his is achieved by factorization of the embedding parametrization — the embedding matrix is split between input-level embeddings with a relatively-low dimension (e.g., 128), while the hidden-layer embeddings use higher dimensionalities (768 as in the BERT case, or more). With this step alone, ALBERT achieves an 80% reduction in the parameters of the projection block, at the expense of only a minor drop in performance — 80.3 SQuAD2.0 score, down from 80.4; or 67.9 on RACE, down from 68.2 — with all other conditions the same as for BERT.

O Sucesso do ALBERT

O sucesso da ALBERT demonstrou a importância de identificar os aspectos de um modelo que dão origem a poderosas representações contextuais.

A pesquisa que concentrou os esforços de melhoria nos aspectos da arquitetura do modelo, demonstrou ser possível melhorar significativamente a eficiência e o desempenho do modelo em uma ampla variedade de tarefas da PNL.

Se você se interessa por esse campo de estudos, o Google está oferecendo ALBERT de código aberto à comunidade de pesquisa.

Google Bert superado?

Neste post do Search Engine Journal li que o Google publicou um artigo com informações sobre uma pesquisa que fala sobre um novo algoritmo chamado SMITH. Segundo informações ele supera o BERT quando o assunto é entender consultas e documentos longos.

Segundo informações, o SMITH supera o BERT na sua capacidade de entender passagens dentro de documentos extensos. Ainda não está confirmado se o SMITH está sendo usado pelo buscador ativamente, mas já vemos resultados de buscas que extraem trechos inteiros no meio de textos e os destacam nas SERPs.

O que é o algoritmo SMITH?

Segundo a pesquisa do Google, o SMITH é um novo modelo que procura entender documentos inteiros. Fica claro que a intenção é compreender a totalidade do documento, elevando os estudos e aplicações do SEO Semântico a um novo nível de importância.

Ao contrário, o BERT foi treinado para entender palavras dentro do contexto de sentenças. A semântica dentro do documento fica restrita porque a relação entre as frases não é contemplada.

Enquanto algoritmos como o BERT são treinados em conjuntos de dados para prever palavras ocultas aleatoriamente do contexto dentro das sentenças, o algoritmo SMITH é treinado para prever quais são os próximos blocos de sentenças.

Roger Montti – Search Engine Journal

Segundo o artigo é esse treinamento que permite que o algoritmo a entender documentos mais extensos, com mais qualidade que os seu predecessores.

Mas será que o Google está usando o algoritmo SMITH?

Todos sabemos que o Google não informa tudo sobre quais algoritmos usa ou não, mas os pesquisadores da empresa afirmam que o novo algoritmo supera o BERT e todo SEO deve ficar de olho nas ferramentas e nas buscas.



Referência:

ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations
Em 20 de Dezembro de 2019
Por Radu Soricut e Zhenzhong Lan – Pesquisadores da Busca do Google

Alexander Rodrigues Silva

Alexander Rodrigues Silva

Consultor SEO

Especialista SEO, consultor internacional SEO e autor do livro SEO Semântico: Fluxo de trabalho semântico. Sou um defensor da Web Semântica e Bibliotecário em formação, com mais de 20 anos de experiência no Digital. Trabalho com Search Engine Optimization desde 2009, sempre buscando alinhar a experiência do usuário a estratégias como Marketing de Conteúdo, otimizando o investimento em SEO.

eBook Kindle: SEO Semântico – Fluxo de trabalho semântico

SEO Semântico – A série