ALBERT, uma versão lite do Google BERT

Google lança o ALBERT, uma versão Lite do Google BERT, uma ferramenta para o aprendizado auto-supervisionado de representações de idiomas.

Em um post no Blog de Inteligência Artificial do Google, os pesquisadores da empresa, Radu Soricut e Zhenshong Lan, informam o lançamento de uma versão leve e open source do BERT, chamada ALBERT.

A tecnologia do BERT foi melhorada e reduzida em 89% (redução no número de parâmetros), no ALBERT, como afirmam os pesquisadores, foi apresentada uma atualização para o BERT que melhora o desempenho em 12 tarefas da PNL, incluindo a competitiva Conjunto de dados da Stanford Question Answer (SQuAD v2.0) e o benchmark RACE de compreensão de leitura no estilo SAT.

O ALBERT foi lançado como uma implementação de código-fonte aberto – open source – através do TensorFlow e inclui vários modelos de representação de idioma pré-treinados e prontos para uso da ALBERT.

O que é o Google BERT?

Lançamento oficial do ALBERT

No post sobre o lançamento do ALBERT, podemos ler em detalhes:

Desde o advento do BERT, há um ano, a pesquisa em linguagem natural adotou um novo paradigma, aproveitando grandes quantidades de texto existente para pré-treinar os parâmetros de um modelo usando a auto-supervisão, sem necessidade de anotação de dados.

 

Portanto, em vez de precisar treinar um modelo de aprendizado de máquina para processamento de linguagem natural (PNL) do zero, pode-se começar com um modelo preparado com o conhecimento de uma linguagem. Mas, para aprimorar essa nova abordagem da PNL, é preciso desenvolver um entendimento do que exatamente está contribuindo para o desempenho do entendimento da linguagem – a altura da rede (ou seja, número de camadas), sua largura (tamanho da camada oculta de representações), os critérios de aprendizagem para auto-supervisão ou algo totalmente diferente?

Fica mais fácil de entender o papel do Processamento de Linguagem Natural no entendimento, através da Semântica, de como uma linguagem funciona, contribuindo para o entendimento que o Google tem das buscas feitas (com o BERT) e agora podendo ser usado em projetos individuais com o ALBERT.

O novo algoritmo de pesquisa do Google: BERT

A importância da Semântica para o SEO

O fato de eu dar tanta importância para os lançamentos de ferramentas como o BERT ou o ALBERT, como a Silver da Amazon, é que precisamos, para dar o salto necessário de qualidade no entendimento dos conteúdos criados online, fazer com que os computadores compreendam (nas mais diversas línguas e linguagens por nós usadas) o que queremos dizer.

Otimização Semântica: um estudo de caso

Esse é o passo final para a criação definitiva de um SEO Semântico, uma otimização de projetos digitais que podem usar todo o poder das máquinas que temos hoje, e as que estão sendo criadas (já ouviu falar de computadores quânticos?) para fazer as ferramentas que entregam os resultados para as perguntas que fazemos entregarem respostas cada vez melhores.

Processamento de Linguagem Natural no SEO

Identificar o fator dominante do desempenho da PNL é complexo – algumas configurações são mais importantes que outras e, como o estudo do Google revela, uma simples exploração individual dessas configurações não produziria as respostas corretas, por isso a importância do desenvolvimento de inovações como o ALBERT e Google BERT.

O poder do Grafo do Conhecimento

Segundo os pesquisadores do Google, a chave para otimizar o desempenho, implementada no design do ALBERT, foi alocar a capacidade do modelo com mais eficiência.

Através de incorporações no nível de entrada (palavras, sub-tokens, etc.), que precisavam aprender representações independentes do contexto, como numa representação para a palavra “banco”, por exemplo.

Buscando sentido e contexto com o ALBERT

Por outro lado, as incorporações de camada oculta precisam refinar os modelos em representações dependentes do contexto, por exemplo, uma representação para “banco” no contexto de transações financeiras e uma representação diferente para “banco” no contexto dos esportes ou de imobiliários.

Se você se interessa pelos aspectos técnicos por trás do ALBERT, leia o trecho original do post que originou este post, em inglês:

The key to optimizing performance, captured in the design of ALBERT, is to allocate the model’s capacity more efficiently. Input-level embeddings (words, sub-tokens, etc.) need to learn context-independent representations, a representation for the word “bank”, for example.

 

In contrast, hidden-layer embeddings need to refine that into context-dependent representations, e.g., a representation for “bank” in the context of financial transactions, and a different representation for “bank” in the context of river-flow management.

 

his is achieved by factorization of the embedding parametrization — the embedding matrix is split between input-level embeddings with a relatively-low dimension (e.g., 128), while the hidden-layer embeddings use higher dimensionalities (768 as in the BERT case, or more). With this step alone, ALBERT achieves an 80% reduction in the parameters of the projection block, at the expense of only a minor drop in performance — 80.3 SQuAD2.0 score, down from 80.4; or 67.9 on RACE, down from 68.2 — with all other conditions the same as for BERT.

O Sucesso do ALBERT

O sucesso da ALBERT demonstrou a importância de identificar os aspectos de um modelo que dão origem a poderosas representações contextuais.

A pesquisa que concentrou os esforços de melhoria nos aspectos da arquitetura do modelo, demonstrou ser possível melhorar significativamente a eficiência e o desempenho do modelo em uma ampla variedade de tarefas da PNL.

Se você se interessa por esse campo de estudos, o Google está oferecendo ALBERT de código aberto à comunidade de pesquisa.

 

Termos Relacionados ao ALBERT

Referência:

ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations
Em 20 de Dezembro de 2019
Por Radu Soricut e Zhenzhong Lan – Pesquisadores da Busca do Google

0 comentários

Enviar um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

A Web Semântica e o SEO – Ao Vivo

Vamos conversar? Desde 2018 quando entrei em contato com o SEO pela primeira vez uma coisa me incomoda: Ter mais contato com profissionais de fora do Brasil do que daqui. Durante um tempo eu ia em...

Otimização de Sites: as 3 novas diretrizes técnicas

É hora de falar sobre algo que assusta muitos profissionais de SEO e donos de sites: os aspectos técnicos para a otimização de sites. Quando falamos em SEO, a grande maioria das pessoas que tem...

ALBERT, uma versão lite do Google BERT

Google lança o ALBERT, uma versão Lite do Google BERT, uma ferramenta para o aprendizado auto-supervisionado de representações de idiomas. Em um post no Blog de Inteligência Artificial do Google, os...

Entre em Contato

Rua Santo Antônio, 325 - Porto Alegre, RS
+55 51 99541-6223
contato@semantico.com.br

Share This