O que o cérebro de uma IA me ensinou

Este é um primeiro artigo de uma série de escritos que eu estou fazendo com a ajuda de um dos meus agentes criados com a mesma estratégia usada no agente+Semântico, que é o serviço de criação dos agentes especializados em pesquisa e cocriação de conteúdo que a Semântico SEO está oferecendo para todos aqueles que querem criar conteúdo de verdade, com a ajuda de IA.

Entre em Contato

Neste artigo eu e o meu agente investigamos uma série de vídeos do canal “3Blue1Brown“, que fora muito importantes para mim na minha busca por entender como os LLMs funcionam. A série de vídesos chamada Neural networks nos oferece uma visão bem profunda sobre os mecanismos centrais de redes neurais e modelos de linguagem grande (LLMs), como o GPT-3.

Uma parte significativa do conteúdo dos vídeos se concentra-se na estrutura e na operação dos Transformers, detalhando o mecanismo de Atenção, que é um processo que permite que vetores de palavras ajustem seus significados com base no contexto, por meio de matrizes de peso, consulta, chave e valor. Quando eu entendi como isso funciona, me abriu um mundo de entendimento e possibilidades de como interagir com esses modelos para obter informação, aprender, gerar conteúdo e compartilhar conhecimento com eles.

E essa fagulha foi de onde surgiu o agente+Semântico e essa série de artigos.

Neste primeiro texto eu comecei perguntando ao modelo sobre os conceitos centrais dos mecanismos de atenção do Transformer, e depois de algumas interações resolvi focar no mecanismo de ajuste progressivo das incorporações e no significado contextual mais rico que esse processo gera. Eu sei, parece complicado, e realmente é, mas eu vou tentar facilitar as coisas.

Conteúdos

Um mecanismo de resposta que não tem respostas prontas?

Se você já interagiu com algum chatbot nos últimos 2 anos pode ter tido a sensação que aquilo parece mágica. Você faz uma pergunta complexa e, em segundos, recebe uma resposta coerente e criativa. Não que ela esteja sempre certa, mas existe ali um texto que faz sentido.

Podemos ficar tentados em imaginar que o que foi gerado veio de uma confusão quase ininteligível de palavras, mas na verdade é muito mais coerente do que isso. Existe uma mecânica interna nos Modelos de Linguagem de Grande Escala (LLMs), na realidade ele é um sistema com princípios que ecoam conceitos da ciência da informação, puxando a sardinha para o meu lado, mas não só de lá.

Mas para conseguir entender como tudo isso funciona, tentar de alguma forma relacionar com o nosso trabalho de SEO, eu precisei segurar a minha curiosidade e ir aos poucos. Durante a série de perguntas e respostas com o meu agente, recebi que podemos separar em seis partes o nosso entendimento. Isso dito, trago para você as minhas anotações do que eu achei.

Meus 6 achados surpreendentes

Achado nº1: uma palavra não tem um significado, ela tem um ponto de partida

No início do processo Transformer, cada palavra (ou “token“) do texto que estamos que seja gerado recebe um vetor numérico, o que é uma longa lista de números que recebem o nome de “embedding“. Já ouviu essa palavra, né? Então, é isso o que ela significa. Mas o achado aqui é saber que este embedding inicial é idêntico para uma mesma palavra, independentemente do contexto em que ela aparece. Você sabia disso? Eu não.

Um exemplo que o meu agente meu deu foi esse:

Pense na palavra “toupeira”. Nas frases “a toupeira verdadeira americana” e “faça uma biópsia da toupeira”, a palavra tem dois significados semanticamente distintos. No entanto, no primeiro passo do modelo, o vetor numérico para “toupeira” é exatamente o mesmo nos dois casos.

Então posso entender que o embedding inicial não é uma definição; ele é apenas um ponto de partida genérico em um espaço gigantesco de significados. Isso me lembrou muito o conceito de campo semântico e eu fiquei viajando no tamanho dos campos que os modelos criam para cada palavra que vão gerar.

Mas o verdadeiro trabalho de um Transformer é ajustar progressivamente esses embeddings, camada após camada, movendo-os neste espaço de alta dimensão para que incorporem um significado contextual rico, específico para aquela frase.

Isso mudou completamente a minha percepção deste processo. Já que o modelo não “procura” uma definição em um dicionário interno entendi que ele constrói o significado em tempo real, em um processo de refinamento contínuo.

Outro exemplo que o agente me deu foi ainda mais impactante:

Imagine que, no final de um longo romance de mistério que termina com “portanto, o assassino foi…”, o vetor final para a palavra “foi” precisa ter absorvido e codificado toda a informação relevante da história para ser capaz de prever corretamente o nome do assassino.

Achado nº2: os modelos fazem perguntas e encontram respostas o tempo todo

Eu descobri que os LLMs falam sozinho, como nós humanos. Existe um mecanismo de “atenção”, que é o coração de um Transformer, e ele pode ser entendido como um diálogo interno constante. Lembra que conforme o Transforme trabalha as palavras vão ganhando significados mais específicos, certo? Então, cada palavra gera um vetor de “Consulta” (Query), que é um processo que faz uma pergunta sobre o resto da frase.

Vamos de novo a um exemplo:

Imagine um substantivo como “criatura”, a busca por seu significado pode gerar uma consulta que, em essência, faz uma pergunta como essa: “ei, há algum adjetivo por aqui que me descreva?”.

Outras palavras na frase, por sua vez, geram vetores “Chave” (Key), que servem como respostas potenciais. Os adjetivos “fofa” e “azul” teriam chaves que “respondem” afirmativamente à pergunta da “criatura”.

A força da correspondência entre a Consulta de uma palavra e a Chave de outra (medida por uma operação matemática chamada produto escalar) determina o quão relevante uma palavra é para a outra naquele contexto específico.

Uma vez que a relevância é estabelecida, a palavra “relevante” envia seu “Valor” (Value), um pacote de informações, para atualizar o embedding da palavra que fez a pergunta. Sim, eu também fiquei confuso nessa parte.

Mas, a “atenção” não é um processo estranho a nós, já que os modelos emulam o nosso jeito de pensar. Imagine que essa conversa acontece entre duas áreas do seu cérebro. A parte da linguagem precisa reproduzir em fala o que a outra pensa. Elas trocam dados entre elas em tempo real. Assim que a parte que precisa falar encontra o que precisa dizer a frase vai ser dita.

Esse é um processo dinâmico onde as palavras fazem perguntas umas as outras, e quando encontram as respostas mais relevantes, trocam informações para construir um significado contextualizado.

Achado nº3: “significado” é apenas uma direção no espaço

Isso torceu a minha mente, desde a primeira vez que ouvi falar disso. Como assim significado é uma direção num espaço? E tem mais: multidimensional!

Mas vamos com calma. Pense que os embeddings das palavras não são apenas listas de números aleatórios; eles existem em um espaço vetorial de altíssima dimensão (12.288 dimensões no GPT-3 e GPT-4 com estimativas que sugerem cerca de 1,5 trilhão). O mais fascinante é que as direções neste espaço correspondem a conceitos e significados semânticos.

Vamos usar a imagem abaixo com base de imaginação. Veja que ela não tem todas as dimensões, está em um plano e usa outras duas. Cada seta colorida dessas é um possível significado para uma palavra. Os modelos usam esses vetores para calcular os possíveis significados que falamos no achado anterior.

Mas vamos a um exemplo que o meu agente me deu:

O exemplo clássico é a “aritmética vetorial” com palavras. Descobriu-se que a direção no espaço que vai do vetor de “homem” para o de “mulher” é muito semelhante à direção que vai de “rei” para “rainha”. Conceitualmente, isso pode ser expresso como: vetor(rei) - vetor(homem) + vetor(mulher) ≈ vetor(rainha). Isso demonstra que o modelo, durante o treinamento, aprendeu a codificar um conceito abstrato como “gênero” como uma direção geométrica específica.

Esse conceito é muito complicado de explicar em palavras, por isso eu vou recomendar esse vídeo para você. Foi com ele que eu finalmente aprendi isso:

Mas a ideia mais importante que quero lhe passar é como as direções neste espaço de alta dimensão de todas as incorporações possíveis podem corresponder ao significado semântico.

A profundidade disso é fazer a cabeça girar sem parar, vamos comigo!

Conceitos não são armazenados em um dicionário, mas como relações geométricas. Para quem vem da Ciência da Informação, isso é um eco fascinante dos pilares da organização do conhecimento, como taxonomia e ontologia, só que aqui a estrutura emerge de forma puramente matemática, sem qualquer curadoria humana. Isso tem forças e fraquezas.

Por isso que o uso de ferramentas como Grafos de Conhecimento e Ontologias como orientadores dos modelos tem mostrado resultados tão animadores: eles são como orientadores prévios para que os modelos não tenham que conversar tanto antes de encontrar os significados mais relevantes.

Achado nº4: um fato pode ser um simples interruptor de “Liga/Desliga”

Umas das dezenas de perguntas que eu fiz ao meu agente foi sobre se os modelos armazenavam essas conclusões sobre os melhores significados das palavras em algum lugar. Se eu faço uma pergunta tipo essa: Michael Jordan joga basquete?

Onde será que um LLM armazena esses fatos concretos? Descobri que as pesquisas mais recentes sugerem que esses fatos “moram” nos blocos da rede neural chamados de Perceptrons Multicamadas (MLPs). E a forma como eles fazem isso é muito simples.

Vou, de novo, transcrever o exemplo que eu recebi:

Imagine que uma das “linhas” da primeira matriz de um MLP foi treinada especificamente para detectar a presença simultânea dos embeddings de “Michael” E “Jordan” em um vetor de entrada. Se ambos os conceitos estiverem presentes e alinhados com essa linha, um “neurônio” específico é ativado (seu valor se torna positivo). Se não, ele permanece inativo (valor zero). Essencialmente, ele funciona como uma porta lógica “E”, que só dispara um sinal de “verdadeiro” quando ambas as condições são atendidas.

É como se fosse um interruptor elétrico, que quando tem o contato em ambos os lados, liga uma luz.

E o que acontece quando esse neurônio dispara é ainda mais interessante. Imagine uma “coluna” correspondente na segunda matriz (imaginei uma planilha no excell para ficar mais fácil) do MLP, que por sua vez foi treinada para representar a direção do conceito “basquete”. Quandos os embeddings são criados (lembra: aquela linha gigante de números), essa informação é adicionada ao vetor original.

O resultado dessa interação é que agora, ao passar por esse bloco, o embedding que representava “Michael Jordan” agora também contém a informação “basquete”. Como se agregasse a entidade Michael Jordan o atributo “jogador de basquete”, ganhando contexto.

Essa é uma mecânica contraintuitiva para mim, mas é ao mesmo tempo brilhante. Algo do mundo real (uma entidade) é decomposto em uma operação quase mecânica: um gatilho condicional que, quando ativado, adiciona um novo vetor de significado ao fluxo de informação. Isso acontecendo em milissegundos.

Achado nº5: o modelo armazena mais ideias do que tem espaço

Aqui está algo que desafia a minha intuição tridimensional: em um espaço de n dimensões, eu penso que só posso armazenar n ideias ou características independentes (ou seja, perpendiculares entre si). Se eu tenho um mundo de 1000 dimensões, só posso armazenar 1000 ideias, diz a minha mente. Mas não é assim que funciona.

Isso é verdade em nosso mundo de 3 dimensões, mas essa regra é quebrada em dimensões muito, muito altas.

Esse fenômeno é chamado de “superposição”. Em espaços de alta dimensão, como o espaço de embeddings de um LLM, é possível encaixar um número exponencialmente maior de vetores que são “quase perpendiculares” uns aos outros (por exemplo, todos com ângulos entre 89 e 91 graus).

Lembra da imagem dos vetores no gráfico? Imagine que eles estão próximos uns aos outros por distâncias menores que um fio de cabelo, para pegar um exemplo físico.

Eu falei do GPT-3, que tem um espaço de 12.288 dimensões. Ele não está limitado a armazenar apenas 12.288 características distintas mas pode armazenar ordens de magnitude a mais. Isso significa que uma única característica conceitual, como ‘joga basquete’ ou ‘é um atleta famoso’, pode não ser representada por um único neurônio artificial, voltando ao nosso exemplo do cérebro.

Em vez disso, o modelo pode representar milhões de características como combinações específicas (superposições) de muitos neurônios, permitindo uma densidade de informação que desafia nossa forma de pensar (a minha pelo menos).

Este é talvez o aspecto mais estranho da “inteligência” inerente ao Aprendizado de Máquina (Machine Learning). Ela opera em uma geometria que nossa mente tem dificuldade em compreender, e permite que exista uma densidade de informação que parece violar nossas regras de espaço e organização da informação.

Achado nº6: aprender é, literalmente, apenas rolar morro abaixo

No início do treinamento, todos os 175 bilhões de parâmetros de um modelo como o GPT-3 são aleatórios. Se você pedisse para ele gerar texto, ele produziria apenas “lixo” incompreensível. O processo de “aprendizagem” nada mais é do que um método para corrigir essa bagunça inicial.

Para fazer isso, definimos uma “função de custo” — um número único que mede “quão ruim” a rede é em sua tarefa (por exemplo, prever a próxima palavra corretamente). Esse número é a média do erro do modelo em dezenas de milhares de exemplos de treinamento. O objetivo do treinamento é um só: minimizar esse número.

A técnica usada é chamada de “descida do gradiente” (gradient descent), e a melhor analogia é visual. e vou te deixar com o exemplo que eu recebi:

Imagine a função de custo como uma paisagem montanhosa, cheia de colinas e vales. O processo de treinamento é como colocar uma bola no alto de uma colina e simplesmente deixá-la rolar para o vale mais próximo. A cada passo, um algoritmo (backpropagation) calcula a direção da “descida mais íngreme” e ajusta levemente todos os 175 bilhões de parâmetros nessa direção para reduzir o custo, ou seja, para fazer a bola rolar um pouquinho mais morro abaixo.

Essa metáfora desmistifica o tal “aprendizado” de máquina. Não há, na verdade, uma compreensão consciente, apenas um processo matemático de otimização, repetido trilhões de vezes sobre um volume massivo de dados. O algoritmo ajusta incansavelmente os parâmetros para encontrar um “vale” (um mínimo local) onde o desempenho do modelo nos dados de treinamento é bom.

Então fica a pergunta: o que um LLM entende por “entender”?

Nós começamos esse artigo falando de vetores estáticos, que são meros pontos de partida, e chegamos a um processo dinâmico de construção de significado. Trouxe informação sobre como a IA “pensa” através de um troca entre de perguntas e respostas, adições vetoriais e gatilhos lógicos, tudo orquestrado e afinado por um processo de otimização que se parece com uma bola rolando morro abaixo.

Se ao final da escrita desse artigo que consigo ter mais algumas certezas, algumas ideias ainda giram em torno da minha cabeça: se o “significado” pode ser construído através de operações geométricas em um espaço de alta dimensão, e se o “aprendizado” é apenas a forma matemática de minimizar uma função de erro em uma escala bizarramente colossal, estamos a um erro de cálculo de um desastre completo?

Isso é o que chamamos de alucinar? Se sim, alucinar é um erro ou somente algo esperado no processo de descida ladeira abaixo?

Termino esse texto lhe prometendo uma segunda parte, talvez trazendo respostas a essas minhas perguntas.

Um mecanismo de resposta que não tem respostas prontas?

Meus 6 achados surpreendentes

Achado nº1: uma palavra não tem um significado, ela tem um ponto de partida

Achado nº2: os modelos fazem perguntas e encontram respostas o tempo todo

Achado nº3: “significado” é apenas uma direção no espaço

Achado nº4: um fato pode ser um simples interruptor de “Liga/Desliga”

Achado nº5: o modelo armazena mais ideias do que tem espaço

Achado nº6: aprender é, literalmente, apenas rolar morro abaixo

Então fica a pergunta: o que um LLM entende por “entender”?

O que é SEO Semântico?

Como organizar a informação do seu site?

Mais artigos

Publicar comentário Cancelar resposta