Três Gerações de Grafos de Conhecimento

Três Gerações de Grafos de Conhecimento

Quero convidar você, minha amiga e meu amigo SEO, a olhar essa palestra que aconteceu no SEMANTiCS 2023 no dia 21 de setembro. Nesse dia, Xing Luna Dong apresentou a palestra “Três Gerações de Grafos de Conhecimento“, que é uma exploração profunda da evolução e dos desafios da criação e uso dos grafos de conhecimento na em grandes empresas de tecnologi. Eu estou lhe convidado a assistir essa palestra e te dando um bom resumo com os pontos exatos no vídeo por um motivo bem simples:

Essa palestra me fez entender o processo de criação e uso de grafos de conhecimento, inicialmente no Google, que a Luna Dong liderou e como chegamos nesse ponto que estamos hoje. O que você vê e lê na web falando sobre como o uso de grafos resolve os problemas e desafios da Inteligência Artificial não é por acaso, ele foi construído! E essa palestra vai te fazer entender isso também.

Pontos Principais da Palestra:

Jornada profissional e filosofia de pesquisa de Luna Dong

Luna Dong descreve sua carreira como um “caminho do salmão”, passando por empresas como Google, AT&T Labs, Amazon e Meta. Ela construiu três grafos de conhecimento principais: um grafo de conhecimento pessoal, o Google Knowledge Graph e o Amazon Product Knowledge Graph [01:19:21]. Sua filosofia de pesquisa equilibra metas incrementais com impacto na produção (“roofshot goals”) e a invenção de tecnologias de ponta para evitar a estagnação (“moonshot goals”) [20:44].

As Três Gerações de Grafos de Conhecimento

Primeira Geração (Baseada em Entidades)

Caracterizada por ontologias definidas manualmente e entidades com limites claros [25:41]. O objetivo era imitar a visão humana do mundo [26:23]. Os desafios incluíam a heterogeneidade dos dados, resolvida com técnicas de integração de dados [29:24].

Segunda Geração (Rica em Texto)

Surgiu para lidar com casos de uso de “cauda longa”, como a busca de produtos, onde os dados são predominantemente textuais e ruidosos [43:57]. Caracterizada por ontologias complexas e valores de atributos textuais com limites vagos [40:26]. O projeto “AutoKnow” da Amazon automatizou a coleta de conhecimento de produtos a partir de nomes e descrições [44:05].

Terceira Geração (Duais Neurais com Modelos de Linguagem de Grande Escala)

Aborda a questão de se os Modelos de Linguagem de Grande Escala (LLMs) substituirão os grafos de conhecimento [01:06:15]. Um estudo mostrou que a precisão dos LLMs em responder a perguntas factuais é baixa, com alta taxa de “alucinação”, especialmente para dados de “cauda longa” [01:03:24]. A conclusão é que os grafos de conhecimento continuarão a coexistir com os LLMs em formas simbólicas e neurais [01:06:41].

Trabalho Atual na Meta

Dong mencionou o desenvolvimento de assistentes inteligentes para dispositivos de Realidade Virtual (VR) e óculos inteligentes, que exigem entradas multimodais, sensibilidade ao contexto e personalização [01:08:43].

Receita para Inovação na Prática

A palestra apresenta um modelo de cinco etapas para levar ideias “loucas” à prática na indústria: Viabilidade, Qualidade, Repetibilidade, Escalabilidade e Ubiquidade [01:22:05].

Foco no Google Knowledge Graph

Durante seu tempo no Google, ela esteve envolvida na criação do Google Knowledge Graph, que foi desenvolvido para aprimorar os resultados de busca [01:19:48]. A ideia central era criar um grafo de entidades e relacionamentos que espelhasse como os humanos veem o mundo real [01:26:23].

Principais Aspectos do Trabalho no Google

Fontes de Dados Iniciais

Uma das fontes primárias para a construção do grafo foi a Wikipedia, especialmente as “infocaixas”, que forneciam dados estruturados fáceis de extrair sobre atributos e relacionamentos de entidades [01:27:07].

Desafios de Integração de Dados

Ao expandir para outras fontes de dados, como o IMDb e o Wikidata, surgiram desafios significativos de heterogeneidade. Os dados sobre a mesma entidade ou atributo poderiam ser diferentes em cada fonte [01:28:44]. Para resolver isso, foram aplicadas técnicas de integração de dados, como:

Vinculação de Entidades (Entity Linkage)

Para unificar diferentes menções da mesma entidade do mundo real em um único nó no grafo [01:29:57].

Alinhamento de Esquemas (Schema Alignment)

Para padronizar os diferentes nomes de atributos [01:30:07].

Fusão de Dados (Data Fusion)

Para consolidar os diferentes valores para o mesmo atributo [01:30:16].

Projeto Knowledge Vault

Para escalar a extração de conhecimento para toda a web, o Google desenvolveu o projeto Knowledge Vault [01:36:24].

Extração Abrangente

O projeto extraiu informações de textos da web, tabelas e anotações em HTML (como schema.org), utilizando 16 extratores diferentes [01:36:26].

Resultados e Limitações

O Knowledge Vault processou 2,5 bilhões de páginas da web e gerou 3,2 bilhões de “triplas de conhecimento”. No entanto, apenas cerca de 10% foram consideradas de alta confiança [01:37:06]. A precisão de 70% para esses dados de alta confiança não atingiu o requisito de 99% do Google Knowledge Graph [01:37:35]. Além disso, mesmo que a precisão pudesse ser aumentada, a cobertura para entidades de “cauda longa” (menos populares) seria insuficiente para suportar uma boa experiência de produto [01:37:56].

Apesar de o conhecimento extraído pelo Knowledge Vault não ter sido totalmente integrado ao Google Knowledge Graph principal devido a essas questões de precisão, as tecnologias desenvolvidas no projeto foram aplicadas em outras áreas no Google e em outras empresas para coletar conhecimento de “cauda longa” [01:38:16].

Em resumo, a palestra de Xing Luna Dong destaca a importância contínua dos grafos de conhecimento, mesmo com o avanço dos Modelos de Linguagem de Grande Escala, e a necessidade de abordagens híbridas para lidar com a complexidade e a escala dos dados do mundo real.

O trabalho de Luna Dong no Google foi fundamental para construir as bases do Google Knowledge Graph, enfrentando os desafios de integrar dados de fontes diversas e escalando a extração de conhecimento com o ambicioso projeto Knowledge Vault.

Olá, eu sou o Alexander Rodrigues Silva, especialista SEO e autor do livro "SEO Semântico: Fluxo de trabalho semântico". Atuo há mais de duas décadas no universo digital, com foco em otimização de sites desde 2009. Minhas escolhas me levaram a aprofundar na intersecção entre experiência do usuário e estratégias de marketing de conteúdo, sempre com o foco no aumento do tráfego orgânico no longo prazo.Minhas pesquisas e especialização se concentram no SEO Semântico, onde investigo e aplico a semântica e os dados conectados na otimização de websites. É um campo fascinante que me permite unir minha formação em publicidade com a biblioteconomia.Nesta minha segunda graduação, em Biblioteconomia e Ciência da Informação, busco expandir meus conhecimentos em Indexação, Classificação e Categorização da Informação, por ver uma conexão intrínseca e de grande aplicação desses conceitos ao trabalho de SEO. Tenho pesquisado e conectado ferramentas da Biblioteconomia (como Análise de Domínio, Vocabulário Controlado, Taxonomias e Ontologias) com as novas ferramentas da Inteligência Artificial (AI) e os Modelos de linguagem de grande escala (LLMs), explorando desde Grafos de Conhecimento até o papel dos Agentes autônomos.No meu papel de consultor em SEO, busco trazer uma nova perspectiva para a otimização, integrando a visão de longo prazo, a engenharia de conteúdo e as possibilidades que a inteligência artificial oferece. Para mim, o trabalho de SEO é uma estratégia que precisa estar alinhada com os objetivos do seu negócio, mas que exige um conhecimento profundo sobre o funcionamento dos motores de busca e uma capacidade de entender os resultados da pesquisa.

Publicar comentário

Blog Semântico
Privacy Overview

This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.