Tres generaciones de grafos de conocimiento

Tres generaciones de grafos de conocimiento

amigo en SEO , a ver esta charla que tuvo lugar en SEMANTiCS 2023 el 21 de septiembre. Ese día, Xing Luna Dong presentó la charla «Tres generaciones de grafos de conocimiento esta charla y te ofrezco un resumen con los puntos clave del vídeo por una razón muy sencilla:

Esta charla me ayudó a comprender el proceso de creación y uso de grafos de conocimiento, inicialmente en Google , bajo la dirección de Luna Dong, y cómo llegamos a donde estamos hoy. Lo que ves y lees en internet sobre cómo el uso de grafos resuelve los problemas y desafíos de la Inteligencia Artificial no es casualidad; ¡fue construido! Y esta charla también te ayudará a comprenderlo.

Puntos clave de la presentación:

La trayectoria profesional y la filosofía de investigación de Luna Dong

Luna Dong describe su trayectoria profesional como un «camino del salmón», pasando por empresas como Google, AT&T Labs, Amazon y Meta. Ha creado tres grafos de conocimiento principales: un grafo de conocimiento personal, el Grafo de Conocimiento de Google y el Grafo de Conocimiento de Productos de Amazon [ 01:19:21 ]. Su filosofía de investigación equilibra los objetivos incrementales con el impacto en los resultados («objetivos ambiciosos») y la invención de tecnologías de vanguardia para evitar el estancamiento («objetivos revolucionarios») [ 20:44 ].

Las tres generaciones de grafos de conocimiento

Primera generación (basada en entidades)

Se caracterizaba por ontologías y entidades definidas manualmente con límites claros [ 25:41 ]. El objetivo era imitar la visión humana del mundo [ 26:23 ]. Entre los desafíos se encontraba la heterogeneidad de los datos, que se resolvió con técnicas de integración de datos [ 29:24 ].

Segunda generación (rica en texto)

Surgió para abordar casos de uso de «cola larga», como la búsqueda de productos, donde los datos son predominantemente textuales y presentan ruido [ 43:57 ]. Se caracterizan por ontologías complejas y valores de atributos textuales con límites difusos [ 40:26 ]. El proyecto «AutoKnow» de Amazon automatizó la recopilación de conocimiento de productos a partir de nombres y descripciones [ 44:05 ].

Tercera generación (Duales neuronales con modelos de lenguaje a gran escala)

Se aborda la cuestión de si los Modelos de Lenguaje a Gran Escala (MLG) reemplazarán a los grafos de conocimiento [ 01:06:15 ]. Un estudio demostró que la precisión de los MLG al responder preguntas fácticas es baja, con una alta tasa de «alucinación», especialmente para datos de «cola larga» [ 01:03:24 ]. La conclusión es que los grafos de conocimiento seguirán coexistiendo con los MLG en sus formas simbólicas y neuronales [ 01:06:41 ].

Trabajo actual en Meta

Dong mencionó el desarrollo de asistentes inteligentes para dispositivos de Realidad Virtual (RV) y gafas inteligentes, que requieren entradas multimodales, sensibilidad al contexto y personalización.01:08:43].

Receta para la innovación en la práctica

La presentación describe un modelo de cinco pasos para convertir ideas "locas" en práctica en la industria: Viabilidad, Calidad, Repetibilidad, Escalabilidad y Ubicuidad.01:22:05].

Céntrese en el gráfico de conocimiento de Google.

Durante su etapa en Google, participó en la creación del Google Knowledge Graph los resultados de búsqueda [ 01:19:48 ]. La idea principal era crear un gráfico de entidades y relaciones que reflejara la percepción humana del mundo real [ 01:26:23 ].

Aspectos clave de trabajar en Google

Fuentes de datos iniciales

Una de las fuentes principales para la construcción del gráfico fue Wikipedia, especialmente las "infocajes", que proporcionaban datos estructurados fáciles de extraer sobre los atributos y las relaciones de las entidades.01:27:07].

Desafíos de la integración de datos

Al ampliar el análisis a otras fuentes de datos, como IMDb y Wikidata, surgieron importantes problemas de heterogeneidad. Los datos sobre la misma entidad o atributo podían diferir entre las distintas fuentes [ 01:28:44 ]. Para abordar este problema, se aplicaron técnicas de integración de datos, tales como:

Vinculación de entidades

Para unificar diferentes menciones de la misma entidad del mundo real en un solo nodo del gráfico [01:29:57].

Alineación del esquema

Para estandarizar los diferentes nombres de atributos [01:30:07].

Fusión de datos

Para consolidar los diferentes valores para el mismo atributo [01:30:16].

Proyecto Knowledge Vault

Para ampliar la extracción de conocimiento en toda la web, Google desarrolló el Knowledge Vault [ 01:36:24 ].

Extracción integral

El proyecto extrajo información de texto web, tablas y anotaciones HTML (como schema.org), utilizando 16 extractores diferentes.01:36:26].

Resultados y limitaciones

Knowledge Vault procesó 2500 millones de páginas web y generó 3200 millones de «triples de conocimiento». Sin embargo, solo alrededor del 10 % se consideraron de alta confianza [ 01:37:06 ]. La precisión del 70 % para estos datos de alta confianza no cumplió con el requisito del 99 % de Google Knowledge Graph [ 01:37:35 ]. Además, incluso si se pudiera aumentar la precisión, la cobertura para las entidades de «cola larga» (menos populares) sería insuficiente para ofrecer una buena experiencia de usuario [ 01:37:56 ].

Aunque el conocimiento extraído por Knowledge Vault no se ha integrado completamente en el gráfico de conocimiento principal de Google debido a estos problemas de precisión, las tecnologías desarrolladas en el proyecto se han aplicado en otras áreas de Google y otras empresas para recopilar conocimiento de “cola larga” [ 01:38:16 ].

En resumen, la conferencia de Xing Luna Dong destaca la continua importancia de los grafos de conocimiento, incluso con el avance de los modelos de lenguaje a gran escala, y la necesidad de enfoques híbridos para manejar la complejidad y la escala de los datos del mundo real

El trabajo de Luna Dong en Google fue fundamental para construir los cimientos del Google Knowledge Graph, abordando los desafíos de integrar datos de diversas fuentes y escalar la extracción de conocimiento con el ambicioso proyecto Knowledge Vault.

Hola, soy Alexander Rodrigues Silva, especialista en SEO y autor del libro "SEO Semántico: Flujo de Trabajo Semántico". Llevo más de dos décadas trabajando en el mundo digital, centrándome en la optimización web desde 2009. Mis decisiones me han llevado a profundizar en la intersección entre la experiencia del usuario y las estrategias de marketing de contenidos, siempre con el objetivo de aumentar el tráfico orgánico a largo plazo. Mi investigación y especialización se centran en el SEO Semántico, donde investigo y aplico la semántica y los datos conectados a la optimización web. Es un campo fascinante que me permite combinar mi formación en publicidad con la biblioteconomía. En mi segunda titulación, en Biblioteconomía y Documentación, busco ampliar mis conocimientos en indexación, clasificación y categorización de la información, ya que veo una conexión intrínseca y una gran aplicación de estos conceptos al trabajo de SEO. He estado investigando y conectando herramientas de Biblioteconomía (como Análisis de Dominios, Vocabulario Controlado, Taxonomías y Ontologías) con nuevas herramientas de Inteligencia Artificial (IA) y Modelos de Lenguaje a Gran Escala (MLGE), explorando desde Grafos de Conocimiento hasta el papel de los agentes autónomos. Como consultor SEO, busco aportar una nueva perspectiva a la optimización, integrando una visión a largo plazo, la ingeniería de contenidos y las posibilidades que ofrece la inteligencia artificial. Para mí, el SEO es una estrategia que debe estar alineada con los objetivos de su negocio, pero requiere un profundo conocimiento del funcionamiento de los motores de búsqueda y la capacidad de interpretar los resultados de búsqueda.

Publicar comentario

Blog semántico
Resumen de privacidad

Este sitio web utiliza cookies para ofrecerle la mejor experiencia de usuario posible. La información de las cookies se almacena en su navegador y realiza funciones como reconocerle cuando regresa a nuestro sitio web y ayudar a nuestro equipo a comprender qué secciones del sitio web le resultan más interesantes y útiles.