Tres generaciones de grafos de conocimiento
amigo en SEO , a ver esta charla que tuvo lugar en SEMANTiCS 2023 el 21 de septiembre. Ese día, Xing Luna Dong presentó la charla «Tres generaciones de grafos de conocimiento esta charla y te ofrezco un resumen con los puntos clave del vídeo por una razón muy sencilla:
Esta charla me ayudó a comprender el proceso de creación y uso de grafos de conocimiento, inicialmente en Google , bajo la dirección de Luna Dong, y cómo llegamos a donde estamos hoy. Lo que ves y lees en internet sobre cómo el uso de grafos resuelve los problemas y desafíos de la Inteligencia Artificial no es casualidad; ¡fue construido! Y esta charla también te ayudará a comprenderlo.
Puntos clave de la presentación:
La trayectoria profesional y la filosofía de investigación de Luna Dong
Luna Dong describe su trayectoria profesional como un «camino del salmón», pasando por empresas como Google, AT&T Labs, Amazon y Meta. Ha creado tres grafos de conocimiento principales: un grafo de conocimiento personal, el Grafo de Conocimiento de Google y el Grafo de Conocimiento de Productos de Amazon [ 01:19:21 ]. Su filosofía de investigación equilibra los objetivos incrementales con el impacto en los resultados («objetivos ambiciosos») y la invención de tecnologías de vanguardia para evitar el estancamiento («objetivos revolucionarios») [ 20:44 ].
Las tres generaciones de grafos de conocimiento
Primera generación (basada en entidades)
Se caracterizaba por ontologías y entidades definidas manualmente con límites claros [ 25:41 ]. El objetivo era imitar la visión humana del mundo [ 26:23 ]. Entre los desafíos se encontraba la heterogeneidad de los datos, que se resolvió con técnicas de integración de datos [ 29:24 ].
Segunda generación (rica en texto)
Surgió para abordar casos de uso de «cola larga», como la búsqueda de productos, donde los datos son predominantemente textuales y presentan ruido [ 43:57 ]. Se caracterizan por ontologías complejas y valores de atributos textuales con límites difusos [ 40:26 ]. El proyecto «AutoKnow» de Amazon automatizó la recopilación de conocimiento de productos a partir de nombres y descripciones [ 44:05 ].
Tercera generación (Duales neuronales con modelos de lenguaje a gran escala)
Se aborda la cuestión de si los Modelos de Lenguaje a Gran Escala (MLG) reemplazarán a los grafos de conocimiento [ 01:06:15 ]. Un estudio demostró que la precisión de los MLG al responder preguntas fácticas es baja, con una alta tasa de «alucinación», especialmente para datos de «cola larga» [ 01:03:24 ]. La conclusión es que los grafos de conocimiento seguirán coexistiendo con los MLG en sus formas simbólicas y neuronales [ 01:06:41 ].
Trabajo actual en Meta
Dong mencionó el desarrollo de asistentes inteligentes para dispositivos de Realidad Virtual (RV) y gafas inteligentes, que requieren entradas multimodales, sensibilidad al contexto y personalización.01:08:43].
Receta para la innovación en la práctica
La presentación describe un modelo de cinco pasos para convertir ideas "locas" en práctica en la industria: Viabilidad, Calidad, Repetibilidad, Escalabilidad y Ubicuidad.01:22:05].
Céntrese en el gráfico de conocimiento de Google.
Durante su etapa en Google, participó en la creación del Google Knowledge Graph los resultados de búsqueda [ 01:19:48 ]. La idea principal era crear un gráfico de entidades y relaciones que reflejara la percepción humana del mundo real [ 01:26:23 ].
Aspectos clave de trabajar en Google
Fuentes de datos iniciales
Una de las fuentes principales para la construcción del gráfico fue Wikipedia, especialmente las "infocajes", que proporcionaban datos estructurados fáciles de extraer sobre los atributos y las relaciones de las entidades.01:27:07].
Desafíos de la integración de datos
Al ampliar el análisis a otras fuentes de datos, como IMDb y Wikidata, surgieron importantes problemas de heterogeneidad. Los datos sobre la misma entidad o atributo podían diferir entre las distintas fuentes [ 01:28:44 ]. Para abordar este problema, se aplicaron técnicas de integración de datos, tales como:
Vinculación de entidades
Para unificar diferentes menciones de la misma entidad del mundo real en un solo nodo del gráfico [01:29:57].
Alineación del esquema
Para estandarizar los diferentes nombres de atributos [01:30:07].
Fusión de datos
Para consolidar los diferentes valores para el mismo atributo [01:30:16].
Proyecto Knowledge Vault
Para ampliar la extracción de conocimiento en toda la web, Google desarrolló el Knowledge Vault [ 01:36:24 ].
Extracción integral
El proyecto extrajo información de texto web, tablas y anotaciones HTML (como schema.org), utilizando 16 extractores diferentes.01:36:26].
Resultados y limitaciones
Knowledge Vault procesó 2500 millones de páginas web y generó 3200 millones de «triples de conocimiento». Sin embargo, solo alrededor del 10 % se consideraron de alta confianza [ 01:37:06 ]. La precisión del 70 % para estos datos de alta confianza no cumplió con el requisito del 99 % de Google Knowledge Graph [ 01:37:35 ]. Además, incluso si se pudiera aumentar la precisión, la cobertura para las entidades de «cola larga» (menos populares) sería insuficiente para ofrecer una buena experiencia de usuario [ 01:37:56 ].
Aunque el conocimiento extraído por Knowledge Vault no se ha integrado completamente en el gráfico de conocimiento principal de Google debido a estos problemas de precisión, las tecnologías desarrolladas en el proyecto se han aplicado en otras áreas de Google y otras empresas para recopilar conocimiento de “cola larga” [ 01:38:16 ].
En resumen, la conferencia de Xing Luna Dong destaca la continua importancia de los grafos de conocimiento, incluso con el avance de los modelos de lenguaje a gran escala, y la necesidad de enfoques híbridos para manejar la complejidad y la escala de los datos del mundo real
El trabajo de Luna Dong en Google fue fundamental para construir los cimientos del Google Knowledge Graph, abordando los desafíos de integrar datos de diversas fuentes y escalar la extracción de conocimiento con el ambicioso proyecto Knowledge Vault.



Publicar comentario