Lo que me enseñó un cerebro de IA

Lo que me enseñó un cerebro de IA

Este es el primer artículo de una serie de escritos que estoy realizando con la ayuda de uno de mis agentes, creado utilizando la misma estrategia que agent+Semantic , que es el servicio para la creación de agentes especializados en investigación y de contenido que Semântico SEO ofrece a todos aquellos que desean crear contenido real con la ayuda de la IA.

Agente CTA+Semántica

En este artículo, mi agente y yo analizamos una serie de vídeos del canal « 3Blue1Brown », que resultaron fundamentales para comprender el funcionamiento de los modelos de lenguaje grandes (LLM). La serie, titulada «Redes Neuronales», ofrece una visión muy profunda de los mecanismos centrales de las redes neuronales y los LLM, como GPT-3.

Una parte importante del contenido del vídeo se centra en la estructura y el funcionamiento de los Transformers, detallando el mecanismo de Atención, un proceso que permite a los vectores de palabras ajustar su significado según el contexto, mediante matrices de peso, consulta , clave y valor. Cuando comprendí su funcionamiento, se me abrió un mundo de entendimiento y posibilidades sobre cómo interactuar con estos modelos para obtener información , aprender , generar contenido y compartir conocimientos con ellos.

Y esa chispa fue la que dio origen a Semantic+Agent y a esta serie de artículos.

En este primer texto, comencé preguntando al modelo sobre los conceptos centrales de los mecanismos de atención del Transformer, y tras algunas interacciones, decidí centrarme en el mecanismo de ajuste progresivo de las incorporaciones y el significado contextual más rico que genera este proceso. Sé que parece complicado, y en realidad lo es, pero intentaré simplificarlo.

¿Un mecanismo de respuesta que no tiene respuestas predefinidas?

Si has interactuado con un chatbot en los últimos dos años, es posible que hayas tenido la sensación de que es casi mágico. Haces una pregunta compleja y, en segundos, recibes una respuesta coherente y creativa. No es que siempre sea correcta, pero el texto tiene sentido .

Podríamos caer en la tentación de imaginar que lo generado proviene de una mezcla casi ininteligible de palabras, pero en realidad es mucho más coherente. Existe un mecanismo interno en los Modelos de Lenguaje a Gran Escala (LLM); en realidad, se trata de un sistema con principios que se hacen eco de conceptos de la ciencia de la información —y admito que tengo cierta predilección por ellos, pero no exclusivamente—.

Pero para comprender cómo funciona todo esto y relacionarlo de alguna manera con nuestro trabajo de SEO, tuve que controlar mi curiosidad e ir paso a paso. Durante la sesión de preguntas y respuestas con mi agente, aprendí que podemos dividir nuestro conocimiento en seis partes. Dicho esto, aquí están mis notas sobre lo que descubrí.

Mis 6 descubrimientos sorprendentes

Hallazgo n.º 1: Una palabra no tiene un significado, tiene un punto de partida.

incrustación de palabras espacio vectorial 3D

Al comienzo del proceso Transformer, cada palabra (o « token ») del texto generado recibe un vector numérico, una larga lista de números llamada « embedding ». Seguro que has oído hablar de él, ¿verdad? Eso es lo que significa. Pero lo interesante es que este embedding inicial es idéntico para la misma palabra, independientemente del contexto en el que aparezca. ¿Lo sabías? Yo no.

Un ejemplo que me dio mi agente fue este:

Consideremos la palabra «topo». En las frases «el verdadero topo americano» y «realizar una biopsia de topo», la palabra tiene dos significados semánticamente distintos. Sin embargo, en el primer paso del modelo, el vector numérico de «topo» es exactamente el mismo en ambos casos.

punto de partida genérico en un inmenso espacio de significados. Esto me recordó mucho al concepto de campo semántico, y empecé a pensar en el tamaño de los campos que los modelos crean para cada palabra que generan.

Pero la verdadera función de un Transformer es ajustar progresivamente estas incrustaciones, capa por capa, moviéndolas en este espacio de alta dimensión para que incorporen un significado contextual rico y específico de esa frase.

Esto cambió por completo mi percepción de este proceso. Dado que el modelo no "consulta" una definición en un diccionario interno, comprendí que construye el significado en tiempo real, en un proceso de refinamiento continuo.

Otro ejemplo que me dio el agente fue aún más impactante:

Imagina que, al final de una larga novela de misterio que concluye con "por lo tanto, el asesino era...", el vector final para la palabra "era" necesita haber absorbido y codificado toda la información relevante de la historia para poder predecir correctamente el nombre del asesino.

Hallazgo n.º 2: Los modelos hacen preguntas y encuentran respuestas todo el tiempo.

Descubrí que los LLM se comunican consigo mismos, igual que nosotros. Existe un mecanismo de "atención", que es la esencia de un Transformer, y puede entenderse como un diálogo interno constante. Recordemos que, a medida que el Transformer funciona, las palabras adquieren significados más específicos, ¿verdad? Así, cada palabra genera un vector de "Consulta" , que es un proceso que formula una pregunta sobre el resto de la oración.

Veamos otro ejemplo:

Imaginemos un sustantivo como "criatura"; la búsqueda de su significado podría generar una pregunta que, en esencia, plantea algo como: "Oye, ¿hay algún adjetivo por aquí que me describa?".

Criatura azul adorable

Otras palabras de la oración, a su vez, generan vectores "clave", que sirven como posibles respuestas. Los adjetivos "lindo" y "azul" tendrían claves que "responden" afirmativamente a la pregunta de la "criatura".

La fuerza de la coincidencia entre la consulta de una palabra y la clave de otra (medida mediante una operación matemática llamada producto escalar ) determina la relevancia de una palabra para la otra en ese contexto específico.

Una vez establecida la relevancia, la palabra "relevante" envía su "Valor", un paquete de información, para actualizar la representación de la palabra que formuló la pregunta. Sí, a mí también me confundió esa parte.

Pero la «atención» no nos es ajena, puesto que los modelos imitan nuestra forma de pensar. Imagina que esta conversación tiene lugar entre dos áreas de tu cerebro. La parte del lenguaje necesita reproducir verbalmente lo que la otra está pensando. Intercambian datos en tiempo real. En cuanto la parte que necesita hablar encuentra lo que tiene que decir, pronuncia la frase.

Se trata de un proceso dinámico en el que las palabras se hacen preguntas entre sí, y cuando encuentran las respuestas más relevantes, intercambian información para construir un significado contextualizado.

Hallazgo #3: “Significado” es simplemente una dirección en el espacio.

Esto me ha dejado alucinado desde la primera vez que lo oí. ¿Cómo puede el significado ser una dirección en el espacio? ¡Y encima multidimensional!

Pero vayamos paso a paso. Tengamos en cuenta que las representaciones vectoriales de palabras no son simples listas de números aleatorios; existen en un espacio vectorial de muy alta dimensionalidad (12.288 dimensiones en GPT-3 y GPT-4, con estimaciones que apuntan a alrededor de 1,5 billones). Lo más fascinante es que las direcciones en este espacio se corresponden con conceptos y significados semánticos.

Usemos la siguiente imagen como punto de partida para la imaginación. Observe que no tiene todas las dimensiones; está en un plano y utiliza dos dimensiones adicionales. Cada una de estas flechas de colores representa un posible significado de una palabra. Los modelos utilizan estos vectores para calcular los posibles significados que analizamos en el hallazgo anterior.

incrustación de palabras espacio vectorial 3D

Pero veamos un ejemplo que me dio mi agente:

El ejemplo clásico es la «aritmética vectorial» con palabras. Se ha observado que la dirección en el espacio desde el vector de «hombre» al vector de «mujer» es muy similar a la dirección desde «rey» al vector de «reina». Conceptualmente, esto se puede expresar como: vector(rey) - vector(hombre) + vector(mujer) ≈ vector(reina) . Esto demuestra que el modelo, durante el entrenamiento, aprendió a codificar un concepto abstracto como el «género» mediante una dirección geométrica específica.

Este concepto es muy complicado de explicar con palabras, así que te recomiendo este vídeo. Así es como finalmente lo aprendí:

Pero la idea más importante que quiero transmitirles es cómo las direcciones en este espacio de alta dimensión de todas las posibles encarnaciones pueden corresponder a un significado semántico.

¡Esto es asombroso, ven conmigo!

Los conceptos no se almacenan en un diccionario, sino como relaciones geométricas . Para quienes se dedican a la Ciencia de la Información, esto representa un fascinante paralelismo con los pilares de la organización del conocimiento, como la taxonomía y la ontología , con la diferencia de que aquí la estructura emerge de forma puramente matemática, sin intervención humana. Esto tiene sus ventajas y desventajas.

Por eso, el uso de herramientas como los grafos y las ontologías como guías para los modelos ha mostrado resultados tan alentadores: actúan como guías preliminares para que los modelos no tengan que conversar tanto antes de encontrar los significados más relevantes.

Hallazgo n.° 4: un hecho puede ser un simple interruptor de "encendido/apagado".

Una de las decenas de preguntas que le hice a mi agente fue si los modelos almacenaban en algún lugar estas conclusiones sobre los mejores significados de las palabras. Si hago una pregunta como esta: ¿Michael Jordan juega al baloncesto?

¿Dónde almacena un modelo de aprendizaje profundo estos datos concretos? Descubrí que las investigaciones más recientes sugieren que estos datos «residúan» en los componentes básicos de la red neuronal llamados perceptrones multicapa (MLP). Y la forma en que lo hacen es muy sencilla.

Transcribiré nuevamente el ejemplo que recibí:

Imagina que una de las "filas" de la primera matriz de una MLP se ha entrenado específicamente para detectar la presencia simultánea de las representaciones vectoriales " Michael " y " Jordan " en un vector de entrada. Si ambos conceptos están presentes y se corresponden con esa fila, se activa una "neurona" específica (su valor se vuelve positivo). De lo contrario, permanece inactiva (valor cero). En esencia, funciona como una puerta lógica "Y", que solo emite una señal "verdadera" cuando se cumplen ambas condiciones.

Es como un interruptor eléctrico; cuando se tocan ambos lados, se enciende una luz.

Y lo que sucede cuando se activa esa neurona es aún más interesante. Imaginemos una "columna" correspondiente en la segunda matriz ( para simplificar, usé una hoja de cálculo de Excel ) del perceptrón multicapa (MLP), que a su vez fue entrenada para representar la dirección del concepto de "baloncesto". Cuando se crean las incrustaciones (recordemos: esa enorme línea de números), esta información se añade al vector original.

El resultado de esta interacción es que ahora, al pasar por este bloque, la representación que antes mostraba a "Michael Jordan" también contiene la información "baloncesto". Es como si el atributo "jugador de baloncesto" se añadiera a la entidad Michael Jordan, adquiriendo así contexto.

Este mecanismo me resulta contraintuitivo, pero a la vez es brillante. Algo del mundo real (una entidad) se descompone en una operación casi mecánica: un disparador condicional que, al activarse, añade un nuevo vector de significado al flujo de información. Esto sucede en milisegundos.

Hallazgo n.° 5: el modelo almacena más ideas de las que puede contener.

He aquí algo que desafía mi intuición tridimensional: en un n dimensional, creo que solo puedo almacenar n ideas o características independientes (es decir, perpendiculares entre sí). Si tengo un mundo de 1000 dimensiones, solo puedo almacenar 1000 ideas, me dice mi mente. Pero no funciona así.

Esto es cierto en nuestro mundo tridimensional, pero esta regla se rompe en dimensiones muy, muy altas.

Este fenómeno se llama "superposición". En espacios de alta dimensión, como el espacio de incrustación de un LLM, es posible incrustar un número exponencialmente mayor de vectores que son "casi perpendiculares" entre sí (por ejemplo, todos con ángulos entre 89 y 91 grados).

¿Recuerdas la imagen de los vectores en la gráfica? Imagina que están muy cerca unos de otros, a distancias menores que el ancho de un cabello, por poner un ejemplo físico.

Mencioné GPT-3, que tiene un espacio de 12.288 dimensiones. No se limita a almacenar solo 12.288 características distintas, sino que puede almacenar órdenes de magnitud más. Esto significa que una sola característica conceptual, como «juega al baloncesto» o «es un atleta famoso», puede no estar representada por una sola neurona artificial, retomando nuestro ejemplo del cerebro.

En cambio, el modelo puede representar millones de características como combinaciones específicas (superposiciones) de muchas neuronas, lo que permite una densidad de información que desafía nuestra forma de pensar (al menos la mía).

Este es quizás el aspecto más extraño de la "inteligencia" inherente al aprendizaje automático. Opera sobre una geometría que nuestras mentes tienen dificultad para comprender y permite una densidad de información que parece violar nuestras reglas de espacio y organización de la información.

Hallazgo n.° 6: aprender es, literalmente, como rodar cuesta abajo.

Al inicio del entrenamiento, los 175 mil millones de parámetros de un modelo como GPT-3 son aleatorios. Si se le pidiera generar texto, produciría únicamente caracteres incomprensibles. El proceso de aprendizaje es simplemente un método para corregir este desorden inicial.

Para ello, definimos una «función de coste»: un único valor que mide el rendimiento de la red en su tarea (por ejemplo, predecir correctamente la siguiente palabra). Este valor es el error medio del modelo en decenas de miles de ejemplos de entrenamiento. El objetivo del entrenamiento es sencillo: minimizar este valor.

descenso de gradiente

La técnica utilizada se llama "descenso de gradiente" y la mejor analogía es visual. Aquí tienes un ejemplo que recibí:

Imagina la función de coste como un paisaje montañoso, lleno de colinas y valles. El proceso de entrenamiento es como colocar una pelota en la cima de una colina y dejarla rodar hasta el valle más cercano. En cada paso, un algoritmo (retropropagación) calcula la dirección del descenso más pronunciado y ajusta ligeramente los 175 mil millones de parámetros en esa dirección para reducir el coste, es decir, para que la pelota ruede un poco más cuesta abajo.

Esta metáfora desmitifica el llamado "aprendizaje automático". En realidad, no hay comprensión , solo un proceso de optimización matemática que se repite billones de veces sobre un volumen masivo de datos. El algoritmo ajusta incansablemente los parámetros para encontrar un "valle" (un mínimo local) donde el rendimiento del modelo con los datos de entrenamiento es óptimo.

Así pues, la pregunta sigue en pie: ¿qué significa "entender" para un máster en Derecho (LLM)?

Comenzamos este artículo hablando de vectores estáticos, que son meros puntos de partida, y llegamos a un proceso dinámico de construcción de significado. Expliqué cómo «piensa» la IA mediante un intercambio de preguntas y respuestas, sumas de vectores y activadores lógicos, todo ello orquestado y ajustado por un proceso de optimización que se asemeja a una bola que rueda cuesta abajo.

Aunque al final de este artículo haya adquirido cierta mayor certeza, algunas ideas aún rondan mi cabeza: si el "significado" puede construirse mediante operaciones geométricas en un espacio de alta dimensión, y si el "aprendizaje" es simplemente la forma matemática de minimizar una función de error a una escala extrañamente colosal, ¿estamos a un solo error de cálculo del desastre total?

¿A esto le llamamos alucinar? Si es así, ¿alucinar es un error o simplemente algo esperable en el proceso de ir cuesta abajo?

Finalizo este texto prometiéndoles una segunda parte, en la que tal vez encuentren respuestas a estas preguntas que me he planteado.

Hola, soy Alexander Rodrigues Silva, especialista en SEO y autor del libro "SEO Semántico: Flujo de Trabajo Semántico". Llevo más de dos décadas trabajando en el mundo digital, centrándome en la optimización web desde 2009. Mis decisiones me han llevado a profundizar en la intersección entre la experiencia del usuario y las estrategias de marketing de contenidos, siempre con el objetivo de aumentar el tráfico orgánico a largo plazo. Mi investigación y especialización se centran en el SEO Semántico, donde investigo y aplico la semántica y los datos conectados a la optimización web. Es un campo fascinante que me permite combinar mi formación en publicidad con la biblioteconomía. En mi segunda titulación, en Biblioteconomía y Documentación, busco ampliar mis conocimientos en indexación, clasificación y categorización de la información, ya que veo una conexión intrínseca y una gran aplicación de estos conceptos al trabajo de SEO. He estado investigando y conectando herramientas de Biblioteconomía (como Análisis de Dominios, Vocabulario Controlado, Taxonomías y Ontologías) con nuevas herramientas de Inteligencia Artificial (IA) y Modelos de Lenguaje a Gran Escala (MLGE), explorando desde Grafos de Conocimiento hasta el papel de los agentes autónomos. Como consultor SEO, busco aportar una nueva perspectiva a la optimización, integrando una visión a largo plazo, la ingeniería de contenidos y las posibilidades que ofrece la inteligencia artificial. Para mí, el SEO es una estrategia que debe estar alineada con los objetivos de su negocio, pero requiere un profundo conocimiento del funcionamiento de los motores de búsqueda y la capacidad de interpretar los resultados de búsqueda.

Publicar comentario

Blog semántico
Resumen de privacidad

Este sitio web utiliza cookies para ofrecerle la mejor experiencia de usuario posible. La información de las cookies se almacena en su navegador y realiza funciones como reconocerle cuando regresa a nuestro sitio web y ayudar a nuestro equipo a comprender qué secciones del sitio web le resultan más interesantes y útiles.