Simbólico
En el campo de la Inteligencia Artificial y el Procesamiento del Lenguaje Natural ( PLN un token es la unidad fundamental de texto que un modelo de lenguaje utiliza para procesar y comprender la información . Antes de que un de IA pueda «leer» o «escribir» texto, pasa por un proceso llamado tokenización , en el cual la secuencia de texto sin procesar se segmenta en fragmentos más pequeños y manejables. Estos fragmentos son los tokens. Contrariamente a la creencia popular, un token no es necesariamente una palabra completa; puede ser una palabra, un carácter, un signo de puntuación
La principal característica de los sistemas de IA modernos, como Gemini , Claude y GPT, es el uso de la tokenización de subpalabras. En lugar de tratar cada palabra como un elemento individual, este enfoque las descompone en componentes de significado de uso frecuente. Por ejemplo, la palabra «restart» podría descomponerse en los tokens «re», «start» y «ar». Esta técnica es extremadamente eficiente porque permite al modelo manejar un vocabulario , incluyendo palabras poco comunes, neologismos o errores tipográficos, manteniendo un diccionario de tokens manejable y de tamaño fijo. Este proceso permite a la IA reconocer relaciones morfológicas entre palabras (como la relación entre «run», «running» y «race»).
En los modelos de lenguaje a gran escala ( LLM ), los tokens son la unidad de procesamiento de la información. Tras la tokenización, cada token se convierte en una representación (un de incrustación ) que la máquina utiliza para realizar cálculos matemáticos. Mediante el análisis de las relaciones entre estos vectores, el modelo aprende patrones, contexto , matices y la semántica del lenguaje, lo que le permite realizar tareas como responder preguntas, traducir idiomas, resumir textos extensos y generar contenido . La forma en que un texto se divide en tokens viene definida por el tokenizador específico de cada modelo.
Fuentes:
- Google AI para desarrolladores. Introducción a los modelos de lenguaje grandes > Tokens. Disponible en: https://ai.google.dev/docs/llm_tutorial . Consultado el 26 de septiembre de 2025.
- Hugging Face. ¿Qué es un tokenizador? Disponible en: https://huggingface.co/docs/transformers/main/en/tokenizer_summary . Consultado el 26 de septiembre de 2025.
- OpenAI. ¿Qué son los tokens y cómo se contabilizan? Disponible en: https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them . Consultado el 26 de septiembre de 2025.
- Universidad de Stanford. Tokenización | CS224N: Procesamiento del Lenguaje Natural con Aprendizaje Profundo. Disponible en: https://web.stanford.edu/class/cs224n/readings/cs224n-2019-notes02-wordvecs1.pdf . Consultado el 26 de septiembre de 2025.




Publicar comentario