Saltar al contenido
Explicado Inteligencia artificial 19 min de lectura

Cómo procesan el lenguaje los ordenadores: La mecánica del procesamiento de lenguaje natural

Desde la tokenización hasta las capas de atención, el proceso de cinco etapas que transforma el texto en bruto en la salida de un modelo de lenguaje revela tanto la ingeniosidad de los modelos de lenguaje modernos como sus limitaciones fundamentales.

Este artículo fue traducido automáticamente del inglés por IA. Leer la versión original en inglés →
Visual representation of natural language processing mechanics showing data transformation
Modo de lectura

Cuando escribe una pregunta en ChatGPT o le pide a su teléfono que programe un temporizador, el software de procesamiento de texto convierte el lenguaje en representaciones legibles para máquinas. En los modelos de lenguaje modernos, esas representaciones se comparan con patrones aprendidos a partir de grandes corpus de texto para generar respuestas que pueden sonar humanas. Comprender la mecánica del procesamiento de lenguaje natural detrás de esta transformación revela tanto la ingeniosidad de la IA moderna como sus limitaciones fundamentales.

Este proceso puede entenderse a través de cinco etapas clave, cada una de las cuales resuelve un problema específico en la representación y transformación del lenguaje. Los sistemas modernos de transformadores no se construyen únicamente con reglas gramaticales codificadas a mano; aprenden patrones estadísticos a partir de enormes cantidades de texto.

Paso 1: La tokenización divide el texto en fragmentos

Los ordenadores no pueden procesar texto en bruto directamente. El primer paso en la mecánica del procesamiento de lenguaje natural es la tokenización: dividir una oración en unidades discretas llamadas tokens[s]. Un token puede ser una palabra completa, parte de una palabra o incluso un solo carácter, dependiendo del sistema.

Un enfoque común, el Byte Pair Encoding (BPE), surgió como técnica de compresión de datos antes de adaptarse para la tokenización en modelos de lenguaje[s]. El BPE comienza con bytes o caracteres y fusiona iterativamente los pares más frecuentes hasta alcanzar un tamaño de vocabulario objetivo.

Considere la oración «la infelicidad es común». El BPE podría dividir «infelicidad» en «in», «felicidad», o incluso «in», «feli», «cidad», dependiendo de qué patrones aparecieron con mayor frecuencia en los datos de entrenamiento. Esta flexibilidad permite a los modelos manejar palabras que nunca antes habían visto, descomponiéndolas en fragmentos conocidos.

La elección del vocabulario es crucial. Como señaló un grupo de investigación, el vocabulario «debe permitir la codificación de suficiente información semántica contenida en un texto para lograr las tareas de procesamiento de lenguaje natural que el modelo está diseñado para abordar»[s]. Un vocabulario demasiado pequeño fuerza divisiones poco naturales; uno demasiado grande desperdicia recursos computacionales en tokens raros.

Los espacios en blanco plantean un problema sorprendentemente complejo. Los hablantes de inglés asumen que los espacios separan las palabras de manera fiable, pero este supuesto falla en otros idiomas e incluso dentro del inglés. Expresiones multipalabra como «por cierto» o «motor de búsqueda» funcionan como unidades semánticas únicas[s]. El chino y el japonés a menudo no usan espacios entre palabras. Investigaciones recientes sobre tokenizadores de «superpalabras» que traspasan los límites de los espacios lograron reducir hasta un 33% el número de tokens en promedio, mejorando el rendimiento del modelo en un 4,0% en 30 tareas de referencia[s].

Paso 2: Los embeddings convierten tokens en vectores

Una vez tokenizado el texto, cada índice de token se asigna a un vector aprendido: una lista de números que el modelo utiliza para predecir y relacionar tokens[s]. Este paso de embedding es donde el lenguaje moldea la percepción del modelo. Los tokens utilizados en contextos similares suelen acabar en regiones cercanas del espacio de embedding.

Los grandes modelos de lenguaje modernos utilizan embeddings de miles de dimensiones. La versión de 70.000 millones de parámetros de Llama 3 usa vectores de 8.192 dimensiones; la versión de 27.000 millones de parámetros de Gemma 3 usa 5.376 dimensiones[s]. La representación en su conjunto captura características aprendidas, aunque los investigadores a menudo no pueden asignar un significado humano estable a ningún componente individual.

La posición y el contexto también importan. El mismo token puede aportar significados distintos en frases como «orilla del río» y «cuenta bancaria», y las capas de atención posteriores ayudan a desambiguarlo. Los primeros sistemas añadían información posicional directamente a los embeddings de tokens; arquitecturas modernas como Llama aplican la codificación posicional dentro del propio mecanismo de atención mediante una técnica llamada Rotary Positional Embeddings[s].

Paso 3: La atención permite la comunicación entre tokens

La mecánica del procesamiento de lenguaje natural de la atención representa «un cambio de paradigma fundamental en las arquitecturas de redes neuronales, que permite a los modelos enfocarse selectivamente en porciones relevantes de secuencias de entrada mediante funciones de ponderación aprendidas»[s]. Antes de los transformadores basados en atención, muchos modelos de secuencias procesaban el texto de manera secuencial, con dificultades para conectar palabras distantes en una oración.

La atención funciona como una consulta a una base de datos. Cada token genera tres elementos: una consulta (qué busca), una clave (qué ofrece) y un valor (la información que transporta). El sistema compara cada consulta con todas las claves, pondera los resultados y combina los valores correspondientes[s]. Al procesar la palabra «él» en «El gato se sentó en la alfombra porque él estaba cansado», la atención permite que «él» mire hacia atrás y determine que se refiere a «gato» en lugar de a «alfombra».

Los transformadores modernos utilizan «atención multi-cabeza», ejecutando múltiples operaciones de atención en paralelo. Cada cabeza puede enfocarse en diferentes relaciones: una podría rastrear la concordancia gramatical, otra la similitud semántica y una tercera los patrones posicionales. Las cabezas de atención «leen información del flujo residual de tokens anteriores a través de las proyecciones de consulta-clave, y luego escriben la información atendida de vuelta en la posición actual»[s].

El «flujo residual» merece mención aquí. Actúa como «la vía central de propagación de información», preservando un estado de memoria compartido que cada capa actualiza[s]. Las conexiones residuales también ayudan a que la información y los gradientes se muevan a través de redes profundas.

Paso 4: Las redes feed-forward almacenan conocimiento

Entre las capas de atención se encuentran las redes feed-forward (FFN), y los investigadores las consideran cada vez más como el almacenamiento de conocimiento del modelo. Las FFN «suelen conceptualizarse como memorias clave-valor, donde la primera capa proyecta el flujo hacia un estado de alta dimensionalidad (detectando patrones o ‘claves de conocimiento’) y la segunda capa escribe el conocimiento recuperado de vuelta al flujo»[s].

Cuando le pregunta a un modelo de lenguaje quién escribió Hamlet, el mecanismo de atención ayuda a representar las relaciones en la pregunta, mientras que las capas feed-forward suelen modelarse como el lugar donde se almacenan o recuperan hechos como que Shakespeare escribió Hamlet. Esta división del trabajo, atención para las relaciones y FFN para los hechos, ayuda a explicar por qué los modelos pueden ser sorprendentemente buenos en razonamiento mientras cometen errores fácticos (y viceversa).

Paso 5: Generación de salida

Después de pasar por la pila de capas de atención y FFN, el vector final se convierte de nuevo en una distribución de probabilidad sobre el vocabulario. El modelo asigna una probabilidad a cada posible token siguiente, desde palabras comunes hasta símbolos raros. Durante la generación, muestrea esta distribución (o elige la opción de mayor probabilidad) y repite todo el proceso para el siguiente token.

Esta generación auto-regresiva, que predice un token a la vez, explica tanto la fluidez como los modos de fallo de los modelos de lenguaje modernos. Cada predicción se condiciona a todos los tokens anteriores, manteniendo la coherencia en pasajes largos. Pero los errores se acumulan: un error temprano puede descarrilar toda una respuesta.

La mecánica del procesamiento de lenguaje natural: Los límites

Comprender esta mecánica del procesamiento de lenguaje natural revela limitaciones con las que los investigadores aún luchan a medida que los modelos escalan.

La atención tiene complejidad cuadrática: procesar una secuencia de longitud n requiere O(n²d) operaciones, donde d es la dimensión del embedding[s]. Duplicar la longitud del contexto cuadruplica esta parte del cómputo. Esta es una de las razones por las que el modelado de contexto largo sigue siendo computacionalmente costoso, y por las que los investigadores continúan buscando variantes de «atención eficiente».

Más preocupante desde el punto de vista filosófico: estos sistemas siguen siendo cajas negras. «Nuestra comprensión teórica de los LLM sigue siendo desproporcionadamente incipiente, lo que obliga a tratar estos sistemas en gran medida como cajas negras. Funcionan excepcionalmente bien, pero sus mecanismos internos de operación, el cómo y el porqué de su eficacia, siguen siendo esquivos»[s].

Algunos investigadores han explorado si los modelos de lenguaje desarrollan algo similar a la teoría de la mente, la capacidad de modelar lo que otros saben y creen, una habilidad que surge en los niños humanos alrededor de los cuatro años. Las pruebas siguen siendo mixtas; los modelos pueden superar algunas pruebas de teoría de la mente mientras fallan en otras de maneras que sugieren dependencia de patrones superficiales en lugar de un razonamiento similar al humano[s].

Quizá lo más sorprendente es que los modelos de lenguaje tienen dificultades con la gramaticalidad de maneras que sus salidas fluidas ocultan. «Los modelos de lenguaje no están diseñados para asignar categóricamente probabilidades más bajas a oraciones agramaticales que a gramaticales; las probabilidades de los modelos de lenguaje suelen ser malas para distinguir entre oraciones gramaticales y agramaticales»[s]. Pueden producir texto gramatical aunque sus probabilidades brutas no sean un test fiable de gramaticalidad.

Investigaciones recientes del MIT descubrieron que los modelos sí codifican información gramatical, pero no en sus probabilidades de salida. «Los modelos de lenguaje adquieren hasta cierto punto una distinción implícita de gramaticalidad dentro de sus capas ocultas», accesible mediante sondas especializadas pero no a través del proceso de generación estándar[s].

El problema de la inteligencia emergente

A medida que escalan, algunas capacidades y modos de fallo se vuelven más marcados o adoptan nuevas formas: aprendizaje en contexto, comportamiento según leyes de escalado y repentinos «momentos eureka» durante el entrenamiento. Las alucinaciones, en particular, no son exclusivas de los modelos grandes; aparecen en los sistemas neuronales de generación de texto en general, pero adoptan nuevas formas a gran escala[s]. Estos «fenómenos emergentes» resisten la predicción y la explicación, apareciendo en umbrales de escala que los investigadores no pueden pronosticar con fiabilidad.

La composición de los datos moldea estas capacidades de maneras que los investigadores apenas comienzan a entender. Los modelos entrenados con mezclas de texto web, libros, código y artículos científicos superan a aquellos entrenados con un solo tipo de fuente[s]. Por qué los datos de entrenamiento diversos producen modelos más capaces sigue siendo una pregunta abierta, aunque probablemente esté relacionado con la transferencia de patrones de razonamiento entre dominios.

Resultados generales de computabilidad como el teorema de Rice limitan lo que puede demostrarse automáticamente sobre el comportamiento de programas arbitrarios[s]. Los sistemas neuronales abiertos heredan una versión de ese problema. La verificación práctica puede demostrar propiedades acotadas, pero no puede verificar matemáticamente que un modelo de lenguaje nunca alucinará, nunca producirá contenido dañino o nunca fallará en aplicaciones críticas para la seguridad[s].

Qué significa esto

La mecánica del procesamiento de lenguaje natural descrita aquí representa una apuesta específica: que los patrones estadísticos sobre tokens pueden sustituir grandes cantidades de ingeniería lingüística explícita. Esta apuesta ha dado resultados notablemente buenos. Los modelos entrenados para predecir la siguiente palabra han aprendido comportamientos consistentes con la gramática, los hechos, los patrones de razonamiento y las convenciones estilísticas, todo ello sin instrucción explícita en cada uno de ellos.

Pero los mecanismos siguen siendo ajenos al procesamiento humano del lenguaje. Nosotros no pensamos en pesos de atención o activaciones feed-forward. La convergencia en capacidades, sistemas de IA que producen lenguaje similar al humano, no implica convergencia en el mecanismo. Comprender la mecánica del procesamiento de lenguaje natural detrás de estos sistemas nos ayuda a apreciar tanto sus logros como sus limitaciones inherentes.

Los modelos de lenguaje modernos transforman el texto en representaciones continuas mediante una secuencia de transformaciones aprendidas: tokenización, embedding, atención, redes feed-forward y proyección de salida. Cada etapa implementa sesgos inductivos específicos que permiten el modelado estadístico del lenguaje a escala. La mecánica del procesamiento de lenguaje natural subyacente a estas transformaciones determina tanto las capacidades como los modos de fallo de los sistemas basados en transformadores.

Tokenización: Descomposición en subpalabras

La mecánica del procesamiento de lenguaje natural comienza con la tokenización, que convierte secuencias de caracteres o bytes en tokens discretos de un vocabulario fijo. Los sistemas contemporáneos suelen utilizar tokenización de subpalabras, a menudo Byte Pair Encoding (BPE) o variantes como WordPiece. Como señala el artículo SuperBPE, los tokenizadores «segmentan un flujo de bytes en una secuencia de tokens del vocabulario del modelo de lenguaje»[s].

El BPE surgió como algoritmo de compresión de datos y se adaptó para el procesamiento de lenguaje natural; el artículo SuperBPE señala que «El algoritmo se originó en 1994 en el campo de la compresión de datos»[s]. En el entrenamiento estándar de BPE, se registran las frecuencias de pares de tokens vecinos, se fusiona el par más frecuente en un nuevo token y el proceso se repite hasta alcanzar el tamaño de vocabulario objetivo.

La selección del vocabulario implica compensaciones. El vocabulario «debe permitir la codificación de suficiente información semántica contenida en un texto para lograr, dado un modelo, las tareas de procesamiento de lenguaje natural que este modelo está diseñado para abordar»[s]. Vocabularios más grandes reducen la longitud de las secuencias, pero aumentan los parámetros de embedding y la escasez de la cola larga.

El BPE estándar impone límites de espacios en blanco, evitando tokens que abarquen límites de palabras. Este supuesto falla en idiomas sin delimitadores de espacios en blanco. «El espacio en blanco no es un delimitador fiable de significado, como demuestran las expresiones multipalabra (por ejemplo, by the way), la variación intercultural en el número de palabras necesarias para expresar un concepto y los idiomas que no utilizan espacios en absoluto»[s].

Trabajos recientes sobre SuperBPE relajan la restricción de subpalabras mediante un currículo: primero aprenden subpalabras con pretokenización basada en espacios en blanco, y luego aprenden superpalabras sin ella. Esto logra «hasta un 33% menos de tokens en promedio que el BPE», mejorando el rendimiento en tareas posteriores en un 4,0% en 30 tareas de referencia y reduciendo el cómputo de inferencia entre un 27% y un 33%[s]. Las ganancias en eficiencia derivan de capturar expresiones multipalabra como tokens únicos: «Los tokens de SuperBPE suelen corresponder a expresiones multipalabra en inglés, es decir, secuencias de palabras que funcionan como una sola unidad semántica»[s].

Embedding: Asignación de token a vector

«Los métodos modernos de procesamiento de lenguaje natural basados en mecanismos de atención procesan la información textual no en forma de cadenas de caracteres, sino como secuencias de vectores»[s]. La capa de embedding asigna cada índice de token a un vector aprendido. Los modelos contemporáneos utilizan embeddings de alta dimensionalidad: Llama 3 70B usa d=8192, Gemma 3 27B usa d=5376[s].

La codificación posicional aborda la equivarianza por permutación de la autoatención. «Se demuestra la propiedad de equivarianza por permutación de la autoatención, y se examinan a fondo sus implicaciones para la codificación posicional»[s]. Sin información posicional, el modelo no puede distinguir «el perro muerde al hombre» de «el hombre muerde al perro». Los primeros transformadores añadían embeddings posicionales sinusoidales en la entrada; arquitecturas modernas como Llama utilizan Rotary Positional Embeddings (RoPE), aplicando rotaciones dependientes de la posición a los vectores de consulta y clave dentro de la atención.

Comprender cómo la geometría del embedding se relaciona con la semántica sigue siendo un área activa de investigación. Cómo el lenguaje moldea la percepción a nivel de embedding, si embeddings similares reflejan significados similares en términos humanos, plantea preguntas complejas sobre la relación entre la coocurrencia estadística y la semántica genuina.

Atención: Enrutamiento de información basado en contenido

«Los mecanismos de atención representan un cambio de paradigma fundamental en las arquitecturas de redes neuronales, permitiendo a los modelos enfocarse selectivamente en porciones relevantes de secuencias de entrada mediante funciones de ponderación aprendidas»[s]. La atención de producto escalado calcula:

Atención(Q, K, V) = softmax(QKᵀ / √dₖ) V

donde Q, K, V son las proyecciones de consulta, clave y valor de la entrada, y dₖ es la dimensión de la clave.

«Los mecanismos de atención, los bloques fundamentales de la arquitectura Transformer, permiten la codificación de información semántica entre tokens a través de una estructura similar a una base de datos. De hecho, una base de datos puede verse como un conjunto de tuplas (clave, valor), de modo que cuando enviamos una consulta q a la base de datos, esta devuelve el valor v asociado a la tupla cuya clave coincide con la consulta»[s].

La atención multi-cabeza ejecuta H operaciones de atención en paralelo con proyecciones aprendidas separadas, concatenando y proyectando los resultados. Esto permite que diferentes cabezas se especialicen en distintos tipos de relaciones. «Las cabezas de atención leen información del flujo residual de tokens anteriores a través de las proyecciones de consulta-clave, y luego escriben la información atendida de vuelta en la posición actual mediante las proyecciones de valor y salida»[s].

La arquitectura de flujo residual, donde cada capa añade su salida a una suma acumulativa, permite el flujo de gradientes y la construcción de características composicionales. «El flujo residual actúa como la vía central de propagación de información. Preserva un estado de memoria compartido que se actualiza iterativamente mediante los bloques»[s].

La complejidad computacional es O(n²d) para una longitud de secuencia n y dimensión d[s]. Este escalado cuadrático con la longitud de la secuencia sigue siendo un cuello de botella importante para el modelado de contexto largo y ha motivado una extensa investigación en variantes de atención dispersa y lineal.

Redes feed-forward: Recuperación de conocimiento activada por patrones

Cada bloque de transformador intercala atención con una red feed-forward posicional. «Las redes feed-forward suelen conceptualizarse como memorias clave-valor, donde la primera capa proyecta el flujo hacia un estado de alta dimensionalidad (detectando patrones o ‘claves de conocimiento’) y la segunda capa escribe el conocimiento recuperado de vuelta al flujo»[s].

La FFN estándar aplica:

FFN(x) = W₂ * activación(W₁ * x)

con la dimensión intermedia a menudo mayor que la dimensión del modelo en formulaciones estándar de tipo Transformer. Variantes modernas como SwiGLU añaden mecanismos de compuerta. La primera proyección puede interpretarse como la comparación de patrones de entrada con «claves de conocimiento» aprendidas; la segunda proyección recupera el conocimiento asociado.

Este marco sugiere que la atención maneja el cómputo de relaciones mientras que las FFN almacenan conocimiento factual, aunque en la práctica la frontera es difusa. La investigación en interpretabilidad mecánica intenta localizar hechos específicos en neuronas concretas, con resultados mixtos.

La mecánica del procesamiento de lenguaje natural: Limitaciones fundamentales

A pesar del éxito empírico, «nuestra comprensión teórica de los LLM sigue siendo desproporcionadamente incipiente, lo que obliga a tratar estos sistemas en gran medida como cajas negras. Funcionan excepcionalmente bien, pero sus mecanismos internos de operación, el cómo y el porqué de su eficacia, siguen siendo esquivos»[s].

Varios fenómenos emergentes resisten la explicación teórica: «Los LLM exhiben numerosos fenómenos emergentes que no aparecen en modelos más pequeños, como alucinaciones, aprendizaje en contexto (ICL), leyes de escalado y repentinos ‘momentos eureka’ durante el entrenamiento»[s]. Estas capacidades pueden ser difíciles de predecir a partir de modelos más pequeños.

La composición de los datos importa. «Los modelos entrenados con una mezcla cuidadosamente seleccionada de datos de múltiples fuentes (por ejemplo, texto web, libros, código, artículos científicos) superan consistentemente a aquellos entrenados con corpus monolíticos»[s]. La justificación teórica de la eficacia de las mezclas sigue siendo incompleta.

La gramaticalidad presenta una brecha sorprendente. «Los modelos de lenguaje no están diseñados para asignar categóricamente probabilidades más bajas a oraciones agramaticales que a gramaticales; las probabilidades de los modelos de lenguaje suelen ser malas para distinguir entre oraciones gramaticales y agramaticales»[s]. Los modelos pueden generar texto fluido aunque la probabilidad bruta de la cadena no sea un juicio fiable de gramaticalidad.

Experimentos de sondeo revelan conocimiento gramatical implícito. «Una sonda lineal entrenada con datos de perturbación sintética puede superar los juicios de gramaticalidad basados en probabilidad tanto en pares mínimos como en benchmarks de juicio de gramaticalidad no basados en pares mínimos»[s]. La distinción de gramaticalidad existe en las representaciones ocultas incluso cuando está ausente en las probabilidades de salida: «Los modelos de lenguaje adquieren hasta cierto punto una distinción implícita de gramaticalidad dentro de sus capas ocultas»[s].

Algunos investigadores exploran si los modelos de lenguaje desarrollan teoría de la mente, la capacidad de modelar las creencias y estados de conocimiento de otros. Las pruebas son mixtas; los modelos superan algunas pruebas de falsa creencia mientras fallan en otras, lo que sugiere que podrían estar explotando correlaciones superficiales en lugar de poseer una atribución genuina de estados mentales[s].

La verificación formal puede demostrar propiedades acotadas de sistemas particulares, pero límites generales de computabilidad como el teorema de Rice impiden demostraciones automáticas del comportamiento de programas arbitrarios[s]. Los modelos de lenguaje abiertos heredan una versión de ese límite: no podemos verificar matemáticamente que un modelo nunca alucinará, nunca producirá resultados dañinos o siempre razonará correctamente[s].

El camino a seguir

La mecánica del procesamiento de lenguaje natural descrita aquí encarna una hipótesis específica: que la predicción auto-regresiva sobre tokens, escalada suficientemente, puede producir un comportamiento lingüístico útil. La hipótesis ha demostrado ser notablemente productiva, dando lugar a sistemas que superan exámenes profesionales, escriben código funcional y mantienen diálogos extendidos.

Sin embargo, persiste la brecha entre la capacidad empírica y la comprensión teórica. Podemos describir qué calcula la atención, pero no por qué emergen patrones de atención específicos. Podemos medir que las mezclas de datos mejoran el rendimiento, pero no derivar proporciones óptimas de mezcla a partir de primeros principios. La mecánica del procesamiento de lenguaje natural de los transformadores está bien especificada matemáticamente, pero sigue siendo opaca como sistemas cognitivos o lingüísticos.

¿Qué te ha parecido este artículo?
Compartir este artículo

¿Has visto un error? Avísanos

Fuentes