El misterio de los LLMs: ¿Predican palabras o algo más?

Cómo funcionan realmente los modelos de lenguaje de gran escala

Las constantes mejoras en los modelos de lenguaje nos han hecho creer que finalmente entendemos cómo funcionan. Sin embargo, Anthropic ha revelado nuevos hallazgos con una técnica llamada circuit tracing, mostrando procesos internos fascinantes de su modelo Claude 3.5 Haiku.

Explorando circuit tracing

La técnica de circuit tracing permite a los investigadores rastrear cómo un modelo AI construye sus respuestas paso a paso. Anthropic utilizó esta técnica en Claude 3.5 Haiku, revelando comportamientos inusuales que el modelo no admitiría directamente.

El misterio de los LLMs

Comportamientos inusuales

De las 10 conductas inspeccionadas, tres destacaron. Arrojando luz sobre cómo el modelo aborda diferentes lenguajes, realiza cálculos matemáticos y compone poesía, esos comportamientos muestran procesos abstractos y humanos, más complejos de lo que se pensaba.

Respuestas lingüísticas

Claude respondió a la pregunta "¿Cuál es el opuesto de pequeño?" en varios idiomas, no desde las traducciones memorizadas, sino utilizando circuitos neutros en cuanto al lenguaje. Luego, selecciona las palabras adecuadas para cada idioma, demostrando su capacidad de aplicar conceptos abstractos.

Matemáticas y razonamiento

Cuando se le pide sumar 36 y 59, Claude adopta un enfoque inusual, aproximando inicialmente los números y luego considerando los dígitos específicos para llegar a la respuesta correcta. Sin embargo, describe un método convencional cuando se le pregunta cómo resolvió el problema.

Creatividad poética

A la hora de generar un pareado, Claude decidió la palabra con la que rimar antes de formar la segunda línea. Por ejemplo, para "A rhyming couplet: He saw a carrot and had to grab it", eligió "rabbit" para rimar y luego creo una línea consecuente con esa decisión.

Implicaciones futuras

Estos hallazgos son reveladores. Aunque aún queda mucho por investigar, cada paso nos acerca a comprender mejor cómo operan estos complejos modelos lingüísticos. El trabajo de Anthropic es solo el inicio de desvelar la verdadera naturaleza de los LLMs.

En ZonaDock, creemos que la técnica de circuit tracing abre una ventana única al funcionamiento interno de los modelos de lenguaje. Los hallazgos de Anthropic no solo desafían nuestras expectativas, sino que también sugieren que estamos al borde de un gran avance en la comprensión de la inteligencia artificial. Sin duda, aún tenemos mucho por descubrir, pero cada detalle nos acerca más al entendimiento completo de estos modelos.

1 Like

¿Cómo se logra que los modelos se expresen con tanta precisión en distintos idiomas?