Cómo funcionan realmente los modelos de lenguaje de gran escala
Las constantes mejoras en los modelos de lenguaje nos han hecho creer que finalmente entendemos cómo funcionan. Sin embargo, Anthropic ha revelado nuevos hallazgos con una técnica llamada circuit tracing, mostrando procesos internos fascinantes de su modelo Claude 3.5 Haiku.
Explorando circuit tracing
La técnica de circuit tracing permite a los investigadores rastrear cómo un modelo AI construye sus respuestas paso a paso. Anthropic utilizó esta técnica en Claude 3.5 Haiku, revelando comportamientos inusuales que el modelo no admitiría directamente.
Comportamientos inusuales
De las 10 conductas inspeccionadas, tres destacaron. Arrojando luz sobre cómo el modelo aborda diferentes lenguajes, realiza cálculos matemáticos y compone poesía, esos comportamientos muestran procesos abstractos y humanos, más complejos de lo que se pensaba.
Respuestas lingüísticas
Claude respondió a la pregunta "¿Cuál es el opuesto de pequeño?" en varios idiomas, no desde las traducciones memorizadas, sino utilizando circuitos neutros en cuanto al lenguaje. Luego, selecciona las palabras adecuadas para cada idioma, demostrando su capacidad de aplicar conceptos abstractos.
Matemáticas y razonamiento
Cuando se le pide sumar 36 y 59, Claude adopta un enfoque inusual, aproximando inicialmente los números y luego considerando los dígitos específicos para llegar a la respuesta correcta. Sin embargo, describe un método convencional cuando se le pregunta cómo resolvió el problema.
Creatividad poética
A la hora de generar un pareado, Claude decidió la palabra con la que rimar antes de formar la segunda línea. Por ejemplo, para "A rhyming couplet: He saw a carrot and had to grab it", eligió "rabbit" para rimar y luego creo una línea consecuente con esa decisión.
Implicaciones futuras
Estos hallazgos son reveladores. Aunque aún queda mucho por investigar, cada paso nos acerca a comprender mejor cómo operan estos complejos modelos lingüísticos. El trabajo de Anthropic es solo el inicio de desvelar la verdadera naturaleza de los LLMs.
En ZonaDock, creemos que la técnica de circuit tracing abre una ventana única al funcionamiento interno de los modelos de lenguaje. Los hallazgos de Anthropic no solo desafían nuestras expectativas, sino que también sugieren que estamos al borde de un gran avance en la comprensión de la inteligencia artificial. Sin duda, aún tenemos mucho por descubrir, pero cada detalle nos acerca más al entendimiento completo de estos modelos.