La arquitectura BitNet revoluciona la IA compatible con CPU
Un grupo de investigadores ha logrado ejecutar un potente modelo de lenguaje de inteligencia artificial en una máquina con Windows 98. El equipo detrás del experimento es EXO Labs, formado por investigadores y ingenieros de la Universidad de Oxford.
EXO Labs ha demostrado que es posible ejecutar modelos de IA avanzados en hardware limitado, con la ayuda de la arquitectura BitNet. Esto apunta hacia un futuro donde la tecnología de IA será aún más accesible.
El experimento en detalle
En un video compartido en X, EXO Labs puso en marcha una antigua sistema Elonex Pentium II 350MHz con Windows 98. En lugar de usarlo para tareas simples, lo utilizaron para correr un modelo de IA basado en el código de Llama2.c de Andrej Karpathy.
La computadora logró generar una historia coherente a una velocidad notable, lo cual es difícil de conseguir con modelos de IA ejecutados localmente.
Desafíos técnicos
Además de la velocidad, el equipo tuvo que sortear otro obstáculo: hacer que el código moderno compile y funcione en un sistema operativo de 1998. A pesar de esto, consiguieron una performance sostenida de 39.31 tokens por segundo corriendo un modelo LLM basado en Llama con 260,000 parámetros.
Sin embargo, aumentar el tamaño del modelo redujo considerablemente el rendimiento. Por ejemplo, el modelo Llama 3.2 de 1 billón de parámetros apenas logró 0.0093 tokens por segundo en el hardware antiguo.
Objetivos y misión de EXO Labs
EXO Labs tiene la misión de desarrollar modelos de IA que puedan ejecutarse en dispositivos modestos, para democratizar el acceso a la IA y evitar el monopolio de unas pocas empresas de tecnología. Para esto, están desarrollando la arquitectura 'BitNet', que utiliza pesos ternarios para reducir drásticamente el tamaño del modelo.
BitNet: una arquitectura innovadora
La arquitectura BitNet permite que un modelo de 7 billones de parámetros necesite solo 1.38GB de almacenamiento, haciéndolo viable para ejecutarse en la mayoría de hardware económico. Además, BitNet está diseñada para ser CPU-first, evitando la necesidad de GPUs costosas.
Impresionantemente, puede aprovechar un modelo de 100 billones de parámetros en una sola CPU, manteniendo velocidades de lectura humana de 5-7 tokens por segundo.
Únete a la revolución de modelos locales
Si estás interesado en unirte a la revolución de modelos ejecutados localmente, EXO Labs está buscando colaboradores. Consulta el blog completo para obtener más detalles sobre la misión.