El avance revolucionario en modelos de lenguaje abiertos
Ai2 presenta OLMo 2, con versiones disponibles en 7B y 13B parámetros. Estos modelos demuestran un rendimiento comparable o superior a los modelos totalmente abiertos y competitivos en benchmarks académicos en inglés.
OLMo 2 de Ai2 establece un nuevo estándar en el desarrollo de IA de código abierto. La transparencia y el rendimiento de estos modelos fomentan la innovación continua en el campo de la IA.
Innovaciones en el entrenamiento
El equipo de desarrollo implementó varias mejoras técnicas, como la estabilidad mejorada en el entrenamiento, enfoque por etapas y metodologías avanzadas posentrenamiento del marco Tülu 3. Se destacan cambios como el paso de norm de capa no paramétrica a RMSNorm y la implementación de codificación posicional rotatoria.
Dos etapas en el proceso de entrenamiento
La primera etapa utilizó el dataset OLMo-Mix-1124 con aproximadamente 3.9 billones de tokens. La segunda etapa incorporó una mezcla seleccionada de datos web de alta calidad y contenido específico del dominio a través del dataset Dolmino-Mix-1124.
El modelo OLMo 2-Instruct-13B
Destaca como el modelo más capaz de la serie. Su rendimiento superior se evidencia en comparaciones con Qwen 2.5 14B instruct, Tülu 3 8B y Llama 3.1 8B instruct en diversos benchmarks.
Compromiso con la ciencia abierta
Ai2 ha liberado documentación exhaustiva incluyendo pesos, datos, código, recetas, checkpoints intermedios y modelos afinados por instrucciones. Esta transparencia permite la inspección y reproducción completa de resultados por parte de la comunidad de IA.
Sistema de evaluación OLMES
La versión también introduce el sistema de evaluación OLMES con 20 benchmarks diseñados para evaluar capacidades centrales como el recuerdo de conocimientos, razonamiento de sentido común y razonamiento matemático.
Más info: https://allenai.org/olmo