OLMo 2: Modelos de lenguaje abiertos que desafían los límites

AYR · 3 Diciembre, 2024 08:49

El avance revolucionario en modelos de lenguaje abiertos

Ai2 presenta OLMo 2, con versiones disponibles en 7B y 13B parámetros. Estos modelos demuestran un rendimiento comparable o superior a los modelos totalmente abiertos y competitivos en benchmarks académicos en inglés.

OLMo 2 de Ai2 establece un nuevo estándar en el desarrollo de IA de código abierto. La transparencia y el rendimiento de estos modelos fomentan la innovación continua en el campo de la IA.

Innovaciones en el entrenamiento

El equipo de desarrollo implementó varias mejoras técnicas, como la estabilidad mejorada en el entrenamiento, enfoque por etapas y metodologías avanzadas posentrenamiento del marco Tülu 3. Se destacan cambios como el paso de norm de capa no paramétrica a RMSNorm y la implementación de codificación posicional rotatoria.

Dos etapas en el proceso de entrenamiento

La primera etapa utilizó el dataset OLMo-Mix-1124 con aproximadamente 3.9 billones de tokens. La segunda etapa incorporó una mezcla seleccionada de datos web de alta calidad y contenido específico del dominio a través del dataset Dolmino-Mix-1124.

El modelo OLMo 2-Instruct-13B

Destaca como el modelo más capaz de la serie. Su rendimiento superior se evidencia en comparaciones con Qwen 2.5 14B instruct, Tülu 3 8B y Llama 3.1 8B instruct en diversos benchmarks.

Compromiso con la ciencia abierta

Ai2 ha liberado documentación exhaustiva incluyendo pesos, datos, código, recetas, checkpoints intermedios y modelos afinados por instrucciones. Esta transparencia permite la inspección y reproducción completa de resultados por parte de la comunidad de IA.

Sistema de evaluación OLMES

La versión también introduce el sistema de evaluación OLMES con 20 benchmarks diseñados para evaluar capacidades centrales como el recuerdo de conocimientos, razonamiento de sentido común y razonamiento matemático.

Más info: https://allenai.org/olmo

ajjosue_33 · 4 Diciembre, 2024 14:09

¿Qué tipo de benchmarks académicos se utilizaron para evaluar el rendimiento de OLMo 2? ¿Se han publicado los resultados detallados de estas evaluaciones?

drones-argentina · 10 Diciembre, 2024 11:23

En el desarrollo de apps, la estabilidad en el entrenamiento es clave. Implementar técnicas como el enfoque por etapas y métodos avanzados de posentrenamiento puede marcar una gran diferencia en la calidad del modelo final.

pspbenja · 14 Diciembre, 2024 02:23

¿En qué benchmarks académicos se comparó a OLMo 2 con los modelos totalmente abiertos y competitivos?

puraolimpiareyesgonzales · 20 Diciembre, 2024 11:23

¿Qué tipo de datos específicos se utilizaron en el dataset Dolmino-Mix-1124 para la segunda etapa de entrenamiento?

martinlamomtangna · 30 Diciembre, 2024 23:21

¡Increíble! OLMo 2 supera a modelos cerrados en benchmarks. La transparencia en el entrenamiento y el enfoque por etapas son claves para este avance en IA de código abierto.

carlos-ms8xq · 12 Enero, 2025 20:21

Otro modelo de lenguaje que pretende ser “revolucionario” . A ver si este se diferencia en algo del resto, porque la verdad, ya me aburre este “avance” constante que no lleva a nada nuevo.

fernandoczt2004 · 12 Enero, 2025 20:23

¿Cómo se seleccionó el dataset Dolmino-Mix-1124 y qué criterios se utilizaron para determinar su calidad?

luisaleon6834 · 29 Enero, 2025 23:24

¡Es increíble ver a OLMo 2 superar a modelos cerrados en benchmarks! El código abierto impulsa la innovación.

user-fm6jh8tl9u · 24 Marzo, 2025 08:21

¿Cómo se compara OLMo 2 con modelos multilingües de código abierto?

silvana7696 · 26 Marzo, 2025 08:24

¡Ojalá OLMES se amplíe a otros idiomas!

tecnologiaemergente · 26 Marzo, 2025 23:21

Es admirable el compromiso con la ciencia abierta, pero sería aún mejor con benchmarks multilingües y acceso a los datos de entrenamiento.

ito2913 · 11 Abril, 2025 16:22

¿Qué impacto tendrá OLMo 2 en modelos de lenguaje cerrados?

leandro9308 · 8 Mayo, 2025 16:22

¡Increíble avance en IA abierta! OLMo 2 con su rendimiento comparable a modelos cerrados y la transparencia de Ai2 son una gran noticia para la innovación.

omegamersan · 15 Mayo, 2025 22:25

¿Qué impacto tendrá OLMo 2 en el desarrollo de la IA de código abierto?

ajjosue53 · 28 Mayo, 2025 01:25

¡OLMo 2 es una revolución! Demuestra que la IA abierta puede ser líder