Tuesday, 09 de December de 2025
Tecnología

La élite de los modelos abiertos hablaba en chino. Mistral acaba de situar a Europa en un nivel que ni EEUU logró alcanzar

La élite de los modelos abiertos hablaba en chino. Mistral acaba de situar a Europa en un nivel que ni EEUU logró alcanzar
Artículo Completo 972 palabras
Durante el último año, la élite de los modelos abiertos para programación asistida, al menos en benchmarks como SWE-Bench Verified, ha hablado con acento chino. Nombres como DeepSeek, Kimi o Qwen se habían instalado en los puestos más altos de las pruebas y marcaban el ritmo en las tareas complejas de ingeniería de software, mientras Europa buscaba todavía su posición. La llegada de Devstral 2 altera ese reparto. No desplaza a quienes ya estaban arriba, pero sitúa a Mistral en el mismo nivel de exigencia y convierte a una compañía europea en aspirante real en un terreno que hasta ahora parecía reservado a otros. Cambio de liga: el salto técnico que llevaba tiempo gestándose. Durante los últimos meses, los modelos abiertos desarrollados en Europa y Estados Unidos habían mostrado una evolución constante, aunque aún sin el rendimiento necesario para competir en las pruebas más exigentes. El progreso era evidente, pero faltaba un proyecto capaz de consolidarlo en un nivel superior y demostrar que ese camino podía dar resultados comparables a los referentes del sector. Devstral 2 en datos: rendimiento, tamaño y licencias. El nuevo modelo de Mistral alcanza los 123B parámetros en una arquitectura densa y ofrece un contexto ampliado de 256K tokens, acompañado de una licencia MIT modificada que facilita su adopción en entornos abiertos. Su versión compacta, Devstral Small 2, reduce el modelo a 24B parámetros bajo licencia Apache 2.0. En las cifras de SWE-Bench Verified publicadas por la compañía, Devstral 2 obtiene un 72,2%, una marca que lo sitúa en el tramo más competitivo de los modelos abiertos evaluados y que confirma su presencia entre las alternativas más avanzadas del segmento. La refleja un panorama concentrado en la parte alta del benchmark. Entre los modelos abiertos, DeepSeek V3.2 encabeza el conjunto con un 73,1%, seguido por Kimi K2 Thinking con un 71,3% y por propuestas como Qwen 3 Coder Plus y Minimax M2, que se sitúan en el entorno de los 69 puntos. En niveles inferiores aparecen GLM 4.6, GPT-OSS-120B, CWM y DeepSWE, con resultados más moderados. En el ámbito comercial cerrado (modelos propietarios), el gráfico incorpora puntuaciones superiores: Gemini 3 Pro alcanza un 76,2%, GPT 5.1 Codex Max sube hasta el 77,9% y Claude Sonnet 4.5 firma un 77,2%, todos ellos por encima de las mejores marcas registradas por los modelos abiertos. Qué mide realmente SWE-Bench Verified y por qué importa. SWE-Bench Verified es una prueba diseñada para evaluar si un modelo puede resolver tareas reales de programación, no ejercicios sintéticos. Cada caso presenta un error en un repositorio de código abierto y exige un parche que haga pasar las pruebas antes fallidas. La evaluación busca medir si el sistema entiende la estructura del proyecto, identifica la causa del problema y propone una solución coherente. Es una métrica útil y exigente, aunque limitada a repositorios en Python y a un conjunto concreto de situaciones que no cubren toda la amplitud del trabajo en software. De copilotos a agentes que actúan sobre el proyecto. La llegada de Devstral 2 coincide con un cambio más amplio en la forma de trabajar con herramientas de programación. Ya no se trata solo de recibir sugerencias en el editor, sino de contar con agentes capaces de explorar un repositorio completo, interpretar su estructura y proponer cambios coherentes con su estado real. En ese contexto aparece Vibe CLI, una herramienta que permite a Devstral analizar archivos, modificar partes del código y ejecutar acciones directamente desde la terminal, acercando estas capacidades al flujo de trabajo cotidiano de los desarrolladores. Coste y despliegue: qué puede hacer cada tipo de usuario con Devstral. El modelo estará disponible de forma gratuita durante un periodo inicial y después pasará a costar 0,40 dólares por millón de tokens de entrada y 2,00 dólares por millón de salida, mientras que la versión Small 2 tendrá un precio inferior. Su despliegue también marca diferencias: Devstral 2 requiere al menos cuatro GPU de clase H100, orientadas a centros de datos, mientras que Devstral Small 2 está pensado para ejecutarse en una única GPU y, según la documentación de Mistral, la familia Devstral Small también puede funcionar en configuraciones solo con CPU, sin GPU dedicada. Esta variedad permite que tanto empresas como desarrolladores individuales encuentren un punto de entrada adecuado. En Xataka Hace un cuarto de siglo un estudiante unió 32 tarjetas gráficas GeForce para jugar a Quake III. De allí salió CUDA La aparición de Devstral 2 introduce un elemento inesperado en un espacio donde las compañías chinas marcaban el paso y donde ni siquiera Estados Unidos, pese a su liderazgo en inteligencia artificial, contaba con un modelo abierto en esta franja alta de rendimiento en SWE-Bench Verified. Mistral no desplaza a quienes ya estaban arriba, pero sí amplía la conversación y demuestra que Europa puede competir en un terreno donde hasta ahora no figuraba. Es un movimiento que no altera la jerarquía general, aunque sí abre un margen nuevo para la evolución de las herramientas de programación asistida. Imágenes | Xataka con Gemini 3 En Xataka | OpenAI y Google niegan que vayan a meter anuncios en ChatGPT y Gemini. La realidad es que las cuentas no salen sólo con suscripciones - La noticia La élite de los modelos abiertos hablaba en chino. Mistral acaba de situar a Europa en un nivel que ni EEUU logró alcanzar fue publicada originalmente en Xataka por Javier Marquez .
La élite de los modelos abiertos hablaba en chino. Mistral acaba de situar a Europa en un nivel que ni EEUU logró alcanzar
  • La franja alta de los modelos abiertos estaba dominada por compañías chinas

  • Devstral 2 posiciona a Europa en un tramo donde EEUU no figura

  • La brecha con los modelos comerciales sigue ahí, pero el mapa acaba de cambiar

Sin comentariosFacebookTwitterFlipboardE-mail 2025-12-09T18:46:13Z

Javier Marquez

Editor - Tech

Javier Marquez

Editor - Tech Linkedintwitter3043 publicaciones de Javier Marquez

Durante el último año, la élite de los modelos abiertos para programación asistida, al menos en benchmarks como SWE-Bench Verified, ha hablado con acento chino. Nombres como DeepSeek, Kimi o Qwen se habían instalado en los puestos más altos de las pruebas y marcaban el ritmo en las tareas complejas de ingeniería de software, mientras Europa buscaba todavía su posición. La llegada de Devstral 2 altera ese reparto. No desplaza a quienes ya estaban arriba, pero sitúa a Mistral en el mismo nivel de exigencia y convierte a una compañía europea en aspirante real en un terreno que hasta ahora parecía reservado a otros.

Cambio de liga: el salto técnico que llevaba tiempo gestándose. Durante los últimos meses, los modelos abiertos desarrollados en Europa y Estados Unidos habían mostrado una evolución constante, aunque aún sin el rendimiento necesario para competir en las pruebas más exigentes. El progreso era evidente, pero faltaba un proyecto capaz de consolidarlo en un nivel superior y demostrar que ese camino podía dar resultados comparables a los referentes del sector.

Devstral 2 en datos: rendimiento, tamaño y licencias. El nuevo modelo de Mistral alcanza los 123B parámetros en una arquitectura densa y ofrece un contexto ampliado de 256K tokens, acompañado de una licencia MIT modificada que facilita su adopción en entornos abiertos. Su versión compacta, Devstral Small 2, reduce el modelo a 24B parámetros bajo licencia Apache 2.0.En las cifras de SWE-Bench Verified publicadas por la compañía, Devstral 2 obtiene un 72,2%, una marca que lo sitúa en el tramo más competitivo de los modelos abiertos evaluados y que confirma su presencia entre las alternativas más avanzadas del segmento.

La refleja un panorama concentrado en la parte alta del benchmark. Entre los modelos abiertos, DeepSeek V3.2 encabeza el conjunto con un 73,1%, seguido por Kimi K2 Thinking con un 71,3% y por propuestas como Qwen 3 Coder Plus y Minimax M2, que se sitúan en el entorno de los 69 puntos. En niveles inferiores aparecen GLM 4.6, GPT-OSS-120B, CWM y DeepSWE, con resultados más moderados. En el ámbito comercial cerrado (modelos propietarios), el gráfico incorpora puntuaciones superiores: Gemini 3 Pro alcanza un 76,2%, GPT 5.1 Codex Max sube hasta el 77,9% y Claude Sonnet 4.5 firma un 77,2%, todos ellos por encima de las mejores marcas registradas por los modelos abiertos.

Qué mide realmente SWE-Bench Verified y por qué importa. SWE-Bench Verified es una prueba diseñada para evaluar si un modelo puede resolver tareas reales de programación, no ejercicios sintéticos. Cada caso presenta un error en un repositorio de código abierto y exige un parche que haga pasar las pruebas antes fallidas. La evaluación busca medir si el sistema entiende la estructura del proyecto, identifica la causa del problema y propone una solución coherente. Es una métrica útil y exigente, aunque limitada a repositorios en Python y a un conjunto concreto de situaciones que no cubren toda la amplitud del trabajo en software.

De copilotos a agentes que actúan sobre el proyecto. La llegada de Devstral 2 coincide con un cambio más amplio en la forma de trabajar con herramientas de programación. Ya no se trata solo de recibir sugerencias en el editor, sino de contar con agentes capaces de explorar un repositorio completo, interpretar su estructura y proponer cambios coherentes con su estado real. En ese contexto aparece Vibe CLI, una herramienta que permite a Devstral analizar archivos, modificar partes del código y ejecutar acciones directamente desde la terminal, acercando estas capacidades al flujo de trabajo cotidiano de los desarrolladores.

Coste y despliegue: qué puede hacer cada tipo de usuario con Devstral. El modelo estará disponible de forma gratuita durante un periodo inicial y después pasará a costar 0,40 dólares por millón de tokens de entrada y 2,00 dólares por millón de salida, mientras que la versión Small 2 tendrá un precio inferior. Su despliegue también marca diferencias: Devstral 2 requiere al menos cuatro GPU de clase H100, orientadas a centros de datos, mientras que Devstral Small 2 está pensado para ejecutarse en una única GPU y, según la documentación de Mistral, la familia Devstral Small también puede funcionar en configuraciones solo con CPU, sin GPU dedicada. Esta variedad permite que tanto empresas como desarrolladores individuales encuentren un punto de entrada adecuado.

En XatakaHace un cuarto de siglo un estudiante unió 32 tarjetas gráficas GeForce para jugar a Quake III. De allí salió CUDA

La aparición de Devstral 2 introduce un elemento inesperado en un espacio donde las compañías chinas marcaban el paso y donde ni siquiera Estados Unidos, pese a su liderazgo en inteligencia artificial, contaba con un modelo abierto en esta franja alta de rendimiento en SWE-Bench Verified. Mistral no desplaza a quienes ya estaban arriba, pero sí amplía la conversación y demuestra que Europa puede competir en un terreno donde hasta ahora no figuraba. Es un movimiento que no altera la jerarquía general, aunque sí abre un margen nuevo para la evolución de las herramientas de programación asistida.

Imágenes | Xataka con Gemini 3

En Xataka | OpenAI y Google niegan que vayan a meter anuncios en ChatGPT y Gemini. La realidad es que las cuentas no salen sólo con suscripciones

Fuente original: Leer en Xataka
Compartir