La élite del modelo abierto habló en chino. Mistral acaba de llevar a Europa a un nivel que ni siquiera Estados Unidos podría alcanzar – La nación

En el último año, la élite de los modelos abiertos de programación asistida está al menos en Estándares como Banco SWE verificadoHabló con acento chino. Nombres como DeepSeek, Kimi y Qwen se habían consolidado en los puestos más altos de las pruebas y marcaban el ritmo para tareas complejas de ingeniería de software, mientras Europa todavía buscaba su posición. la llegada de Devstral 2 cambia esta distribución. No desplaza a los que ya estaban en la cima, pero lleva a Mistral al mismo nivel de exigencia y convierte a una empresa europea en un verdadero competidor en un campo que antes parecía reservado a otros.
Cambio de liga: el salto técnico que se viene gestando desde hace tiempo. En los últimos meses, los modelos abiertos desarrollados en Europa y Estados Unidos han seguido evolucionando, aunque todavía no cuentan con las prestaciones necesarias para sobrevivir a las pruebas más exigentes. El progreso era evidente, pero faltaba un proyecto que pudiera consolidarlo a un nivel superior y demostrar que este camino podría llevar a resultados comparables a los del sector.
Devstral 2 en datos: rendimiento, tamaño y licencias. El nuevo modelo Mistral alcanza 123 mil millones de parámetros en una arquitectura densa y ofrece un contexto extendido de 256.000 tokens, acompañado de una licencia MIT modificada que facilita su adopción en entornos abiertos. Su versión compacta, Devstral Small 2, reduce el modelo a 24B de parámetros licenciados Apache 2.0. La empresa publicó cifras verificadas en el SWE BenchDevstral 2 recibe un 72,2%, puntuación que lo sitúa en la gama de modelos abiertos más competitiva evaluada y confirma su presencia entre las alternativas más avanzadas de este segmento.
Se refleja en un panorama concentrado en la parte superior escala. Entre los modelos abiertos, DeepSeek V3.2 se sitúa a la cabeza con un 73,1%, seguido de Kimi K2 Thinking con un 71,3% y propuestas como Qwen 3 Coder Plus y Minimax M2, que rondan los 69 puntos. En niveles inferiores aparecen GLM 4.6, GPT-OSS-120B, CWM y DeepSWE con resultados más moderados. En la gama comercial cerrada (modelos propietarios), la gráfica muestra valores superiores: Gemini 3 Pro alcanza el 76,2%, GPT 5.1 Codex Max sube al 77,9% y Claude Sonnet 4.5 alcanza el 77,2%, todos por encima de las máximas notas de los modelos abiertos.
Lo que SWE-Bench ha verificado realmente mide y por qué es importante. SWE-Bench Verified es una prueba diseñada para evaluar si un modelo puede resolver tareas de programación reales y no ejercicios sintéticos. Cada caso representa un error en un repositorio de código abierto y requiere un parche para pasar pruebas fallidas anteriormente. La evaluación tiene como objetivo medir si el sistema comprende la estructura del proyecto, identifica la causa del problema y propone una solución coherente. Es una métrica útil y sofisticada, pero limitada a repositorios de Python y a un conjunto específico de situaciones que no cubren toda la gama de trabajo del software.
Del copiloto al agente que supervisa el proyecto. La introducción de Devstral 2 viene con un cambio más amplio en la forma en que trabajamos con las herramientas de programación. Ya no se trata sólo de recibir sugerencias en el editor, sino de contar con agentes capaces de explorar un repositorio completo, interpretar su estructura y proponer cambios acordes con su estado real. En este contexto aparece Vibe CLI, una herramienta que permite a Devstral analizar archivos, modificar partes del código y ejecutar acciones directamente desde el terminal, acercando estas funciones al flujo de trabajo diario de los desarrolladores.
Costo e Implementación: Qué puede hacer cada tipo de usuario con Devstral. El modelo inicialmente estará disponible de forma gratuita y luego costará $0,40 por millón de tokens para entrada y $2,00 por millón para salida, mientras que la versión Small 2 tendrá un precio más bajo. La implementación también marca la diferencia: Devstral 2 requiere al menos cuatro GPU de clase H100 destinadas a centros de datos, mientras que Devstral Small 2 está diseñado para ejecutarse en una sola GPU, y la familia Devstral Small también puede ejecutarse en configuraciones de solo CPU sin una GPU dedicada, según la documentación de Mistral. Esta diversidad permite tanto a las empresas como a los desarrolladores individuales encontrar un punto de entrada adecuado.
La llegada de Devstral 2 introduce un elemento inesperado en un ámbito donde las empresas chinas están marcando el ritmo y donde ni siquiera Estados Unidos, a pesar de su liderazgo en inteligencia artificial, ha tenido un modelo abierto en este área de alto rendimiento en el SWE Bench Verified. Mistral no desplaza a quienes ya estaban en primera línea, pero amplía el debate y demuestra que Europa puede competir en un ámbito en el que no había aparecido antes. Es un movimiento que no cambia la jerarquía general, aunque abre un nuevo campo para el desarrollo de herramientas de programación compatibles.
Imágenes | Xataka con gemelas 3
En Xataka | OpenAI y Google niegan que publicarán anuncios en ChatGPT y Gemini. La realidad es que las cuentas no solo vienen con suscripciones.