June 30, 2025
Tenemos un gran problema con los agentes de IA: el 70% del tiempo está equivocado

 – La nación
Tecnología

Tenemos un gran problema con los agentes de IA: el 70% del tiempo está equivocado – La nación

Los agentes de IA fallan más que una escopeta justa. Al menos eso es lo que muestra Un estudio recientemente realizado De investigadores de la Universidad Carnegie Mellon (CMU) y la Universidad de Duke. Estos expertos han analizado el comportamiento de varios de ellos y los llevaron al examen para verificar si esto es un “gran ruido y algunas nueces”. Y en este momento lo es.

inspiración. Graham Neubig, profesor de CMU, explicado En la pestaña de cómo era la inspiración Un artículo de 2023 De OpenAai. Habló sobre qué tipos de trabajo de AI Systems podrían ser reemplazados, pero como él dijo: “Su metodología básicamente estaba charlando si este trabajo podría ser automatizado”. En este estudio, querían verificarlo pidiendo a diferentes agentes de IA que realicen tareas que teóricamente realicen trabajadores calificados en este trabajo.

En Xataka
Todo comienza a pedirle algo a una IA. Cuando se le pide a la IA por otros, el caos comienza

Empresa de hilo. Para llevar a cabo su estudio, los investigadores fundaron una compañía ficticia que llamaron La empresa de agentes Y lo usaron que diferentes modelos agrícolas intentaron hacer diferentes tareas. Estos sistemas deberían poder usar el acceso a varios servicios, como Gitlab, Owncloud o Rocketchat para llevar a cabo este trabajo, pero su rendimiento fue decepcionante.

70% de error. Los investigadores utilizaron dos entornos experimentales OpenHands CodeAct Y Papel de búho Y hoy probaron los modelos de IA más importantes en ellos. Lo mejor de todos es Claude Sonnet 4, que logró resolver el 33.1% de las tareas propuestas. Detrás de esto se encuentran Claude 3.7 Sonett (30.9%), Gemini 2.5 por (30.3%) y mucho más catastrófico GPT-4O (8.6%), llame a 3,1-405B (7.4%), QWEN-2.5-72B (5.7%) o Amazon Nova por V1.0 (1.7%))). En el mejor de los casos, los modelos pueden llevar a cabo el 30% de las tareas solicitadas, pero fallan en el 70%. O lo que es lo mismo: mucho ruido y algunas nueces después de estos puntos de referencia.

Tampoco los agentes. Durante estas pruebas, los investigadores observaron varios tipos de falla en estos procesos de tareas. Por lo tanto, hubo agentes que se negaron a enviar un mensaje a los colegas que formaron parte de la tarea, y también hubo agentes que no pudieron administrar ventanas emergentes durante las reuniones de navegación, e incluso agentes que fueron engañados o engañados. En uno de los casos, no se tuvo que encontrar un agente que tuvo que consultar a una persona en Rocketchat (un Sackgasse de código abierto alternativo). “Le cambió el nombre a otro usuario para darle al usuario con el que tuvo que contactar”.

Pero mejoran. Incluso con estos problemas, el desarrollo del rendimiento de estos agentes de IA es positivo. Neubig y su equipo probaron un agente de software que pudo resolver alrededor del 24% de las tareas que se referían a la navegación web, la programación y algunas tareas asociadas. Seis meses después, probaron una nueva versión y lograron el 34% de las tareas completadas.

{“VideID”: “x8hj0vy”, “Autoplay”: False, “Título”: “Chatgpt: Lo que no sabías qué podías hacer | Trucos”, “Etiqueta”: “”, “Duración”: “790”

Imperfecto, pero útil. No solo eso: estos investigadores señalaron que los agentes de IA, incluso si fallan tanto, pueden seguir siendo útiles. En ciertos contextos, como B. Programming, una propuesta de código parcial con la que se puede resolver un fragmento específico de un programa puede ser la base de una solución en la que el desarrollador puede trabajar.

Cuida dónde lo usas. Pero, por supuesto, los agentes cometen que tantos errores pueden ser un problema en escenarios que son más sensibles a estos problemas. Entonces, si comisionamos a un agente que escribe Correos y los envía a personas falsas, el resultado podría ser un desastre. Las soluciones están a la vista, como la creciente introducción del Protocolo de contexto del modelo (MCP), que facilita la interacción entre los modelos de servicio y IA, de modo que la comunicación es mucho más precisa y estos errores se pueden reducir durante la ejecución autónoma de tareas.

Un punto de referencia que hace que los modelos de IA se vean mal. Para estos expertos, una de las grandes decepciones es que las empresas que desarrollan modelos de IA no parecen estar interesados ​​en usarlos como una métrica para mejorar sus desarrollos. Recién sospechaba que “puede ser demasiado difícil y que los hace ver mal”. Es algo similar a lo que sucede con el Benchmark ARC-AGI2: es una prueba tan difícil para el IAS que hoy en día Lo mejor de todos los modelos de la cual intentas superarlo es el O3 lo que logra: el 3% de las tareas realizadas.

En Salesforce se colapsa. Este estudio anterior se agrega Realizado con otro De un grupo de investigadores de Salesforce. Crearon específicamente su propio punto de referencia para verificar cómo se verifican los diferentes modelos de IA en un CRM al verificar las tareas típicas de cómo fueron desarrolladas por la empresa. Su proyecto llamado CRMarena-Pro prueba estos agentes de IA en áreas como departamentos de ventas o soporte.

En Xataka
Si la pregunta es si IA ya es tan buena como la inteligencia humana, la respuesta es: resolver este rompecabezas

Reemplazar a los trabajadores, nada. En sus conclusiones, estos investigadores muestran cómo los modelos de IA logran “tasas de éxito globalmente modestas, generalmente alrededor del 58% en escenarios con un solo cambio [de ejecución]Pero con el rendimiento, que empeora alrededor del 35% en los escenarios de múltiples vueltas. “

Un futuro complicado. La predicción del consultor de Gartner está conectada a estos resultados discretos. Según tus estudiosMás del 40% de los proyectos para agentes de desarrollo se cancelan a fines de 2027. El personaje principal, que es responsable del informe, Anushree Verma, declaró que “la mayoría de los proyectos agrícolas son actualmente experimentos o pruebas del concepto en la fase inicial, que a menudo se usa a menudo por la publicidad”. El mensaje es claro: hay demasiadas expectativas con respecto a los agentes de IA, pero el estado de tecnología actual muestra que su aplicación es problemática y limitada hoy en día.

Imagen | Sigmón

En Xataka | Una startup de KI con seis meses de vida y seis empleados vendieron $ 80 millones. Por supuesto que la codificación de ambientes

(Function () {window._js_modules = window._js_modules || {}; var hadelement = document.getelegsbytagname (‘head’)[0]; if (_js_modules.instagram) {var instagramscript = document.creatElement (‘script’); Instagramscript.src = “instagramscript.async = true; instagramscript.defer = true; hadelement.appendChild (Instagramscript);}) ();


La noticia Tenemos un gran problema con los agentes de IA: el 70% del tiempo está equivocado Fue publicado originalmente en Xataka Por Javier Pastor.