Alguien pasó “Cien años de soledad” a un detector de texto de IA. Dijo que era una IA. – La nación

Las herramientas para reconocer texto generado por IA fallan repetidamente al analizar grandes obras literarias. Estos detectores identifican el Génesis bíblico, la Constitución estadounidense, “Harry Potter” y “Cien años de soledad” como creaciones de máquinas. La razón de esto es una lógica perversa: lo que los algoritmos interpretan como escritura de IA es en realidad buena escritura.
Biblia robótica. Las herramientas para reconocer texto generado por IA llevan meses acumulando juicios absurdos. Todo lo que tienes que hacer es enviar ‘“Cien años de soledad” de Gabriel García Márquez es uno de estos sistemas y descubrirás que el 100% de la novela es artificial. El Génesis bíblico o la Constitución norteamericana tampoco salen mejor parados: la herramienta ZeroGPT valora el primer texto con una 88,2% de posibilidades de ser un escritor de IA y el segundo, redactado por AI, con un 96,21%. Experimentos con “Harry Potter” o los textos de “Bohemian Rhapsody” mostrar resultados similares. El patrón es tan consistente que va más allá de la anécdota: hay un problema subyacente con estas herramientas.
Bien mal. La ironía es que los detectores de texto generados por IA fueron diseñados para reconocer lo escrito por máquinas. Al final, sin embargo, señalan exactamente lo contrario: se considera poco probable que los textos que exhiben un mayor cuidado estilístico, una mayor coherencia interna y un mayor dominio del ritmo narrativo hayan sido escritos por humanos. Es decir, la buena escritura es técnicamente similar a la escritura como modelo de lenguaje.
Cómo funciona. Para entender por qué sucede esto También es necesario comprender cómo funcionan estas herramientas.. La mayoría se basan en dos indicadores principales. La primera es la perplejidad (confusión): qué tan predecible es la elección de palabras en un texto. Si cada palabra sigue a la anterior de la manera esperada, hay poca perplejidad. Si el texto salta de manera impredecible entre registros, vocabulario y estructuras sintácticas, la perplejidad es grande. El segundo indicador es la ráfaga (Estallido): la variación en la longitud de las frases. Los humanos alternan párrafos largos con oraciones muy cortas, mientras que los modelos de lenguaje tienden a producir oraciones de longitud más consistente.
Un texto bien construido (vocabulario preciso, estructura clara, ritmo consistente) es inherentemente poco confuso. Como García Márquez, que elige las palabras exactas en sus textos con una precisión casi quirúrgica. Génesis tiene un ritmo narrativo casi hipnótico, pausado, sin ruido, como una canción con métrica equilibrada. “Escribir bien” es un concepto muy complejo, pero puede significar, entre otras cosas, ser predecible en el sentido más virtuoso: que el lector comprenda el texto sin esfuerzo. Y eso hace sonar la alarma para un detector entrenado para distinguir “lo que haría un modelo de lenguaje”.
Es lo mismo. Para empeorar las cosas, los modelos de IA generativa se han entrenado con precisión y con escritura humana de alta calidad. ChatGPT, Claude o Gemini producen textos fluidos, coherentes y con poca confusión porque han aprendido de millones de textos humanos que también tenían estas propiedades. Para estos algoritmos, reconocer la escritura escrita por una IA y distinguirla de la buena escritura humana es una tarea casi imposible.
Otro camino hacia el fracaso. Estos criterios pueden adoptar diversas formas. Por ejemplo: un estudio sobre el rendimiento de siete detectores comunes al analizar artículos periodísticos. TOEFL (examen oficial de inglés para personas que no hablan inglés) frente a ensayos de estudiantes de secundaria estadounidenses. Los resultados: El 61,22% de los ensayos escritos por estudiantes no nativos fueron calificados como creados por IA. En el 20% de los casos, los siete examinadores coincidieron en el diagnóstico erróneo. Los textos en lengua materna de los estudiantes aprobaron sin problemas.
La explicación es la misma mecánica de perplejidad: alguien que escribe en su segunda lengua utiliza un vocabulario más limitado, estructuras más simples y menos variaciones gramaticales. No escribe mal, pero sus herramientas son más limitadas y los detectores de IA penalizan sistemáticamente a los escritores con menores habilidades lingüísticas. El equipo que realizó el estudio recomendó evitar el uso de estas herramientas en contextos de evaluación, particularmente cuando se trata de estudiantes internacionales. Un episodio de este tipo se produjo en España: en 2024, la Universidad Católica Australiana abrió expedientes a casi 6.000 estudiantes utilizando Turnitin, la plataforma de descubrimiento más utilizada en las universidades. Muchos de ellos nunca habían utilizado la IA en ningún momento.
Fuerza la máquina. Edward Tian, CEO de GPTZero (uno de los detectores de referencia con más de ocho millones de usuarios) admitió abiertamente que muchas herramientas de la industria están ajustando sus umbrales generar intencionalmente más falsos positivoscon el objetivo de no compartir textos generados por IA, aunque esto signifique hacer referencia falsa a un texto humano. Tian habla de cómo GPTZero está luchando para evitar esta proliferación de falsos positivos, pero la falsificación de resultados es un problema claro.
El último caso. La editorial Hachette acaba de cancelar el lanzamiento de “ en el Reino Unido y Estados Unidos.chica tímida‘, una novela que la herramienta Pangram detectó como un 78% de IA generada. El autor niega haber utilizado la herramienta. Cualquiera que sea la verdad en este caso particular, el episodio ilustra el poder virtual que obtienen estas herramientas: pueden destruir contratos de publicación y generar sospechas sobre las personas antes de que haya evidencia definitiva sobre el tema.
En Xataka | OpenAI tiene un detector de texto escrito por IA que funciona casi a la perfección. Y no quiere ponerlo en el mercado.