La IA ya es capaz de superar el mítico test de Turing: por qué eso no significa lo que siempre habíamos creído
Unos investigadores de la Universidad de California afirman que dos modelos de lenguaje —GPT-4.5 y LLaMa-3.1-405B— han superado el Test de Turing, la famosa prueba ideada por Alan Turing para evaluar la 'humanidad' de la inteligencia artificial. Pero, ¿eso significa que estamos frente a un verdadero salto en la cognición de la IA? ¿O es un mero indicador de un experimento mal diseñado y/o ejecutado? La idea original Hace 75 años, Alan Turing propuso su test como un experimento para determinar si las máquinas podían ser consideradas 'inteligentes'. En esta prueba, un interrogador humano interactúa simultáneamente con un humano y una máquina a través de una interfaz de texto, y debe identificar cuál de los dos es el humano. Si la máquina logra engañar al interrogador, se considera que ha pasado la prueba. Aunque esta idea ha sido objeto de intensos debates y múltiples intentos a lo largo de las décadas, hasta ahora ningún sistema había logrado superar este desafío en su formato original. El experimento Pero el estudio que nos ocupa, desarrollado por Cameron R. Jones y Benjamin K. Bergen, sometió a varios LLMs (los dos ya mencionados, junto a ELIZA y GPT-4o) a una versión rigurosa del test original. Así, se basó en conversaciones simultáneas de cinco minutos entre un interrogador humano, otro humano y un modelo de IA, a través de una interfaz de chat. La sorpresa fue que, en muchos casos, los interrogadores eligieron a la IA como el interlocutor humano. Cuando a los chatbots se les dotó de una "personalidad" específica (la de jóvenes introvertidos interesados en la cultura de internet), el modelo GPT-4.5 fue identificado como humano en el 73% de los casos, mientras que LLaMa-3.1 alcanzó un 56% (de nuevo, cuando se le dotó de 'personalidad')... ...mientras que, cuando esos mismos modelos carecían de 'personalidad' añadida, lograron tasas mucho más bajas (36% y 38%, respectivamente). Los otros dos modelos, que sólo fueron probados 'sin personalidad', obtuvieron tasas significativamente inferiores al mero azar (un 21% GPT-4o, y un 23% ELIZA). En Xataka El test de Turing ya no sirve: siete pruebas alternativas para comprobar que una IA no es un humano ¿Es el Test de Turing a prueba de perezosos? Sin embargo, este resultado ha sido recibido con reservas: un análisis más detallado de las conversaciones, (que los propios autores han hecho públicas), revela interacciones muchas veces banales y poco inquisitivas, en las que predominan preguntas simples sobre programas de televisión favoritos o actividades diarias. Un comentarista de Hacker News sintetizó así qué opinaba tras leer las conversaciones: "Los participantes no intentaron realmente desenmascarar a una IA. Querían su crédito académico y listo". Otros señalan que el problema podría haber sido otro: que la predisposición a tratar a los interlocutores con cortesía o evitar preguntas incómodas pudo haber favorecido a las IA. Ambas críticas plantea un debate crucial: si los interrogadores no aplican estrategias verdaderamente desafiantes, ¿es válido decir que los modelos 'engañaron' a humanos? Aquí se reabre un debate filosófico sobre la naturaleza del test de Turing. ¿Debe ser una prueba donde los humanos hagan todo lo posible por detectar a la máquina, o basta con que el modelo no se destaque como artificial en una conversación típica? Algunos usuarios argumentan que si se exige un interrogatorio extremadamente sofisticado (como pedir explicaciones de chistes o razonamiento lógico profundo) estamos alejándonos del test de Turing y acercándonos más a un test de IA general (AGI). Sin embargo, como sostienen otros usuarios, asumir un criterio menos exigente pone en duda la relevancia de este famoso test, porque "siempre se puede engañar a un humano lo suficientemente perezoso". 60 años confundiendo personas y chatbots Muchos participantes afirmaron haberse guiado por 'corazonadas', antes que por el análisis lógico, las estrategias más exitosas fueron las menos frecuentes: hacer afirmaciones inusuales o tratar de "romper" al modelo con comandos propios de jailbreaks. Pero, ¿esta pereza es atribuible sólo a los participantes del experimento, o es algo más generalizado en la especie humana? Como medida de control, se incluyó ELIZA, que ni siquiera es técnicamente un LLM, aunque sí el primer chatbot jamás creado y un ejemplo de la rudimentaria IA de los años 60. En Genbeta Qué fue de ELIZA, la tatarabuela de ChatGPT… a la que ahora se acusa (falsamente) de inducir un suicidio Sus datos fueron bastante pobres, siendo confundido con un humano sólo en el 23% de las ocasiones. No obstante, el hecho de que algunos aún creyeran que este chatbot era humano evidencia un fenómeno psicológico conocido como el 'efecto ELIZA', por el cual las personas tienden a antropomorfizar a las máquinas. Su creador, Joseph Weizenbau

Unos investigadores de la Universidad de California afirman que dos modelos de lenguaje —GPT-4.5 y LLaMa-3.1-405B— han superado el Test de Turing, la famosa prueba ideada por Alan Turing para evaluar la 'humanidad' de la inteligencia artificial. Pero, ¿eso significa que estamos frente a un verdadero salto en la cognición de la IA? ¿O es un mero indicador de un experimento mal diseñado y/o ejecutado?
La idea original
Hace 75 años, Alan Turing propuso su test como un experimento para determinar si las máquinas podían ser consideradas 'inteligentes'. En esta prueba, un interrogador humano interactúa simultáneamente con un humano y una máquina a través de una interfaz de texto, y debe identificar cuál de los dos es el humano. Si la máquina logra engañar al interrogador, se considera que ha pasado la prueba.
Aunque esta idea ha sido objeto de intensos debates y múltiples intentos a lo largo de las décadas, hasta ahora ningún sistema había logrado superar este desafío en su formato original.
El experimento
Pero el estudio que nos ocupa, desarrollado por Cameron R. Jones y Benjamin K. Bergen, sometió a varios LLMs (los dos ya mencionados, junto a ELIZA y GPT-4o) a una versión rigurosa del test original.
Así, se basó en conversaciones simultáneas de cinco minutos entre un interrogador humano, otro humano y un modelo de IA, a través de una interfaz de chat. La sorpresa fue que, en muchos casos, los interrogadores eligieron a la IA como el interlocutor humano.
Cuando a los chatbots se les dotó de una "personalidad" específica (la de jóvenes introvertidos interesados en la cultura de internet), el modelo GPT-4.5 fue identificado como humano en el 73% de los casos, mientras que LLaMa-3.1 alcanzó un 56% (de nuevo, cuando se le dotó de 'personalidad')...
...mientras que, cuando esos mismos modelos carecían de 'personalidad' añadida, lograron tasas mucho más bajas (36% y 38%, respectivamente). Los otros dos modelos, que sólo fueron probados 'sin personalidad', obtuvieron tasas significativamente inferiores al mero azar (un 21% GPT-4o, y un 23% ELIZA).
¿Es el Test de Turing a prueba de perezosos?
Sin embargo, este resultado ha sido recibido con reservas: un análisis más detallado de las conversaciones, (que los propios autores han hecho públicas), revela interacciones muchas veces banales y poco inquisitivas, en las que predominan preguntas simples sobre programas de televisión favoritos o actividades diarias.
Un comentarista de Hacker News sintetizó así qué opinaba tras leer las conversaciones:
"Los participantes no intentaron realmente desenmascarar a una IA. Querían su crédito académico y listo".
Otros señalan que el problema podría haber sido otro: que la predisposición a tratar a los interlocutores con cortesía o evitar preguntas incómodas pudo haber favorecido a las IA.
Ambas críticas plantea un debate crucial: si los interrogadores no aplican estrategias verdaderamente desafiantes, ¿es válido decir que los modelos 'engañaron' a humanos?
Aquí se reabre un debate filosófico sobre la naturaleza del test de Turing. ¿Debe ser una prueba donde los humanos hagan todo lo posible por detectar a la máquina, o basta con que el modelo no se destaque como artificial en una conversación típica?
Algunos usuarios argumentan que si se exige un interrogatorio extremadamente sofisticado (como pedir explicaciones de chistes o razonamiento lógico profundo) estamos alejándonos del test de Turing y acercándonos más a un test de IA general (AGI).
Sin embargo, como sostienen otros usuarios, asumir un criterio menos exigente pone en duda la relevancia de este famoso test, porque "siempre se puede engañar a un humano lo suficientemente perezoso".
60 años confundiendo personas y chatbots
Muchos participantes afirmaron haberse guiado por 'corazonadas', antes que por el análisis lógico, las estrategias más exitosas fueron las menos frecuentes: hacer afirmaciones inusuales o tratar de "romper" al modelo con comandos propios de jailbreaks.
Pero, ¿esta pereza es atribuible sólo a los participantes del experimento, o es algo más generalizado en la especie humana?
Como medida de control, se incluyó ELIZA, que ni siquiera es técnicamente un LLM, aunque sí el primer chatbot jamás creado y un ejemplo de la rudimentaria IA de los años 60.
Sus datos fueron bastante pobres, siendo confundido con un humano sólo en el 23% de las ocasiones. No obstante, el hecho de que algunos aún creyeran que este chatbot era humano evidencia un fenómeno psicológico conocido como el 'efecto ELIZA', por el cual las personas tienden a antropomorfizar a las máquinas.
Su creador, Joseph Weizenbaum, descubrió hace ya casi 60 años que incluso sus propios colaboradores atribuían inteligencia y/o sentimientos humanos a ELIZA:
"No me había dado cuenta de que las exposiciones extremadamente cortas a un programa informático relativamente simple podrían inducir un poderoso pensamiento delirante en personas bastante normales".
Una duda final
Más allá de debates metodlógicos, este experimento sigue planteando preguntas relevantes: si una IA puede hacerse pasar por un humano sin ser detectada —incluso si es sólo por un público poco exigente—, ¿qué riesgos plantea esto a efectos de manipulación (estafas, desinformación) o de cara al futuro del empleo?
Imagen | Marcos Merino mediante IA
En Genbeta | Qué es el test de la manzana y por qué es muy útil para ver cómo de potente es una inteligencia artificial
-
La noticia
La IA ya es capaz de superar el mítico test de Turing: por qué eso no significa lo que siempre habíamos creído
fue publicada originalmente en
Genbeta
por
Marcos Merino
.