Cruce de cables: ¿Puede ChatGPT haber superado ya el Test de Turing?

Cruce de cables 37 (17 de mayo de 2025) ¿Puede ChatGPT haber superado ya el Test de Turing? [~20:00] – Estuve comentando en la radio con David que había quien decía que ChatGPT ya había superado el Test de Turing, algo que tiene mucho más trasfondo de lo que parece. En ese estudio –que está todavía por revisar– unos investigadores explicaron que hicieron la prueba con tres personas, en la que alguien conversaba con un humano y una IA al mismo tiempo y luego evaluaba cuál era cuál. ¿De dónde proviene la idea del Test de Turing? Se conoce como Prueba de Turing o Juego de imitación. Propuesta en 1949 (Computing Machinery and Intelligence) por Alan Turing, uno de los pioneros de la informática, busca discernir si «las máquinas pueden pensar». Pero al mismo tiempo se busca una buena definición de «pensar», reemplazándolo por «parecer humano». No es necesario que el ordenador conteste correctamente, tan solo que «parezca humano» o «imite a un humano» (según se interprete). Siglos antes, Diderot ya dijo en 1746 que «si hubiera un loro que pudiera responder a todo, lo llamarían humano». Originalmente el Test de Turing se trataba de distinguir el sexo del interlocutor (hombre/mujer) en otra habitación, con tres participantes (hombre / mujer / interrogador), a través de mensajes en papel o un terminal de ordenador. También había una variante con jugadores de ajedrez. Respecto a la reciente prueba: El modelo GPT-4.5 de OpenAI fue considerado humano el 73 por ciento de las veces cuando se le indicó que se comportara con «cierta personalidad humana». (Si no, los datos caen al 20%). Una cifra de casi un 75% es bastante más que la probabilidad aleatoria del 50% o el 70%, lo que considera una señal suficiente –según los investigadores– de que ha superado la legendaria prueba. ChatGPT 4.5 superó a ChatGPT 4o, que es un modelo muy avanzado. También superó a LlaMa 3.1 por poco y a a ELIZA (usado como control, es de 1966). Hubo cerca de 200 participantes, en turnos de 5 minutos, unas 1.000 rondas en total. Como suele suceder hay muchas opiniones al respecto y sobre la interpretación del resultado. Por ejemplo, Gary Marcus, un experto en IA, dice que superar el Test de Turing no demuestra inteligencia, sino más bien «cómo aprovecharse de la credulidad humana». Señala que los sistemas de IA actuales se basan en «trucos» y no en razonamiento real, como ya ocurrió con el caso de Eugene Goostman en 2014, un famoso bot ruso que se hacía pasar por chaval de 13 años que engañó a mucha gente. Cree que la imitación no implica comprensión, y propone un test más exigente basado en entender narrativas complejas, que ningún sistema actual superaría. Conclusión: la gente no es muy buena detectando «comportamiento inteligente». ¿Deben los participantes en la prueba ser gente corriente o expertos? ¿Deben saber que les están poniendo a prueba? ¿Qué incentivos hay? El test varía si el interrogador sabe que al otro lado puede haber una máquina o no. Eso no se ha evaluado en este caso. Hay quien considera que no es un test de inteligencia sino de «similitud con los humanos». El test está disponible online: TuringTest.live _Cada semana grabamos con David Sierra en el distendido ambiente de Cruce de Cables, el programa de Radio Nacional de España, como colaboradores habituales. Se emite en RNE los sábados de 03:00 a 04:00. _Imagen: GPT-4o Relacionado: Cruce de cables: los planetarios cumplen cien años Cruce de cables: Planespotting Cruce de cables: Computación analógica Cruce de cables: Mis soluciones de baja tecnología favoritas Cruce de cables: Los 50 años de Microsoft Cruce de cables: ¿Por qué son tan malas las IAs jugando al ajedrez? Cruce de cables: Los hackers no son piratas informáticos Cruce de cables: El seguimiento de famosos a través de GPS Cruce de cables: Los astronautas no abandonados en la EEI Cruce de cables: Aviones de pasajeros supersónicos de ayer y hoy Cruce de cables: La primera Ley de inteligencia artificial Cruce de cables: ¿Un nuevo invierno de la inteligencia artificial? Cruce de cables: Tecnología y las armas nucleares casi la lían parda. Cruce de cables: Zuckerberg y sus movimientos con los verificadores Cruce de cables: Las chicas del ENIAC y de los Colossus Cruce de cables: La reparación de un ordenador a válvulas de los 50 Cruce de cables: El legado digital Cruce de cables: Ada Lovelace y Grace Murray H. Hopper, informáticas Cruce de cables: La evolución de ChatGPT, la IA generativa más popular Cruce de cables: No vemos robots repartidores por las calles Cruce de cables: Cómo no quedarse desconectado en una emergencia Microsiervos como colaboradores de Cruce de cables de RNE # Enlace Permanente

May 23, 2025 - 22:00

Cruce de cables: ¿Puede ChatGPT haber superado ya el Test de Turing?

Cruce de cables 37 (17 de mayo de 2025)

¿Puede ChatGPT haber superado ya el Test de Turing? [~20:00] – Estuve comentando en la radio con David que había quien decía que ChatGPT ya había superado el Test de Turing, algo que tiene mucho más trasfondo de lo que parece. En ese estudio –que está todavía por revisar– unos investigadores explicaron que hicieron la prueba con tres personas, en la que alguien conversaba con un humano y una IA al mismo tiempo y luego evaluaba cuál era cuál. ¿De dónde proviene la idea del Test de Turing?

Se conoce como Prueba de Turing o Juego de imitación.
Propuesta en 1949 (Computing Machinery and Intelligence) por Alan Turing, uno de los pioneros de la informática, busca discernir si «las máquinas pueden pensar». Pero al mismo tiempo se busca una buena definición de «pensar», reemplazándolo por «parecer humano».
No es necesario que el ordenador conteste correctamente, tan solo que «parezca humano» o «imite a un humano» (según se interprete).
Siglos antes, Diderot ya dijo en 1746 que «si hubiera un loro que pudiera responder a todo, lo llamarían humano».
Originalmente el Test de Turing se trataba de distinguir el sexo del interlocutor (hombre/mujer) en otra habitación, con tres participantes (hombre / mujer / interrogador), a través de mensajes en papel o un terminal de ordenador. También había una variante con jugadores de ajedrez.

Respecto a la reciente prueba:

El modelo GPT-4.5 de OpenAI fue considerado humano el 73 por ciento de las veces cuando se le indicó que se comportara con «cierta personalidad humana». (Si no, los datos caen al 20%). Una cifra de casi un 75% es bastante más que la probabilidad aleatoria del 50% o el 70%, lo que considera una señal suficiente –según los investigadores– de que ha superado la legendaria prueba.
ChatGPT 4.5 superó a ChatGPT 4o, que es un modelo muy avanzado. También superó a LlaMa 3.1 por poco y a a ELIZA (usado como control, es de 1966).
Hubo cerca de 200 participantes, en turnos de 5 minutos, unas 1.000 rondas en total.
Como suele suceder hay muchas opiniones al respecto y sobre la interpretación del resultado.
Por ejemplo, Gary Marcus, un experto en IA, dice que superar el Test de Turing no demuestra inteligencia, sino más bien «cómo aprovecharse de la credulidad humana». Señala que los sistemas de IA actuales se basan en «trucos» y no en razonamiento real, como ya ocurrió con el caso de Eugene Goostman en 2014, un famoso bot ruso que se hacía pasar por chaval de 13 años que engañó a mucha gente. Cree que la imitación no implica comprensión, y propone un test más exigente basado en entender narrativas complejas, que ningún sistema actual superaría.
Conclusión: la gente no es muy buena detectando «comportamiento inteligente».
¿Deben los participantes en la prueba ser gente corriente o expertos? ¿Deben saber que les están poniendo a prueba? ¿Qué incentivos hay? El test varía si el interrogador sabe que al otro lado puede haber una máquina o no. Eso no se ha evaluado en este caso.
Hay quien considera que no es un test de inteligencia sino de «similitud con los humanos».
El test está disponible online: TuringTest.live

_____
Cada semana grabamos con David Sierra en el distendido ambiente de Cruce de Cables, el programa de Radio Nacional de España, como colaboradores habituales. Se emite en RNE los sábados de 03:00 a 04:00.

_____
Imagen: GPT-4o

Relacionado: