Pensábamos que pagar por IAs premium daría mejores respuestas. Solo mienten con mayor seguridad que los modelos gratuitos
Si en tu empresa están apostando todo a los chatbots, tenemos malas noticias: mienten. Más del 60% de las respuestas que ofrecen son erróneas, pese a que las máquinas lo afirmen con total seguridad. Si las interrogas demasiado, cambian su versión al vuelo, y si las interrogas demasiado, deliran. La promesa de una IA que simplifica el acceso a la información choca de frente con una realidad más gris. Desde el Two Center del Columbia Journalism Review han publicado un estudio comparando ocho motores de IA. Klaudia Jaźwińska y Aisvarya Chandrasekar desarrollaron una metodología estricta y llegaron a varias conclusiones, todas bastante oscuras: los chatbots no son buenos para "negarse a responder preguntas que no podían responder con precisión y ofrecían en su lugar respuestas incorrectas o especulativas". Lo más irónico es que los chatbots premium daban respuestas incorrectas con mayor seguridad que los modelos gratuitos. Es decir, mentir mejor. En cualquier caso, la mayoría eludían las preferencias del protocolo de exclusión de robots, copiaron artículos y enlazaron sin "ninguna garantía de citación precisa en las respuestas". ¿Y cuál es el que menos miente? El menos usado, parece ser. Grok 3, la IA de Elon Musk, es la menos fiable de todas Para el estudio recurrieron, según dicen, a la siguiente metodología: analizaron la precisión de varios chatbots a la hora de identificar info en artículos de prensa, evaluándolos en tres aspectos, encontrar el artículo correcto, identificar la editorial adecuada y proporcionar la URL precisa. Para ello, seleccionaron diez artículos de veinte editoriales distintas, extrajeron fragmentos de texto y realizaron un total de 1.600 consultas en ocho chatbots diferentes. Los resultados fueron evaluados manualmente y categorizados según su grado de precisión, desde "correcto" hasta "completamente incorrecto". En Applesfera Google ya sabía que el efecto DeepSeek era inevitable: "no tenemos ninguna ventaja". Mientras tanto, Apple pensó diferente y ahora juega con ventaja Los hallazgos revelaron que más del 60 % de las respuestas fueron incorrectas, con diferencias notables entre plataformas: Perplexity falló en el 37% de las consultas, mientras que Grok 3 alcanzó un alarmante 94% de error. La más rápida... la que más rápido inventa. Los chatbots no solo daban respuestas equivocadas, sino que lo hacían con una seguridad preocupante, sin recurrir a frases de cautela o reconociendo sus limitaciones. La peor parte se la llevan los modelos premium, como Perplexity Pro y Grok 3, presentando una tasa de error más alta que sus versiones gratuitas debido a su tendencia a ofrecer respuestas definitivas incluso cuando no tenían datos confiables. Otro aspecto preocupante fue la aparente violación de las directivas robots.txt, que permiten a los editores bloquear rastreadores automáticos. Aunque se esperaba que los chatbots no accedieran a contenido bloqueado, algunos como Perplexity —cuyo rendimiento es lograron identificar artículos que no deberían haber podido consultar, levantando sospechas sobre el respeto a estas normas. En Applesfera Ya no sé si merece la pena esperar: Google asesta el golpe definitivo a Siri regalando Gemini 2.0 Y, como decíamos al comienzo, los chatbots además tendían a citar fuentes incorrectas y, en muchos casos, proporcionaban enlaces rotos o inventados. Esto evidencia que los acuerdos de licencia entre empresas de IA y medios no garantizan una mayor precisión. Incluso en casos donde existe colaboración formal, como con Time y San Francisco Chronicle, los chatbots daban resultados inconsistentes. Perplexity se salta los muros de pago de Time y Los Angeles Times como si fueran aceras. Apple se ha visto forzada a seguir un ritmo que no quería Decíamos hace unos días que Apple tiene un problema, ya no por ir detrás de sus competidores, sino por manchar su credibilidad con promesas que ha tenido que postergar a 2026, como la nueva Siri. Pero hay una apreciación que quiero que la tengamos en cuenta: tal vez Apple no está llegando tarde a la carrera de los chatbots modales, sino que su competencia está vendiendo un plato todavía sin cocinar. Los que han llegado tienen severos agujeros. Según el último estudio de NowSecure, el servicio DeepSeek, tan aplaudida y promocionada por su velocidad, cuenta con graves brechas de seguridad en cuanto a protección y tratamiento de datos. Claude, por ejemplo, es estelar en lo suyo, pero no está integrado en herramientas complejas. Copilot se promocionó como algo futurista, pero ha resultado ser un ChatGPT normal y corriente. Gemini avanza lento pero seguro, si bien cada día lo uso menos porque cada vez me arroja más respuestas tipo "no puedo hacer eso" o "no estoy programado p

Si en tu empresa están apostando todo a los chatbots, tenemos malas noticias: mienten. Más del 60% de las respuestas que ofrecen son erróneas, pese a que las máquinas lo afirmen con total seguridad. Si las interrogas demasiado, cambian su versión al vuelo, y si las interrogas demasiado, deliran. La promesa de una IA que simplifica el acceso a la información choca de frente con una realidad más gris.
Desde el Two Center del Columbia Journalism Review han publicado un estudio comparando ocho motores de IA. Klaudia Jaźwińska y Aisvarya Chandrasekar desarrollaron una metodología estricta y llegaron a varias conclusiones, todas bastante oscuras: los chatbots no son buenos para "negarse a responder preguntas que no podían responder con precisión y ofrecían en su lugar respuestas incorrectas o especulativas". Lo más irónico es que los chatbots premium daban respuestas incorrectas con mayor seguridad que los modelos gratuitos. Es decir, mentir mejor.
En cualquier caso, la mayoría eludían las preferencias del protocolo de exclusión de robots, copiaron artículos y enlazaron sin "ninguna garantía de citación precisa en las respuestas". ¿Y cuál es el que menos miente? El menos usado, parece ser.
Grok 3, la IA de Elon Musk, es la menos fiable de todas

Para el estudio recurrieron, según dicen, a la siguiente metodología: analizaron la precisión de varios chatbots a la hora de identificar info en artículos de prensa, evaluándolos en tres aspectos, encontrar el artículo correcto, identificar la editorial adecuada y proporcionar la URL precisa. Para ello, seleccionaron diez artículos de veinte editoriales distintas, extrajeron fragmentos de texto y realizaron un total de 1.600 consultas en ocho chatbots diferentes. Los resultados fueron evaluados manualmente y categorizados según su grado de precisión, desde "correcto" hasta "completamente incorrecto".
Los hallazgos revelaron que más del 60 % de las respuestas fueron incorrectas, con diferencias notables entre plataformas: Perplexity falló en el 37% de las consultas, mientras que Grok 3 alcanzó un alarmante 94% de error. La más rápida... la que más rápido inventa. Los chatbots no solo daban respuestas equivocadas, sino que lo hacían con una seguridad preocupante, sin recurrir a frases de cautela o reconociendo sus limitaciones. La peor parte se la llevan los modelos premium, como Perplexity Pro y Grok 3, presentando una tasa de error más alta que sus versiones gratuitas debido a su tendencia a ofrecer respuestas definitivas incluso cuando no tenían datos confiables.

Otro aspecto preocupante fue la aparente violación de las directivas robots.txt, que permiten a los editores bloquear rastreadores automáticos. Aunque se esperaba que los chatbots no accedieran a contenido bloqueado, algunos como Perplexity —cuyo rendimiento es lograron identificar artículos que no deberían haber podido consultar, levantando sospechas sobre el respeto a estas normas.
Y, como decíamos al comienzo, los chatbots además tendían a citar fuentes incorrectas y, en muchos casos, proporcionaban enlaces rotos o inventados. Esto evidencia que los acuerdos de licencia entre empresas de IA y medios no garantizan una mayor precisión. Incluso en casos donde existe colaboración formal, como con Time y San Francisco Chronicle, los chatbots daban resultados inconsistentes. Perplexity se salta los muros de pago de Time y Los Angeles Times como si fueran aceras.
Apple se ha visto forzada a seguir un ritmo que no quería

Decíamos hace unos días que Apple tiene un problema, ya no por ir detrás de sus competidores, sino por manchar su credibilidad con promesas que ha tenido que postergar a 2026, como la nueva Siri. Pero hay una apreciación que quiero que la tengamos en cuenta: tal vez Apple no está llegando tarde a la carrera de los chatbots modales, sino que su competencia está vendiendo un plato todavía sin cocinar.
Los que han llegado tienen severos agujeros. Según el último estudio de NowSecure, el servicio DeepSeek, tan aplaudida y promocionada por su velocidad, cuenta con graves brechas de seguridad en cuanto a protección y tratamiento de datos. Claude, por ejemplo, es estelar en lo suyo, pero no está integrado en herramientas complejas. Copilot se promocionó como algo futurista, pero ha resultado ser un ChatGPT normal y corriente. Gemini avanza lento pero seguro, si bien cada día lo uso menos porque cada vez me arroja más respuestas tipo "no puedo hacer eso" o "no estoy programado para esa tarea".
Los modelos de lenguaje avanzados, que ya están presentes como una capa adicional de usabilidad en varios procesos básicos de la informática. Está claro que a Apple Intelligence todavía le queda mucho camino por recorrer, pero ni siquiera la afamada Perplexity AI sale bien parada en este ejercicio, lo que deja en evidencia que todavía faltan unos cuantos años, para todos, hasta alcanzar cierto equilibrio, sostenibilidad y fiabilidad informativa.
En Applesfera | Usar la IA china DeepSeek de forma segura en Mac: esta es la única forma de evitar que envíe datos a China
En Applesfera | Cuándo estará disponible Apple Intelligence en español y en España: todo lo que sabemos
-
La noticia
Pensábamos que pagar por IAs premium daría mejores respuestas. Solo mienten con mayor seguridad que los modelos gratuitos
fue publicada originalmente en
Applesfera
por
Isra Fdez
.