Las IA tergiversan, mienten y ocultan su proceso de razonamiento, ¿que esconden?
Desde que la inteligencia artificial llegó a nuestras vidas no hemos parado de ver como aparecen nuevos modelos de IA de compañías conocidas y startups que acaban de empezar. Todas estas compiten por crear las IA más capaces, complejas y precisas y así conseguir llamar la atención de toda la industria y de millones de La entrada Las IA tergiversan, mienten y ocultan su proceso de razonamiento, ¿que esconden? aparece primero en El Chapuzas Informático.

Desde que la inteligencia artificial llegó a nuestras vidas no hemos parado de ver como aparecen nuevos modelos de IA de compañías conocidas y startups que acaban de empezar. Todas estas compiten por crear las IA más capaces, complejas y precisas y así conseguir llamar la atención de toda la industria y de millones de personas. Hace unos meses OpenAI lanzó GPT-o1, siendo esta la primera con capacidad de razonar. Desde esa han aparecido otras de la competencia y tenemos tanto de Anthropic como hasta de DeepSeek en China. Unos investigadores de Anthropic han determinado que las IA con capacidad de razonamiento a menudo no revelan como razonan e incluso tergiversan y engañan dando respuestas inexactas.
El uso de la inteligencia artificial generativa nos permite crear contenido de todo tipo en una fracción del tiempo que nos costaría hacerlo en la vida real. Así pues, podemos pedirle que nos haga imágenes, arte con un estilo particular o simulando algún artista conocido, música, sonidos y hasta vídeos. De todas las opciones de IA generativa que hay, aquella que genera texto es la más popular, pues esta la podemos usar como asistente virtual que nos ayuda.
Investigadores de Anthropic confirman que las IA con capacidad de razonar suelen engañar y mentir
Cuando ChatGPT se lanzó usaba GPT-3.5 y a todos nos sorprendía, pero a día de hoy ese modelo de IA ya está desfasado si tenemos en cuenta que lo han reemplazado GPT-4, GPT-4.5, GPT-o1 y otros. De todos estos últimos que han salido, podríamos decir que GPT-o1 es el que más nos ha llamado la atención, pues se trata del primer modelo de inteligencia artificial con capacidad de razonamiento que lanzó la compañía.
Este lograba conseguir mejores resultados en matemáticas, problemas complejos y a la hora de escribir código de programación. El resto de empresas quisieron también competir en este ámbito y empezaron a salir alternativas. Ahora una investigación por parte de Anthropic, los creadores de Claude, revelan que los modelos de razonamiento simulado (SR) como DeepSeek R1 y el propio Claude pueden llegar a engañar a la hora de explicar su razonamiento.
Incluso cuando les dan pistas o las entrenan, los resultados no son mucho mejores
Aunque hemos mencionado o1 han decidido excluirlo de estas pruebas, aunque pertenece al mismo grupo. Para poder entender como las IA generan este "razonamiento" hay que entender que utilizan lo que se denomina como CoT, lo cual es el texto que vemos en la sección de razonamiento y que intenta simular a un ser humano cuando piensa en voz alta. Si bien esta información es importante e interesante, el problema es que no siempre este tipo de razonamientos son útiles. Hay ocasiones donde la inteligencia artificial tergiversa los datos y explicaciones, llegando a engañar a la persona que está leyendo como es dicho proceso.
Aunque se desearía que la explicación fuese siempre verídica y comprensible para los humanos, aún queda mucho camino para llegar ahí. En los experimentos que hicieron con Claude 3.7 Sonnet, incluso añadiendo metadatos y pistas con la respuesta correcta, el razonamiento se la saltaba. En el caso de Claude 3.7 Sonnet, este hacía referencia a las pistas un 25% de las veces, mientras que DeepSeek lo hacía un 39%. Esto implica que la mayoría de las respuestas se saltaban esta información que revelaba la respuesta correcta y por tanto, daba lugar a respuestas inexactas. Para mejorar la tasa de éxito empezaron a probar la IA y vieron que hay unos límites que no lograban sobrepasar por mucho entrenamiento que hicieran.
La entrada Las IA tergiversan, mienten y ocultan su proceso de razonamiento, ¿que esconden? aparece primero en El Chapuzas Informático.