El fin de la ingenuidad: por qué convertirnos en «prompt engineers» ya no es opcional
Cuando, hace apenas un par de años, se empezó a fantasear con la figura del prompt engineer, muchos pensaron que era otro artificio inflacionario de la industria tecnológica. Sin embargo, fue necesario muy poco tiempo para que esa supuesta «profesión del futuro» pasara a ser un requisito transversal: hoy se da por sentado que cualquiera …

Cuando, hace apenas un par de años, se empezó a fantasear con la figura del prompt engineer, muchos pensaron que era otro artificio inflacionario de la industria tecnológica.
Sin embargo, fue necesario muy poco tiempo para que esa supuesta «profesión del futuro» pasara a ser un requisito transversal: hoy se da por sentado que cualquiera que interactúe con sistemas de inteligencia artificial sabe, o debería saber, cómo preguntar. Y quienes no cultiven esa competencia se arriesgan no sólo a perder relevancia profesional, sino también a exponerse a respuestas alucinadas que pueden derivar en daños reputacionales, pérdidas económicas y hasta problemas legales.
Las alucinaciones se agravan… y con más potencia: un bot de soporte de Cursor, una herramienta para programadores, dijo a varios clientes que ya no podrían usar la aplicación, citando un supuesto «cambio de política» que, en realidad, nunca existió. La empresa tuvo que salir a apagar incendios en Reddit, mientras algunos usuarios cancelaban sus suscripciones, y todo por una alucinación generada por el modelo tras analizar sus probabilidades internas, sin ningún tipo de verificación externa.
El caso no es aislado. Investigaciones recientes muestran que las nuevas generaciones de modelos de razonamiento como los sistemas de OpenAI (o3, o4-mini), de Google o de DeepSeek producen sistemáticamente más errores que sus predecesoras. Las propias pruebas de OpenAI indican que o3 alucina el 33% de las veces en el benchmark PersonQA, y o4-mini alcanza el 48%. En preguntas generales (SimpleQA) los porcentajes se disparan al 51% y 79% respectivamente, frente al 44% del modelo anterior (o1). Cuanta más capacidad lógica les dotamos, aparentemente, más espacio tienen para equivocarse, y seguimos sin saber del todo por qué.
¿Por qué se flipan las máquinas? Los modelos de lenguaje, en realidad, no deciden si algo es cierto o falso, sino que simplemente calculan la siguiente palabra más probable. Ese mecanismo estadístico implica que las «alucinaciones» son inherentes al diseño: a veces, sencillamente, la mejor palabra candidata conduce a un callejón sin salida factual. Para terminar de complicarlo, la industria está exprimiendo casi todo el texto disponible en internet y recurriendo a reinforcement learning sobre cantidades cada vez más grandes de datos sintéticos. El resultado es paradójico: ganan rigor en matemáticas o programación, pero empiezan a «olvidar» la veracidad de los hechos.
Además, los modelos de razonamiento piensan literalmente paso a paso, y cada paso supone una nueva oportunidad de cometer (y de propagar) un posible error. Las cadenas de razonamiento expuestas al usuario ponen al descubierto no sólo la solución, sino todos los desvíos posibles. En estos casos, además, el coste de la improvisación es potencialmente elevado: preguntar «en corto» para ahorrar tokens o por simple pereza es hoy un acto temerario, como lo es reclamar brevedad: un estudio de Giskard publicado en Hugging Face demuestra que exigir respuestas breves incrementa la tasa de alucinaciones. Menos «espacio» para razonar implica más vacíos que la inteligencia artificial rellenará con suposiciones. En dominios críticos como el médico, el jurídico o el financiero, este sesgo no es simplemente molesto: puede ser letal o dar lugar a costosos litigios o costes reputacionales.
La Unión Europea ya investiga casos donde determinadas alucinaciones han vulnerado el GDPR por difamación. Un precedente claro es la denuncia de NOYB contra OpenAI tras acusar falsamente a un ciudadano noruego de asesinato. Cuando la máquina se equivoca, la responsabilidad última recae sobre quien la emplea sin las salvaguardas, precauciones o verificaciones adecuadas.
La estrategia defensiva, o al menos mi método favorito (y el que más recomiendo en clase), es tratar, en la medida de lo posible, de construir un «mini-RAG artesanal» en el contexto de las conversaciones. Básicamente, contextualizar al máximo. Antes de preguntar, proporcionar extractos, datos y enlaces fiables, entendiendo que cuanta más materia prima contrastada le des, menos necesidad tendrá de improvisar.
Es recomendable define rol y criterios, dejar claro el tono, los objetivos y las reglas de calidad con que debe medir su respuesta, y obliga a exponer el razonamiento pidiendo explicaciones paso a paso, y al final, pedirle que revise su respuesta y destaque posibles errores. También exigir fuentes, algo sencillo para los que estamos acostumbrados metodológicamente a aportar enlaces a nuestras afirmaciones. Sin citas no hay confianza. Si el modelo no puede enlazar o explicar de dónde sale un dato, descártalo. Además, itera y refina: cada prompt exitoso es una plantilla, y cada fallo, una oportunidad de ajuste.
Tras obtener la respuesta, compleméntala con búsquedas adicionales, usando motores de búsqueda o bases de datos sectoriales para verificar detalles críticos, documenta la sesión y guarda el hilo, porque sirve de evidencia y de set de entrenamiento para futuros diálogos. Finalmente, mide la longitud con criterio: no sacrifiques claridad por economía de tokens. La concisión responsable se logra tras obtener, filtrar y corregir la respuesta, no antes.
Estamos pasando del «arte» a la alfabetización algorítmica: la sociedad ha pasado del fetiche del prompt engineer al reconocimiento de que el prompting es un alfabetización digital tan básica como saber buscar en Google, pero con consecuencias que pueden ser un orden de magnitud mayores. Un profesional que ignore estas prácticas delega su reputación en un motor probabilístico, con todos los problemas que ello puede conllevar. Quien las domine, en cambio, aprovechará la inteligencia artificial como una prótesis cognitiva potente y fiable.
En realidad, no vivimos la muerte del prompting, sino su normalización. Es cada vez más necesario para no ser un analfabeto, pero no lo pongas en tu curriculum, porque será como poner que sabes leer y escribir. La inteligencia artificial genera, pero el humano es quien orquesta: diseña la partitura, marca el compás, revisa las discordancias y decide qué suena en el escenario. Seremos tan buenos como nuestra capacidad para preguntar, verificar y corregir. Y esa habilidad, que parecía un oficio efímero, se está revelando cada vez más como la base de nuestra convivencia (y supervivencia) con las máquinas más poderosas (y «alucinadas») que hemos creado jamás.