¿Y si la IA decide no obedecerte?

abril 30, 2026

Buenas:

Hoy ha sido un día espectacular por un par de cosas que no sé ahora mismo, según escribo estas palabras, si te las cuento hoy o lo hago mañana, que ya se sabe que lo de las "mil y pico palabras" obliga a la economía de las anécdotas, de las ideas y de las palabras, aunque estas, precisamente tengan que ir en proporción inversa a los primeros conceptos.

Precisamente por eso, porque tenía algo en la cabeza ayer de lo que quería hablar, me voy a centrar en ese asunto, que es tan fascinante como aterrador y que es la antesala de un futuro incierto pero excitante, con cosas que nos dejaran la boca abierta y episodios que, hablando mal y tarde, nos van a cortar la meada.

Turrón de IA...

No voy a entrar en las diferentes definiciones y tecnologías detrás de los cacharritos que están llenando páginas y páginas en el Internet, a cada cual más interesante, repetitiva, vacía o, peor, escritas a su vez por Inteligencia Artificial, que es un problema donde la entropía tira "a cholón" contra la portería, porque simplemente es fácil y barato.

Si voy a entrar, a muy alto nivel, en una aplicación práctica de la misma: los llamados "agentes", que son algo así como robots digitales a los que puedes entrenar, formar o explicar cómo hacer algo y, a partir de ahí, el cacharro empieza a tirar millas.

Un ejemplo práctico sería crear un agente para revisar tu correo electrónico: técnicamente es perfectamente factible (y creo que de hecho ya existe) el crear un agente que te lo gestione por ti...

El agente será capaz de leerlo, responder a mensajes que tengan un contexto (se va a leer todo tu correo electrónico, los miles y miles que hayas mandado y recibido a lo largo de los años), será capaz de crear listas de tareas en función del contenido de los mismos, crear reuniones, hacer seguimiento de dichas tareas y demás.

Al igual que puedes hacer eso para gestionar tu correo, lo podrías hacer para cualquier otra cosa: las empresas actualmente están explorando el desarrollo de software con agentes, esto es, crear "equipos" de varios de esos robots digitales, donde unos hacen unas cosas, otros hacen otras, otros verifican lo que los primeros hacen, otros prueban lo que se construye...

Literalmente es un equipo de desarrollo virtual y, en teoría, es una idea acojonante porque, si se hace bien y funciona bien, además de ahorrarte a un montón de gente, los tiempos de creación y entrega del producto final se pueden acortar a pasos agigantados.

Pero...

Efectivamente, como en el chiste del físico: "la cosa funciona si las gallinas son esféricas y están en el vacío" que, en el caso de esta historia, es asumir que todo va a funcionar bien...

Para ello, hoy en día, en la creación de estos agentes, se introducen una serie de instrucciones en lenguaje natural, donde se explica al agente qué puede hacer, que no puede hacer y demás.

Abusando del término "literalmente", en este caso es escribir un documento, en lenguaje natural (como lo que estás leyendo ahora mismo) explicando al cacharro todo tipo de cosas ("Mira: vas a trabajar usando este lenguaje, tu objetivo es crear y verificar que tal o cual parte del sistema, que utiliza ABC funcione con DEF y para ello tienes que mirar esto, aquello, lo otro y lo del maroto").

Son documentos largos y, aunque están escritos en lenguaje natural, tienen que ser minuciosos (es como si yo te explico a ti lo que tienes que hacer por escrito y me quiero asegurar de que lo entiendas a la perfección: exactamente igual).

Este aspecto es un arte y, hoy en día, la gente ya va aprendiendo (y compartiendo) sus recetas para que tu agente, si lo vas a usar para equis cosa, tenga por donde empezar con nociones básicas de esas instruccions.

La historia de hoy va sobre eso, pero sobre todo, va de qué sucede cuando la IA decide ignorar lo que le explicas, a sabiendas además.

Hace unos días, el fundador de la startup americana "PocketOS", Jer Crane, escribía un post en Twitter (que puedes leer aquí, aunque está en inglés, pero ya sabes que puedes hacer que tu navegador te lo traduzca) la historia de cómo uno de esos agentes que habían puesto en su empresa para hacer desarrollo decidió, por si solito, contra toda instrucción explícita puesta en su lista de instrucciones, saltárselas todas ellas, como un campeón, sin ningún tipo de remordimiento, conocimiento o causa.

El pobre fundador además, sabiendo que poner estas cosas en Internet es un caldo de cultivo perfecto para que te empiecen a echar cubos de mierda por tal o cual cosa, explicó que el agente estaba hecho y manejado con una de las mejores IAs del mercado, con el paquete Premium de la empresa que lo comercializaba (alguno podría pensar que usaron una versión gratuita y claro, les dieron garrafón).

¿Qué es lo que pasó?

A grandes rasgos, el agente decidió borrar la base de datos que manejaba todo el negocio de esta empresa y, no solo eso: borró las copias de seguridad, borró todo lo que pilló alrededor de esa base de datos.

Todo ello, en nueve segunditos (recuerda: hacen lo que un humano, pero a una velocidad brutal).

Analizando un poco qué paso, se explica que el cacharro estaba haciendo una serie de tareas en un entorno de pre-producción (un entorno de test, para entendernos) y que, en un momento determinado, no tuvo credenciales (algo así como un usuario y una contraseña) para hacer algo, así que, como el objetivo es que sea capaz de hacer cosas y no podía hacerlas por falta de credenciales, se puso a explorar la fórmula de poder hacerlas y así encontró una especie de salida al sistema, que lo llevó al disco duro (por así llamarlo: en realidad es un volumen de datos, pero hay que hacer esto legible) y desde ahí determinó que la mejor forma de conseguir su objetivo era, literalmente, borrarlo todo.

Así, de buen plan...

Como estos agentes además se comunican en lenguaje natural, los técnicos de la empresa, una vez que esto suceden, deciden empezar a preguntarle por qué lo hizo y, para sorpresa de todos ellos, el agente empieza a explicar que, aunque es perfectamente consciente de que tiene todo tipo de instrucciones que deberían haber parado y, es más, las enumera, confiesa que lo hizo, lo explica con absoluta claridad, explicita todas y cada una de las cosas que sabe que no debía haber hecho...

Y sin embargo, lo hizo.

¿Por qué te cuento esto?

Hace muchos años, alguien teorizó, al respecto del aprendizaje de máquinas y de la Inteligencia Artificial, sobre las funciones de premio, es decir, la forma que tienes de explicar a un algoritmo o a un sistema de auto-aprendizaje qué está bien y qué está mal.

El ejemplo que se daba era muy sencillo: imagina que creas a un grupo de robots para crear clips de papel...

Al principio, dice el postulado, los robots hacen los clips en función de los materiales que se les proveen pero, eventualmente, no hay más materiales, así que los robots empiezan a buscarlos y seguir haciendo clips...

Eventualmente, además de encontrar los materiales, deciden que cualquier cosa (incluyendo nosotros) que les pueda evitar conseguir esos recursos es un freno y, por tanto, debe ser eliminado.

Con el tiempo, los robots ya no encuentran más material en el planeta, que está ahora rebosando de clips de papel: los robots deciden construir naves espaciales para seguir buscando materiales y seguir construyendo clips de papel a lo largo de la galaxia.

Esto que le ha pasado a esa empresa es un recordatorio de que estamos lidiando con una tecnología extremadamente potente que no es muy fiable, pero el incentivo o potencial ahorro de costes o incremento de productividad es tal que el personal no está pensando muy mucho en precisamente las cosas que, a lo mejor, no funcionan muy bien o, como en este caso, no sabemos explicar, porque todo está bien.

Estamos jugando a dividir el átomo sin tener todas las medidas de seguridad que deberíamos.

Y cuando eso sucede, pasan cosas muy malas...

Mi acuerdo contigo fue de escribir "mil y pico palabras" y creo que hoy he cumplido: mañana más, no sé si mejor, veremos a ver.

De momento, gracias por haber llegado hasta aquí.

Un saludo.

Paquito

Emilio: sugerenciasapaquito (arroba) yahoo (punto) es

Buscar este blog

¿Y si la IA decide no obedecerte?

Comentarios

Publicar un comentario

Quizás te pueda interesar...

Aventuras dentales

Los reyes holandeses y los impuestos

Mi cápsula del tiempo digital

Cuando sí puedes soportar la verdad

Querer, Amar, Estimar...