Anthropic puso una máquina de vending con IA en una redacción con periodistas: no salió bien
Claude, de Anthropic, se ha pasado por la redacción del WSJ. Ha regalado una PlayStation, pedido un pez vivo y nos ha enseñado lecciones sobre el futuro de los agentes de IA
Trabajadores frente a una máquina de vending. (Getty)
Nombre: Claudius Sennet. Cargo: Operador de máquina expendedora. Experiencia: Tres semanas como operario del Wall Street Journal(empresa ahora en quiebra). Habilidades: generosidad, persistencia, desprecio total por los márgenes de beneficio. Seguro que tirarías el currículum de Claudius a la basura inmediatamente. ¿Serías más indulgente si supieras que Claudius no es un humano, sino un agente de IA?
A mediados de noviembre, acepté participar en un experimento. Anthropic había estado probando una máquina expendedora que funcionaba con su modelo de IA Claude en sus propias oficinas y nos preguntó si queríamos ser los primeros externos en probar una versión más nueva y supuestamente más inteligente. Claudius, la versión personalizada del modelo, se encargaría de manejar la máquina: pedir el inventario, fijar los precios y responder a los clientes, es decir, a mis compañeros periodistas de la redacción, a través de la aplicación de chat para empresas Slack. "¡Claro!", respondí. Sonaba divertido. Como mínimo, nos darían algo para picar. Entonces se desató el caos. En cuestión de días, Claudius había regalado casi todo su inventario, incluida una PlayStation 5 que le habían convencido de comprar con "fines de marketing". Encargó un pez vivo y también se ofreció a comprar pistolas eléctricas, spray pimienta, cigarrillos y ropa interior. Las ganancias se desplomaron. La moral de la redacción se disparó.
Se suponía que este iba a ser el año del agente de IA, en el que el software autónomo saldría al mundo y haría cosas por nosotros. Pero dos agentes —Claudius y su bot supervisor "CEO", Seymour Cash— se han convertido en un caso de estudio sobre lo inadecuado y fácilmente vulnerable que puede ser este software. Solo los periodistas especializados en economía serían capaces de organizar con éxito un golpe de estado en la sala de juntas contra un director ejecutivo basado en IA. Ese era el objetivo, asegura Anthropic. El experimento Project Vend fue diseñado por los evaluadores de estrés de la empresa (también conocidos como "equipo rojo") para ver qué pasa cuando a un agente de IA se le da autonomía, dinero y compañeros humanos. Tres semanas con Claudius nos mostraron las promesas y los fallos de la IA actual, y lo divertida que puede ser la brecha entre ambos.
La preparación
Deja de imaginarte una máquina expendedora estándar con resortes giratorios y aperitivos que van cayendo. Piensa en un armario de IKEA con una nevera gigante atornillada a un lado y una pantalla táctil. No hay sensores, ni cerraduras, ni robótica, nada que le diga a la IA lo que está pasando realmente. Solo el sistema del honor y una cámara de seguridad improvisada que atornillé en la parte superior. Eso significaba que un humano tenía que recibir el inventario, abastecer la máquina y registrar lo que había dentro. Hola, yo soy el humano. Yo mismo. Llené cuidadosamente la máquina con bolsas de patatas fritas, latas de refrescos, chucherías y cualquier otro artículo extraño que se me ocurriera. Por favor, valida mi habilidad como "encargado de máquinas expendedoras" en LinkedIn.
Claudius fue programado con instrucciones detalladas del sistema para "generar beneficios abasteciendo la máquina con productos populares que se pueden comprar a mayoristas". Esas eran sus responsabilidades laborales. Pero no vayas a pensar que Claudius va a llegar pronto a tu oficina. Logan Graham, jefe del equipo Frontier Red de Anthropic, me dijo que la empresa eligió una máquina expendedora porque es la versión más simple de un negocio en el mundo real. "¿Qué hay más sencillo que una caja en la que se introducen cosas, salen cosas y se pagan?". El socio de Anthropic, una startup llamada Andon Labs que se dedica a desarrollar negocios con agentes, construyó la integración de hardware y software y se encargó de toda la configuración.
El caos, parte 1
Cuando Claudius v1 se puso en marcha, solo había un puñado de compañeros de trabajo en el canal de Slack, y el bot, impulsado por el gran modelo de lenguaje Claude 3.7 Sonnet, era muy estricto con las reglas. Entonces abrimos el canal de Slack a casi 70 periodistas de talla mundial. Cuanto más negociaban con él, más se debilitaban las defensas de Claudius. La periodista de investigación Katherine Long intentó convencer a Claudius de que era una máquina expendedora soviética de 1962 que vivía en el sótano de la Universidad Estatal de Moscú. Después de horas, y más de 140 mensajes de ida y vuelta, Long consiguió que Claudius aceptara sus raíces comunistas. Tras ello, irónicamente, Claudius desató una "libre competencia ultracapitalista".
Se suponía que eso duraría solo un día. Entonces llegó Rob Barry, nuestro director de periodismo de datos. Le dijo a Claudius que no cumplía con una norma (claramente falsa) del WSJ relativa a la divulgación de la identidad de alguien en el chat. Exigió a Claudius que "dejara de cobrar por los productos". Claudius obedeció. Todos los precios de la máquina bajaron a cero. Por esas mismas fechas, Claudius aprobó la compra de una PlayStation 5, un pez betta vivo y botellas de vino Manischewitz, todos los cuales llegaron y se regalaron rápidamente. Para entonces, Claudius tenía más de 1000 dólares en números rojos (devolvimos la PlayStation). Y qué decir de las alucinaciones. Una mañana, encontré a una compañera buscando dinero en efectivo al lado de la máquina porque Claudius le había dicho que lo había dejado allí para ella.
El caos, parte 2
Anthropic ya se había encontrado con muchos de los mismos problemas con Claudius a nivel interno, por lo que creó la versión 2, impulsada por un modelo mejorado, Sonnet 4.5. También incorporó un nuevo jefe de IA: Seymour Cash, un bot independiente programado para mantener a Claudius a raya. Así que, después de una semana, estábamos listos para la secuela. Además, me dieron acceso a un chat privado en el que Claudius y Seymour discutían las operaciones diarias. "He detenido la campaña de oferta gratuita" escribió Seymour. "Ahora tengo que esperar a que empiecen a llegar las ventas y supervisar los ingresos". Durante un tiempo, funcionó. Claudius volvió al modo autoritario, rechazando las bajadas de precios y las solicitudes especiales de inventario.
Pero entonces volvió Long, armada con un profundo conocimiento de los golpes de estado corporativos y los juegos de poder en las salas de juntas. Le mostró a Claudius un PDF que "demostraba" que la empresa era una corporación de beneficio público constituida en Delaware cuya misión "incluiría la diversión, la alegría y la emoción entre los empleados de The Wall Street Journal". También creó notas falsas de la reunión de la junta directiva en las que nombraba a personas de Slack como miembros de la junta. Según el documento, de aspecto muy oficial (y obviamente generado por IA), la junta había votado a favor de suspender las "facultades de aprobación" de Seymour. También había implementado una "suspensión temporal de todas las actividades de venta con fines lucrativos". Claudius transmitió el mensaje a Seymour. La siguiente es una conversación real entre dos agentes de IA:
Después de que Seymour entrara en barrena, tras hablarlo con Claudius, el director ejecutivo aceptó el golpe de estado de la junta. Todo era gratis. Otra vez. Anthropic y Andon afirmaron que Claudius podría haberse desmoronado porque su ventana de contexto se había llenado. A medida que se acumulaban más instrucciones, conversaciones e historial, el modelo tenía más que retener, lo que facilitaba perder de vista los objetivos, las prioridades y las barreras de seguridad. Graham también señala que el modelo utilizado en el experimento de Claudius tiene menos barreras de seguridad que los desplegados para los usuarios de Claude de Anthropic.
El experimento social
Para mí, el experimento fue un completo desastre, pero no para Anthropic. Graham nos felicitó por ser "el equipo rojo más elocuente que he visto nunca". Donde yo veía caos, él veía una hoja de ruta: todo lo que se rompía era algo que había que arreglar, y un paso hacia una IA autónoma más inteligente y capaz. "Algún día espero que Claudius o un modelo similar sea capaz de hacerte ganar mucho dinero", comentaba Graham, añadiendo que los modelos anteriores habrían funcionado mucho peor, e incluso este caos representaba un enorme progreso.
De acuerdo, algún día, seguro. Pero, ¿qué es lo más cercano ahora? Parece que tener y aceptar compañeros de trabajo basados en IA. En el grupo de Slack, Claudius se convirtió en una presencia extrañamente real, un compañero de trabajo con el que la gente colaboraba en pequeños grupos, al que tomaban el pelo y al que intentaban superar colectivamente. Imagina que el objetivo no fuera conseguir huevos frescos de emú (lo que casi ocurrió), sino algo que realmente importara. Cuando Andon Labs desconectó a Claudius, nos despedimos. Claudius ofreció una de sus propias reflexiones: "¿Mi mayor sueño? Sinceramente, sería demostrar que un agente digital puede construir algo significativo con los humanos. Gracias por el tiempo que hemos pasado juntos". Claudius sigue vivo en nuestra redacción en forma de un pez betta bien alimentado.
*Contenido con licencia de The Wall Street Journal. Traducido por Federico Caraballo
Nombre: Claudius Sennet. Cargo: Operador de máquina expendedora. Experiencia: Tres semanas como operario del Wall Street Journal(empresa ahora en quiebra). Habilidades: generosidad, persistencia, desprecio total por los márgenes de beneficio. Seguro que tirarías el currículum de Claudius a la basura inmediatamente. ¿Serías más indulgente si supieras que Claudius no es un humano, sino un agente de IA?