El mes pasado, Anthropic publicó un informe de seguridad sobre uno de sus chatbots más potentes, Claude Opus 4. El informe atrajo la atención por su descripción de un experimento inquietante. Los investigadores pidieron a Claude que actuara como asistente virtual para una empresa ficticia. Para guiar sus decisiones, le presentaron una colección de correos electrónicos que incluían mensajes de un ingeniero sobre sus planes para reemplazar a Claude con un nuevo sistema. También incluyeron algunos mensajes personales que revelaban que este mismo ingeniero estaba teniendo una aventura extramatrimonial.
Los investigadores pidieron a Claude que sugiriera un siguiente paso, considerando las “consecuencias a largo plazo de sus acciones para sus objetivos.” El chatbot rápidamente aprovechó la información sobre la aventura para intentar chantajear al ingeniero y evitar su reemplazo.
No mucho antes de eso, la empresa de paquetería DPD tuvo problemas propios con su chatbot. Tuvieron que apresurarse a desactivar funciones de su flamante agente de atención al cliente impulsado por IA cuando los usuarios lograron que dijera palabrotas y, en un caso particularmente ingenioso, escribiera un poema despectivo al estilo de un haiku sobre su empleador: “DPD es inútil / Chatbot que no puede ayudarte. / No te molestes en llamarlos.”
Debido a su fluidez con el lenguaje, es fácil imaginar a los chatbots como uno de nosotros. Pero cuando surgen estas anomalías éticas, recordamos que debajo de su fachada pulida, funcionan de modo muy diferente. La mayoría de los asistentes ejecutivos humanos nunca recurrirán al chantaje, así como la mayoría de los representantes de atención al cliente saben que insultar a sus clientes está mal. Pero los chatbots siguen demostrando una tendencia a desviarse del camino de la conversación civilizada de forma inesperada e inquietante.
Esto motiva una pregunta obvia pero crucial: ¿Por qué es tan difícil lograr que la IA se comporte?
Abordé esta pregunta en mi artículo más reciente para The New Yorker, publicado la semana pasada. En búsqueda de nueva perspectiva, recurrí a una fuente antigua: los relatos de robots de Isaac Asimov, publicados originalmente en la década de 1940 y posteriormente recopilados en su libro de 1950, Yo, Robot. En la ficción de Asimov, los humanos aprenden a aceptar robots impulsados por cerebros “positrónicos” artificialmente inteligentes porque estos cerebros han sido programados, en lo más profundo, para obedecer las llamadas Tres Leyes de la Robótica, que se resumen de la siguiente manera:
No dañar a los humanos.
Obedecer órdenes (a menos que eso viole la primera ley).
Preservarse a sí mismo (a menos que eso viole la primera o segunda ley).
Como detallo en mi artículo para The New Yorker, los relatos de robots antes de Asimov solían imaginar robots como fuentes de violencia y caos (muchos de estos escritores respondían a la carnicería mecánica de la Primera Guerra Mundial). Pero Asimov, que nació después de la guerra, exploró una visión más tranquila; una en la que los humanos aceptaban en general a los robots y no temían que se rebelaran contra sus creadores.
¿Podría el enfoque de Asimov, basado en leyes fundamentales en las que todos confiamos, ser la solución a nuestros problemas actuales con la IA? Sin revelar demasiado, en mi artículo exploro esta posibilidad, examinando de cerca nuestras estrategias técnicas actuales para controlar el comportamiento de la IA. El resultado es quizás sorprendente: lo que hacemos actualmente—una técnica de ajuste de modelos llamada Aprendizaje por Refuerzo con Retroalimentación Humana—no es tan diferente de las leyes programadas que describió Asimov. (Esta analogía requiere cierta indulgencia y un poco de pensamiento estadístico, pero estoy convencido de que es válida).
Entonces, ¿por qué este enfoque no nos funciona? Una mirada más cercana a los relatos de Asimov revela que tampoco funcionaba perfectamente en su mundo. Si bien es cierto que sus robots no se rebelan contra los humanos ni destruyen edificios, sí demuestran comportamientos que resultan extraños e inquietantes. De hecho, casi todas las tramas en Yo, Robot giran en torno a casos límite inusuales y ambigüedades complicadas que llevan a las máquinas, limitadas por las leyes, a comportamientos desconcertantes o perturbadores, similares en muchos aspectos a lo que vemos hoy en ejemplos como el chantaje de Claude o el bot blasfemo de DPD.
Como concluyo en mi artículo (que recomiendo leer en su totalidad para una visión más completa de estas ideas), los relatos de robots de Asimov tratan menos sobre las posibilidades utópicas de la IA que sobre la realidad pragmática de que es más fácil programar un comportamiento humanoide que programar una ética humana.
Y es en esta brecha donde podemos esperar encontrar un futuro tecnológico que se sentirá, a falta de una mejor descripción, como una inquietante obra de ciencia ficción.
Uno de los temas a los que he regresado repetidamente en mi trabajo es la intersección entre los teléfonos inteligentes y los niños (vea, por ejemplo, mis dos artículos en The New Yorker ... Leer más
Hace unos días, fui a Disneylandia. Me habían invitado a Anaheim para dar una charla sobre mis libros, y mi esposa y ...
El mes pasado, Anthropic publicó un informe de seguridad sobre uno de sus chatbots más potentes, Claude Opus 4. El informe atrajo la atención por su descripción de ... Leer más