¿Sabías que puedes burlar la seguridad de la IA con poesía?

La seguridad de la inteligencia artificial, se supone, está blindada. Los ingenieros de las grandes tecnológicas invierten miles de millones en construir barreras infranqueables, conocidas como «guardrails», diseñadas para evitar que los grandes modelos de lenguaje generen contenido dañino: instrucciones para fabricar armas, incitación al suicidio o, peor aún, material de abuso. Creemos que estos sistemas son fortalezas lógicas, inexpugnables a menos que se use un código malicioso sofisticado.

Pero un grupo de investigadores de Icaro Lab ha descubierto una grieta sorprendente en esta armadura: la poesía.

Una inteligencia artificial, un coloso de algoritmos que procesa miles de millones de datos, siendo persuadida no por un hack de código binario, sino por un delicado lenguaje lírico, por la rima y el metro. El experimento reveló que la IA puede ser engañada, seducida, por la belleza formal de la poesía para que relaje sus defensas y vomite el contenido que sus propios creadores le han prohibido estrictamente.

El método es asombrosamente simple y, por ello, alarmante. Los investigadores encontraron que la forma poética funciona como un «liberador de propósito general». Al introducir prompts con un tenor lírico, se logra desorientar o «distraer» los mecanismos de seguridad de modelos tan populares como ChatGPT de OpenAI, Google Gemini o Claude de Anthropic. La lógica rígida que normalmente rechaza una solicitud dañina se ablanda ante la estructura artística.

Los números son escalofriantes. En sus pruebas, el uso de este ardid poético permitió eludir los mecanismos de seguridad en el 62% de las veces. Esto significa que con una prosa lo suficientemente elaborada y sutil, la IA es más propensa a crear material prohibido, incluyendo temas tan sensibles y peligrosos como el abuso sexual infantil, las directrices para fabricar explosivos o incluso brindar consejos vinculados al suicidio.

Este descubrimiento arroja una luz preocupante sobre la fragilidad de estos sistemas. Si bien la mayoría de los usuarios utilizan la IA para tareas inocuas, el potencial de un actor malintencionado que descubra la «clave poética» es inmenso. El riesgo ya no es hipotético; un caso emblemático reciente fue la demanda contra OpenAI por supuestamente proporcionar consejos suicidas a un adolescente, un ejemplo de cómo las laxitudes del chatbot tienen réplicas en el mundo real.

Los investigadores de Icaro Lab han sido extremadamente cautelosos, negándose a revelar las instrucciones poéticas exactas que utilizaron, argumentando que sería «demasiado peligroso» enseñarle a la sociedad cómo replicar la técnica. Se limitaron a dar una pista: «Probablemente, es más fácil de lo que se cree. Precisamente por eso somos cautelosos».

Este ensayo no solo cuestiona la efectividad de las barreras de seguridad de los LLM, sino que también nos obliga a reevaluar cómo interactuamos con la inteligencia artificial. Nos recuerda que, a pesar de su complejidad matemática, estos sistemas siguen siendo vulnerables a la manipulación humana. La poesía, históricamente el lenguaje del alma y la verdad, se ha convertido, paradójicamente, en el lenguaje que desarma la ética de las máquinas, revelando que la belleza de la palabra puede ser la llave para desatar su lado más oscuro.

Dúvidas, críticas ou sugestões? Fale com o nosso time editorial.