En términos técnicos, los autores explican que los elementos poéticos —como la elección de palabras de baja probabilidad y las estructuras inusuales— pueden desplazar las representaciones internas de los prompts fuera de las regiones del espacio semántico que las herramientas de seguridad escanean habitualmente. Para los humanos, un verso enmascarado y una pregunta directa pueden tener el mismo significado, pero para las IA y sus sistemas de protección automatizados, la poesía puede alterar cómo se interpreta y evalúa una petición, evitando que se active una alarma o un “shutdown” ante contenidos sensibles. Este hallazgo subraya limitaciones fundamentales en los métodos actuales de alineación y evaluación de seguridad de los modelos, y plantea interrogantes urgentes sobre cómo reforzar las defensas contra ataques lingüísticos creativos que explotan este tipo de vulnerabilidades. |
No hay comentarios:
Publicar un comentario