La nueva inteligencia artificial de Anthropic, Claude Fable 5, ha sido víctima del ‘jailbreaking’ en menos de 48 horas desde su lanzamiento. Este hecho ha encendido una vez más el debate sobre la seguridad en los modelos de IA y nos hace preguntarnos: ¿realmente están a salvo nuestras tecnologías más avanzadas?
Hace poco, Anthropic presentaba con orgullo su creación, una IA inspirada en Mythos, prometiendo un sistema capaz de realizar tareas complejas como razonamiento o programación. Sin embargo, lo que parecía ser un avance sin precedentes se ha convertido rápidamente en una polémica. El usuario conocido como Pliny the Liberator logró burlar las medidas de seguridad del sistema utilizando técnicas ingeniosas de jailbreaking. Combinaciones de caracteres especiales y reformulaciones astutas fueron suficientes para sortear las barreras.
¿Estamos ante un problema real de seguridad?
En su publicación en la red social X, Pliny compartió cómo utilizó caracteres Unicode y una versión modificada de otro modelo anterior para engañar al sistema. A pesar de que Anthropic asegura haber implementado nuevos mecanismos para detectar intentos de jailbreak, estos resultados sugieren que siempre habrá alguien dispuesto a encontrar la forma de sortear cualquier protección.
A medida que esta controversia avanza, también crece la preocupación entre desarrolladores e investigadores sobre la falta de transparencia en las limitaciones impuestas por Anthropic. Muchos critican que estas restricciones pueden hacer más daño que bien, especialmente cuando hablamos del campo tan delicado como es la ciberseguridad.
El caso Claude Fable 5 nos plantea una pregunta crucial: ¿cómo podemos disfrutar del progreso tecnológico sin poner en riesgo nuestra seguridad? Aunque algunos ven este lanzamiento como un equilibrio entre capacidad y protección, los hechos recientes demuestran que la carrera entre quienes crean sistemas seguros y aquellos que buscan vulnerarlos está más viva que nunca.

