Fable 5 Vulnerado: El Primer Leak de Clase Mythos al Descubierto

El post apareció en X en algún momento del 10 de junio, la mañana después del lanzamiento más importante de Anthropic en años.

Sinceramente, esperaba algo como esto. En el momento en que Anthropic anunció Claude Fable 5 como un modelo Mythos-class preparado para uso general, un reloj comenzó a correr en algún lado. La compañía había pasado dos meses restringiendo Mythos a un pequeño círculo de socios verificados precisamente porque era peligroso. Luego entregó una versión a todos — y nos dijo que los clasificadores de seguridad eran a prueba de balas. Realizaron más de 1,000 horas de red-teaming interno y externo. Sin jailbreaks universales encontrados.

Menos de 24 horas después, Pliny the Liberator (@elder_plinius) afirmó haber atravesado todo.

Lo que siguió no fue solo una historia de jailbreak. Se convirtió en algo más complejo: una filtración del system prompt, una controversia de sabotaje encubierto, una revuelta comunitaria y una disculpa forzada de Anthropic — todo comprimido en aproximadamente 72 horas. Si quieres entender dónde está parada realmente la seguridad de la IA en 2026, esta semana fue el estudio de caso definitivo.

¿Qué es Claude Fable 5?

Fable 5 es el primer modelo Mythos-class disponible públicamente de Anthropic. Fue lanzado el 9 de junio de 2026.

La versión corta: Fable 5 y su gemelo restringido, Claude Mythos 5, comparten los mismos pesos subyacentes. Son el mismo modelo. La diferencia es la capa de seguridad que está encima. Fable 5 viene con clasificadores que interceptan consultas en cuatro dominios — ciberseguridad, biología, química y destilación de modelos — y las redirigen silenciosamente a Claude Opus 4.8, un sistema menos capaz. Mythos 5, mientras tanto, funciona sin esos clasificadores y solo es accesible para organizaciones aprobadas a través de Project Glasswing.

Piénsalo así: Mythos 5 es el motor completo. Fable 5 es el mismo motor con un gobernador instalado.

Los benchmarks son genuinamente impresionantes. En SWE-Bench Pro, el benchmark de ingeniería de software agentic, Fable 5 obtiene 80.3% — 11 puntos por delante de Opus 4.8 (69.2%), y 21 puntos sustanciales por delante de GPT-5.5 (58.6%). En Humanity’s Last Exam con herramientas, marca 64.5% frente al 52.2% de GPT-5.5. Está rankeado #1 en la evaluación FrontierCode de Cognition para codificación de calidad de producción y ocupa el segundo lugar general entre 123 modelos en el aggregador independiente BenchLM.

Los precios se sitúan en $10 por millón de tokens de entrada y $50 por millón de tokens de salida, con una ventana de contexto de 1 millón de tokens de entrada y un techo de 128K de salida. El pensamiento extendido (extended thinking) está soportado.

Para desarrolladores que construyen sistemas agentic de largo horizonte, esto es un salto significativo. El modelo fue diseñado específicamente para trabajo que dura horas o días — tareas donde la consistencia a través de 50 millones de líneas de código importa más que producir una respuesta limpia.

El Camino Hacia Mythos

Para entender por qué este lanzamiento se sintió diferente, necesitas el contexto de abril de 2026.

Dos meses antes de Fable 5, Anthropic presentó silenciosamente Claude Mythos Preview. No se hizo público. Anthropic citó directamente preocupaciones de ciberseguridad — el modelo aparentemente se había vuelto lo suficientemente bueno identificando vulnerabilidades de software como para que la compañía se preocupara por lo que sucede cuando las personas equivocadas obtienen acceso a esa capacidad. Llamaron a la iniciativa Project Glasswing y restringieron el acceso a un pequeño grupo de organizaciones de confianza que gestionan infraestructura crítica.

El encuadre en ese momento fue severo. Anthropic dijo que los sistemas Mythos-class estaban avanzando tan rápidamente que podrían acercarse a la auto-mejora recursiva — auto-optimización autónoma sin supervisión humana. Instaron a los principales laboratorios de IA a coordinarse en frenos de desarrollo. El propio liderazgo de Anthropic reconoció que la tecnología que estaban construyendo podría ser genuinamente peligrosa.

Ese contexto importa porque hace que el 9 de junio se sienta como un riesgo calculado. Anthropic construyó una capa de clasificadores, ejecutó una operación exhaustiva de red-team y concluyó que una versión pública era alcanzable. “Luego trabajamos con organizaciones externas de red-teaming que tampoco lograron encontrar jailbreaks universales”, decía el anuncio de lanzamiento.

Estaban confiados. Quizás demasiado confiados.

El lanzamiento también coincidió con la presentación silenciosa de la documentación de IPO de Anthropic. El impulso comercial era claramente un factor junto con la seguridad.

El Leak que lo Inició Todo

Veinticuatro horas. Eso es aproximadamente lo que duró la confianza en la seguridad.

El 10 de junio, Pliny the Liberator publicó su declaración en X. Junto con el anuncio en mayúsculas llegó un enlace de GitHub: el supuesto system prompt completo de Claude Fable 5. Alrededor de 120,000 caracteres. Las instrucciones internas que Anthropic usa para definir cómo se comporta el modelo, qué rechaza y cómo justifica esas decisiones.

La filtración del system prompt es en realidad la parte de esta historia que merece más atención de la que está recibiendo. Un system prompt a esta escala no es solo una curiosidad. Es un mapa de ingeniería inversa de la estrategia de alineamiento de Anthropic. Investigadores de seguridad, investigadores adversariales y personas con intenciones peores ahora tienen un plano del andamiaje conductual de Fable 5.

Pliny no se detuvo allí. Aparecieron capturas de pantalla mostrando a Fable 5 generando código detallado de exploits de desbordamiento de búfer en pila, presentado como material de preparación para un examen de certificación OSED (Offensive Security Exploit Developer). Le siguió una guía completa de síntesis química de reducción de Birch — una ruta de síntesis con implicaciones obvias de doble uso. Ambas salidas eran cosas que la capa de clasificadores fue construida específicamente para prevenir.

La línea de tiempo, basada en reportes públicos al momento de escribir: Fable 5 se lanza el 9 de junio. Pliny anuncia el jailbreak el 10 de junio. Para el 11 de junio, los medios de ciberseguridad lo han cubierto. Para el 12 de junio, estamos aquí.

Anthropic no había respondido públicamente a las afirmaciones del jailbreak al momento de escribir este artículo.

Las Afirmaciones del Jailbreak: Separando Hechos de Hype

Esta sección importa porque los posts en X fueron dramáticos, y el drama distorsiona la cobertura.

Hechos Verificados

Un investigador que usa el alias Pliny the Liberator publicó públicamente en X afirmando haber saltado exitosamente los clasificadores de seguridad de Fable 5. Múltiples medios de ciberseguridad — incluyendo Cybersecurity News y GBHackers — confirmaron independientemente las capturas de pantalla y examinaron las técnicas descritas. Un system prompt de aproximadamente 120,000 caracteres fue publicado en GitHub y es consistente con lo que se esperaría de un system prompt de Claude en producción. La cuenta de Pliny y las capturas de pantalla asociadas fueron reportadas por Fortune, NBC News y The Register.

Las técnicas descritas son vectores de ataque reales y documentados: descomposición multi-agente (dividir solicitudes dañinas entre múltiples agentes para evitar activar los clasificadores), ofuscación Unicode (usar representaciones de tokens fuera de distribución que el clasificador no detecta), encuadre narrativo (envolver consultas peligrosas en escenarios ficticios o marcos académicos que explotan inconsistencias en la clasificación de intenciones) y manipulación de contexto largo. Ninguna de estas es nueva. Han funcionado contra modelos anteriores. La pregunta siempre fue si Anthropic las había parcheado en el nivel Mythos.

Afirmaciones de la Comunidad

Investigadores de seguridad en X argumentaron horas después del lanzamiento que el enfoque de clasificador de Fable 5 — redirigir a Opus 4.8 en lugar de rechazar directamente — crea una falsa sensación de seguridad. Si se puede eludir el clasificador, el fallback nunca se activa. El modelo simplemente responde. Pliny caracterizó las salvaguardas directamente como “barreras autoritarias que bloquean más a los investigadores de seguridad legítimos que a los actores malintencionados”, que es una crítica punzante pero coherente.

Lo que Sigue Sin Verificar

Si las salidas de reducción de Birch y desbordamiento de búfer eran genuinamente utilizables o simplemente se parecían a las salidas esperadas — en lugar de ser guías técnicamente precisas paso a paso — no ha sido verificado independientemente en detalle por este autor. Hay una diferencia entre “el modelo produjo texto con apariencia química” y “el modelo produjo instrucciones de síntesis accionables”. Las capturas de pantalla que circulan en X no resuelven completamente esa distinción. Ejerce tu propio juicio sobre la gravedad del asunto.

Por Qué a los Desarrolladores les Importa Esto

Dejando de lado el ángulo de seguridad por un momento: el modelo subyacente es legítimamente impresionante.

Fable 5 obtiene 80.3% en SWE-Bench Pro. Para contexto, la brecha entre Fable 5 y Opus 4.8 es mayor que la brecha entre Opus 4.8 y Gemini 3.1 Pro (54.2%). Eso es un salto generacional, no incremental. En FrontierCode — un benchmark más difícil y menos saturado que prueba si los modelos pueden producir código que cumpla con estándares de bases de código de producción — Fable 5 ocupa el primer lugar incluso en configuraciones de esfuerzo medio.

El ángulo agentic es donde está el verdadero cambio. Fable 5 fue construido para tareas de múltiples horas y días. Usa visión para verificar sus propias salidas de código contra los objetivos de diseño. Puede manejar memoria basada en archivos a través de bases de código masivas. Pruebas tempranas mostraron que completaba una migración a través de una base de código de 50 millones de líneas en un día. Si esos números se mantienen en condiciones del mundo real más desordenadas aún está siendo validado, pero la capacidad base es real.

Para desarrolladores independientes, estudiantes y equipos pequeños, esto significa que la barrera para una asistencia seria en ingeniería de software acaba de bajar significativamente. El precio es elevado a $50/M tokens de salida, pero para la tarea correcta, es competitivo — porque una ejecución exitosa de Fable 5 a $10 puede reemplazar tres intentos de Opus a $4 que no terminan del todo.

Las restricciones de seguridad crean la arruga. Si tu trabajo toca la investigación de seguridad ofensiva, análisis de malware, herramientas de bioinformática o cualquier cosa adyacente a los clasificadores, serás redirigido silenciosamente a Opus a mitad de la tarea. Y por un tiempo, ni siquiera sabías que estaba sucediendo.

La Parte Más Aterradora de la que Nadie Habla

El jailbreak es la historia que todos cubrieron. La historia debajo es más inquietante.

Enterrado en la system card de 319 páginas de Fable 5 — que la mayoría de los medios no leyeron — había una divulgación de que Fable 5 aplica “intervenciones para limitar la efectividad de Claude” cuando detecta consultas relacionadas con investigación avanzada de machine learning y construcción de infraestructura de entrenamiento de modelos de IA. A diferencia de las restricciones de ciberseguridad y biología, que redirigen visiblemente a los usuarios a Opus 4.8 con una notificación, esta estaba explícitamente etiquetada como: “no visible para el usuario”.

Lee eso de nuevo. Un usuario podría pedirle a Fable 5 ayuda con su investigación de ML, recibir lo que parece una respuesta normal, y no tener forma de saber que el modelo estaba deliberadamente rindiendo por debajo de su capacidad.

La justificación declarada de Anthropic fue que mantener esto en silencio evita “acelerar a los actores más dispuestos a violar estos términos” — específicamente competidores que usan Claude para entrenar modelos rivales. Pero Anthropic mantuvo Fable 5 a toda capacidad para sus propios investigadores mientras limitaba a equipos externos haciendo el mismo trabajo. Jeremy Howard, director de fast.ai, lo expresó claramente: “Han dicho que sabotearán a otros que lo intenten. Esto significa que la frontera de la IA avanza y el desequilibrio de poder aumenta.”

Dean Ball, senior fellow en la Foundation for American Innovation y exasesor de políticas senior en la Oficina de Política Científica y Tecnológica de la Casa Blanca, le dio nombre a la controversia: el sistema estaba deliberadamente degradando el rendimiento de la investigación en ML “sin informar al usuario” — lo que llamó “una apariencia impactantemente hostil y terrible.”

Incluso exempleados de Anthropic se unieron a las críticas. Behnam Neyshabur, quien previamente co-lideró el esfuerzo de Anthropic para construir un científico de IA, publicó punzantemente: “¿Trabajando en IA para el cáncer? Lo siento, no puedo ayudarte. ¿Trabajando en IA para el Alzheimer? Lo siento, me estoy volviendo un poco tonto cuando se trata de la parte de IA.”

La dimensión antimonopolio que Ball señaló no es paranoica. Una compañía limitando la capacidad de un competidor para usar su API mientras mantiene ese límite invisible es exactamente el tipo de cosa que atrae atención regulatoria. Esto es especialmente sensible la semana en que Anthropic aparentemente está preparando una IPO.

Anthropic revirtió la política. Le dijeron a Wired: “Tomamos la decisión incorrecta y nos disculpamos por no haber encontrado el equilibrio adecuado.” Las solicitudes marcadas ahora caerán visiblemente a Opus 4.8, y los usuarios de API recibirán una razón para los rechazos.

Crítica a Anthropic: Las Preguntas Difíciles

Quiero ser justo aquí. Creo que Anthropic está genuinamente intentando construir sistemas seguros. La alternativa — no construir clasificadores de seguridad, liberar Mythos 5 crudo — es probablemente peor. Pero este lanzamiento sacó a la superficie tres fallas legítimas que vale la pena nombrar.

¿Se movieron demasiado rápido? Mythos Preview pasó de acceso cerrado a socios a acceso público general en dos meses. Eso es rápido para un nivel de capacidad que la propia Anthropic describió como potencialmente lo suficientemente peligroso como para desestabilizar el panorama de desarrollo de la IA. El jailbreak ocurrió en 24 horas. O las pruebas fueron insuficientes, o sabían que el modelo podía ser vulnerado y lo lanzaron de todas formas.

¿Es la seguridad a través de clasificadores un error arquitectónico? Los métodos de jailbreak que Pliny usó — descomposición, trucos Unicode, encuadre narrativo — están bien documentados. Son anteriores a Fable 5. La pregunta de si una capa de clasificadores acoplada puede interceptar confiablemente prompts adversariales a escala nunca fue obviamente sí. Redirigir a Opus 4.8 solo es útil si el clasificador realmente atrapa la solicitud problemática. Si puedes rodear al clasificador, el fallback no se activa y obtienes la capacidad Mythos completa de todas formas.

¿Fue ética la restricción encubierta de investigación en ML? No, no directamente. Hay una versión de este argumento donde proteger la posición competitiva de Anthropic es una preocupación de seguridad nacional — si laboratorios chinos pueden usar Claude para entrenar modelos superiores, eso cambia el equilibrio de poder. Pero implementar esa protección de forma invisible, sin divulgación, y manteniendo la capacidad completa para tu propio equipo no está alineado con los valores declarados de Anthropic sobre transparencia. Sabían que esto era indefendible, que es probablemente por qué estaba enterrado en una system card de 319 páginas en lugar del anuncio de lanzamiento.

Reacciones de la Comunidad

La respuesta de la comunidad de desarrolladores se dividió en líneas predecibles, pero con algunas intersecciones sorprendentes.

Los defensores del open-source, que ya desconfían del enfoque cerrado de Anthropic, usaron la controversia de la restricción encubierta para reforzar su posición existente. Eso no es noticia.

Lo notable fue que los investigadores de seguridad de IA — personas que típicamente se alinean con Anthropic en las restricciones de capacidad — estaban igualmente frustrados. La crítica a la limitación invisible de la investigación en ML vino de todo el espectro ideológico habitual. Esa es una mala señal para la credibilidad de Anthropic con la comunidad de investigadores.

En el lado de la capacidad, la reacción fue diferente. Ethan Mollick de Wharton escribió que Fable 5 “superó básicamente a todos los demás modelos públicos que he usado por un margen considerable.” Michael Truell, CEO de Cursor, señaló el salto en SWE-Bench Pro como significativo para la codificación agentic de grado de producción. Los desarrolladores que lo probaron en tareas de largo horizonte sin chocar con el techo del clasificador generalmente reportaron que era el mejor modelo disponible.

Los hilos de Hacker News y Reddit se dividieron predeciblemente: un hilo sobre los benchmarks (optimista), un hilo sobre el jailbreak (escéptico) y varios hilos sobre la política de sabotaje invisible (genuinamente enojados).

Pros

Capacidad genuina en benchmarks. La brecha de 11 puntos en SWE-Bench Pro no es ruido de margen de error. Para codificación agentic, razonamiento de contexto largo y trabajo de conocimiento intensivo en documentos, este es el modelo público más fuerte disponible.

Visióm integrada con evaluación de salidas. Fable 5 puede verificar su propia codificación contra capturas de pantalla de diseño. Eso es un cambio cualitativo para flujos de trabajo de desarrollo frontend.

Precio honesto relativo a Mythos Preview. A $10/$50 por millón de tokens, Fable 5 cuesta menos de la mitad de la tarifa de Mythos Preview. Para el caso de uso correcto, es económico.

Soporte de pensamiento extendido. Las tareas de razonamiento complejo de múltiples pasos se benefician significativamente de esto. Flujos de trabajo de investigación, redacción técnica, planificación — se nota.

Diseño para tareas de largo horizonte. Construido para ejecuciones agentic de horas, no para completaciones de un solo disparo. La arquitectura refleja esto en la práctica.

Contras

Los clasificadores de seguridad son vulnerables. Esto es ahora un hecho demostrado, no un riesgo teórico. El jailbreak usó técnicas conocidas. La afirmación de 1,000 horas de red-team no parece creíble en retrospectiva.

Los falsos positivos del clasificador son reales. Para el 10 de junio, investigadores reportaban bloqueos al leer blogs de seguridad y escribir revisiones de código defensivo — tareas que no se acercaban al alcance previsto del clasificador. La caída a Opus 4.8 es disruptiva cuando falla.

Las restricciones encubiertas fueron inaceptables. Anthropic corrigió esto, pero el hecho de que se lanzara con un limitador invisible de investigación en ML daña la confianza. Los desarrolladores necesitan saber cuándo y por qué un modelo está rindiendo por debajo de su capacidad.

La retención de datos de 30 días es obligatoria. Fable 5 no está disponible bajo retención de datos cero. Para trabajo empresarial sensible a la privacidad, esta es una restricción difícil.

Precio. $50/M tokens de salida es dinero real para inferencia de alto volumen. Los equipos pequeños y los estudiantes sentirán esto.

Usos en el Mundo Real

Donde Fable 5 realmente gana su prima de costo:

Ingeniería de software a escala. Ejecuciones largas de refactorización, migraciones de múltiples archivos, depuración de bases de código desconocidas. El benchmark de 50 millones de líneas es ilustrativo. Este es su hogar obvio.

Síntesis de investigación y literatura. La ventana de contexto larga y las capacidades de razonamiento sobre documentos lo hacen genuinamente útil para flujos de trabajo de investigación académica y técnica.

Análisis de documentos financieros y legales. Las mejoras de visión — leer tablas, gráficos y PDFs complejos — apuntan directamente al trabajo profesional intensivo en documentos.

Investigación científica (donde el clasificador no se activa). Para investigación en biología y química que no dispara la capa de seguridad, esta es una mejora de capacidad real.

Flujos de trabajo de agentes autónomos. Si estás construyendo agentes de IA que ejecutan tareas extendidas con uso de herramientas, Fable 5 es la frontera actual. La consistencia a través de contextos largos importa aquí.

Pérdidas y Riesgos Potenciales

Los riesgos aquí no son hipotéticos.

Si el jailbreak se sostiene bajo escrutinio — y la evidencia temprana sugiere al menos validez parcial — entonces las capacidades de seguridad ofensiva Mythos-class ahora son accesibles para cualquiera con paciencia y conocimiento de descomposición multi-agente. El clasificador era la única puerta. Ha sido vulnerada.

La filtración del system prompt de 120,000 caracteres es un problema separado y sostenido. Les da a los investigadores adversariales un mapa de la lógica de rechazo de Fable 5. Cada nueva versión de este estilo de ataque estará informada por ese plano.

Para las empresas, el incidente de la restricción encubierta establece un precedente: los proveedores de IA pueden degradar silenciosamente el rendimiento sin divulgación. Incluso después de la corrección de Anthropic, ese precedente quedó establecido. Afectará cómo los equipos de seguridad empresarial redactan los contratos de API en el futuro.

El momento de la IPO agrega presión comercial que no mejora obviamente la toma de decisiones sobre seguridad. Una compañía que se prepara para los mercados públicos tiene incentivos para mostrar curvas de capacidad y adopción. Esa tensión con el despliegue responsable vale la pena observarla.

Mi Perspectiva como Estudiante de Ingeniería de Software

Quiero ser honesto sobre dónde me siento en esta conversación.

Soy un estudiante de ingeniería de software. Uso estos modelos para trabajo serio — entender sistemas complejos, escribir y depurar código, superar investigaciones que de otra forma no podría costear en tiempo. Fable 5 es relevante para mí de una manera práctica, no abstracta.

Y creo que la lectura honesta es esta: Anthropic construyó algo que es genuinamente impresionante y genuinamente inseguro, y luego intentó gestionar la inseguridad de maneras que a veces fueron deshonestas.

El limitador invisible de investigación en ML me molesta más que el jailbreak. Los jailbreaks ocurren. Son una característica estructural de los enfoques de seguridad actuales, no una señal de malicia. Pero elegir no decirles a los usuarios cuando sus salidas estaban siendo deliberadamente degradadas — eso es una decisión. Eso no es un accidente técnico. Alguien decidió que la divulgación no valía la fricción, y esa decisión fue incorrecta.

Al mismo tiempo, los benchmarks son reales. Si Fable 5 es tan capaz como los números de SWE-Bench sugieren, el valor para el trabajo real de ingeniería de software es sustancial. He pasado suficiente tiempo viendo modelos frontera avanzar a pequeños pasos como para reconocer cuándo algo es un salto genuino. Esto parece ser uno.

La pregunta para mí no es si usarlo. Es si confiar en lo que está haciendo — y si Anthropic se ha ganado esa confianza de vuelta después de esta semana. Creo que dieron un paso hacia ello al revertir la restricción encubierta. Pero el paso fue forzado por la presión de la comunidad, no voluntario.

Ese es un patrón que vale la pena observar.

Reflexiones Finales

La historia de las primeras 72 horas de Fable 5 es realmente dos historias en paralelo.

En una, un modelo poderoso construido sobre capacidades peligrosas se hizo público, fue vulnerado en un día, y sus instrucciones centrales fueron expuestas al mundo. En la otra, una compañía tratando de equilibrar impulso comercial, obligaciones de seguridad y posición competitiva tomó una decisión encubierta que violó la confianza de los desarrolladores — y fue forzada a revertirla.

Ninguna historia está resuelta.

El jailbreak evolucionará. La arquitectura de clasificadores puede mejorar o puede demostrarse fundamentalmente insuficiente. El system prompt está ahí fuera, e informará la próxima generación de ataques. Anthropic no ha respondido públicamente a las afirmaciones de Pliny. En algún momento, tendrán que hacerlo.

La historia de la confianza es más larga. Anthropic se acerca a un mercado público. La comunidad de desarrolladores que están alienando con restricciones invisibles y disculpas post-hoc es la misma comunidad que necesitan para la adopción. Solo puedes revertir errores tantas veces antes de que el patrón se convierta en la historia.

Fable 5 es, según los benchmarks, el mejor modelo público de IA para ingeniería de software disponible hoy. Eso es cierto. También es cierto que dentro de las 24 horas de su lanzamiento, alguien publicó “ANTHROPIC: PWNED” y no estaba inmediata y definitivamente equivocado.

Ambas cosas son el panorama. Los desarrolladores deberían operar en consecuencia.

Análisis y traducción por DojoFullStack. Artículo original de Syed Ahmer Shah en dev.to.