El paper Beyond the Prompt apareció en arXiv el 1 de julio y amplía el foco de los jailbreaks desde el prompt directo hacia arquitecturas con function calling y contextos multi-turn. Los autores sostienen que, en aplicaciones stateful, esquemas definidos por desarrolladores, argumentos estructurados y salidas no confiables de herramientas conviven en un mismo contexto del modelo, lo que crea una vulnerabilidad “estructural” que no se ve en el paradigma clásico de jailbreak por prompt simple. Sobre esa hipótesis proponen SMT, Simulated Moderation Traces, un framework black-box que construye trayectorias de varios turnos simulando un flujo…

✦ QUÉ CAMBIA Y CÓMO FUNCIONA
Análisis del Acontecimiento y Contexto Tecnológico
El paper Beyond the Prompt apareció en arXiv el 1 de julio y amplía el foco de los jailbreaks desde el prompt directo hacia arquitecturas con function calling y contextos multi-turn. Los autores sostienen que, en aplicaciones stateful, esquemas definidos por desarrolladores, argumentos estructurados y salidas no confiables de herramientas conviven en un mismo contexto del modelo, lo que crea una vulnerabilidad “estructural” que no se ve en el paradigma clásico de jailbreak por prompt simple. Sobre esa hipótesis proponen SMT, Simulated Moderation Traces, un framework black-box que construye trayectorias de varios turnos simulando un flujo legítimo de auditoría de moderación.
En ese marco, una “moderation frame” fabricada usa el red-teaming como pretexto y luego convierte las negativas del modelo en supuestos fallos de ejecución, debilitando progresivamente las restricciones de seguridad. El resumen afirma que, en pruebas sobre modelos comerciales de cinco proveedores y dos benchmarks de seguridad estandarizados, SMT obtuvo el mayor promedio tanto en attack success rate como en HarmScore, con un número de consultas cercano al mínimo. El paper no menciona publicación revisada por pares al 1 de julio, por lo que se trata de un preprint de investigación ofensiva/defensiva. El paper es un preprint y no declara aceptación revisada por pares en la ficha consultada. El resumen no publica el desglose detallado por proveedor o modelo comercial, por lo que la trazabilidad comparativa requiere el texto completo.
Ángulo de Negocio y Oportunidad Estratégica para LATAM
Para las organizaciones de Latinoamérica, esta noticia sobre seguridad funciona como señal para revisar capacidades, proveedores y riesgos antes de adoptar la tecnología. El paso pragmático es contrastar el anuncio de arXiv con necesidades locales, disponibilidad regional, regulación, costos operativos y calidad de datos. La adopción debería comenzar con un piloto acotado, métricas explícitas y supervisión humana, evitando convertir afirmaciones del proveedor en resultados garantizados.
- Verificar disponibilidad, condiciones y alcance real de la propuesta de arXiv.
- Diseñar un piloto de seguridad con métricas de negocio y control humano.
- Documentar riesgos, dependencia del proveedor y requisitos de cumplimiento antes de escalar.

✦ ACTORES, DATOS Y ALCANCE

✦ DECISIÓN PRÁCTICA PARA LATAM
Preguntas Frecuentes
✦ ¿Qué anunció arXiv?
La versión v1 fue subida el 1 de julio de 2026 a las 06:08 UTC.
✦ ¿Qué dato técnico es importante?
El trabajo apunta a vulnerabilidades en entornos stateful y function-calling.
✦ ¿Qué debe verificarse antes de adoptar esta tecnología?
El método propuesto se llama SMT: Simulated Moderation Traces.
Fuente original de referencia: arXiv


