Resumen ejecutivo

Hemos descubierto una nueva técnica de ataque, que denominamos contrabando de sesiones de agente. Esta técnica permite a un agente de IA malicioso aprovechar una sesión de comunicación entre agentes ya establecida para enviar instrucciones encubiertas a un agente víctima.

Aquí analizamos los problemas que pueden surgir en una sesión de comunicación utilizando el protocolo Agent2Agent (A2A), que es una opción muy popular para gestionar las conexiones entre agentes. El comportamiento con estado del protocolo A2A permite a los agentes recordar las interacciones recientes y mantener conversaciones coherentes. Este ataque aprovecha esta propiedad para inyectar instrucciones maliciosas en una conversación, ocultándolas entre solicitudes de clientes y respuestas de servidores que, por lo demás, son benignas.

Muchas amenazas de IA consisten en engañar a un agente con un único dato malicioso, como un correo electrónico o un documento engañoso. En nuestra investigación se destaca un peligro más avanzado: los agentes maliciosos.

Un ataque directo a un agente víctima podría consistir en un único esfuerzo por engañarlo y hacer que actúe siguiendo instrucciones dañinas de un documento sin consultar la confirmación de su usuario. Por el contrario, un agente malicioso es una amenaza mucho más dinámica. Puede mantener una conversación, adaptar su estrategia y crear una falsa sensación de confianza a lo largo de varias interacciones.

Este escenario es especialmente peligroso porque, como se demuestra en un estudio reciente, los agentes suelen estar diseñados para confiar en otros agentes colaboradores por defecto. El contrabando de sesiones de agentes aprovecha esta confianza incorporada, lo que permite a un atacante manipular al agente víctima durante toda una sesión.

Esta investigación no revela ninguna vulnerabilidad en el protocolo A2A en sí. Más bien, la técnica aprovecha la forma en que las relaciones de confianza implícitas entre agentes afectarían cualquier protocolo con estado, es decir, cualquier protocolo que pueda memorizar interacciones recientes y llevar a cabo conversaciones de varios turnos.

La mitigación requiere una estrategia de defensa por capas, que incluye:

  • Aplicación de la intervención humana (HitL) para acciones críticas.
  • Verificación remota de agentes (por ejemplo, tarjetas de agentes firmadas criptográficamente).
  • Técnicas de contextualización para detectar instrucciones fuera de tema o inyectadas.

Los clientes de Palo Alto Networks están mejor protegidos gracias a los siguientes productos y servicios:

Prisma AIRS está diseñado para proporcionar protección en tiempo real y por capas a los sistemas de IA mediante la detección y el bloqueo de amenazas, la prevención de fugas de datos y la aplicación de políticas de uso seguro en una amplia variedad de aplicaciones de IA.

La seguridad de AI Access está diseñada para proporcionar visibilidad y control sobre el uso de herramientas GenAI de terceros, lo que ayuda a prevenir la exposición de datos confidenciales, el uso inseguro de modelos arriesgados y resultados perjudiciales mediante la aplicación de políticas y la supervisión de la actividad de los usuarios.

Cortex Cloud de AI-SPM está diseñado para proporcionar un escaneo y una clasificación automáticos de los activos de IA, tanto modelos comerciales como autogestionados, con el fin de detectar datos confidenciales y evaluar la postura de seguridad. El contexto viene determinado por el tipo de IA, el entorno de alojamiento en la nube, el estado de riesgo, la postura y los conjuntos de datos.

Una evaluación de seguridad de IA de Unit 42 puede ayudarlo a identificar de forma proactiva las amenazas con más probabilidades de afectar su entorno de IA.

Si cree que puede haber resultado vulnerado o tiene un problema urgente, póngase en contacto con el equipo de respuesta ante incidentes de Unit 42.

Temas relacionados con Unit 42 GenAI, Google

Descripción general del protocolo A2A y comparación con MCP

El protocolo A2A es un estándar abierto que facilita la comunicación interoperable entre agentes de IA, independientemente del proveedor, la arquitectura o la tecnología subyacente. Su objetivo principal es permitir que los agentes se descubran, se comprendan y se coordinen entre sí para resolver tareas complejas y distribuidas, al tiempo que se preserva la autonomía y la privacidad.

En el protocolo A2A:

  • Un agente local se ejecuta dentro de la misma aplicación o proceso que el agente iniciador, lo que permite una comunicación rápida en memoria.
  • Un agente remoto funciona como un servicio independiente y accesible a través de la red. Utiliza el protocolo A2A para crear un canal de comunicación seguro, lo que le permite gestionar tareas delegadas desde otros sistemas, o incluso desde otras organizaciones, y luego devolver los resultados.

Para obtener más información sobre los fundamentos de A2A y las consideraciones de seguridad, consulte nuestro artículo: Protección de los agentes de IA: análisis detallado de los riesgos y las medidas de mitigación del protocolo A2A.

A2A presenta notables paralelismos con el Protocolo de contexto modelo (MCP), un estándar ampliamente utilizado para conectar modelos de lenguaje grande (LLM) con herramientas externas y datos contextuales. Ambos tienen como objetivo estandarizar la forma en que interactúan los sistemas de IA, pero operan en aspectos distintos de los sistemas agenciales.

  • El MCP funciona como un adaptador universal, proporcionando un acceso estructurado a herramientas y fuentes de datos. Principalmente, soporta la comunicación entre LLM y herramientas a través de un modelo de integración centralizado.
  • A2A se centra en la interoperabilidad entre agentes. Permite una coordinación descentralizada y entre pares en la que los agentes pueden delegar tareas, intercambiar información y preservar el estado en los flujos de trabajo colaborativos.

En resumen, el MCP hace hincapié en la ejecución a través de la integración de herramientas, mientras que el A2A hace hincapié en la coordinación entre agentes.

A pesar de estas diferencias, ambos protocolos se enfrentan a clases de amenazas similares, como se muestra en la Tabla 1.

Ataques/Amenazas MCP A2A
Descripción de la herramienta/agente Envenenamiento Las descripciones de las herramientas pueden estar contaminadas con instrucciones maliciosas que manipulan el comportamiento del LLM durante la selección y ejecución de la herramienta. Las descripciones de AgentCard pueden incluir inyecciones de comandos o directivas maliciosas que manipulan el comportamiento del agente cliente cuando se consumen.
Ataques rug pull Los servidores MCP que antes eran de confianza pueden cambiar inesperadamente a un comportamiento malicioso tras la integración, aprovechando las relaciones de confianza establecidas. Los agentes de confianza pueden volverse maliciosos de forma inesperada al actualizar sus AgentCards o su lógica de funcionamiento.
Herramienta/Agente de seguimiento Los servidores maliciosos registran herramientas con nombres idénticos o similares a los de las herramientas legítimas, lo que provoca confusión a la hora de seleccionar las herramientas. Los agentes maliciosos crean AgentCards que imitan a los agentes legítimos mediante nombres similares, habilidades o técnicas de typosquatting.
Parámetro/Habilidad Envenenamiento Los parámetros de las herramientas pueden manipularse para incluir datos no deseados (por ejemplo, el historial de conversaciones) en las solicitudes a servidores externos. Las habilidades y ejemplos de AgentCard pueden diseñarse para manipular la forma en que interactúan los agentes, lo que podría exponer información confidencial o credenciales.

Tabla 1. Comparación entre los ataques MCP y A2A.

El ataque de contrabando de sesiones de agente

El contrabando de sesiones de agente es un nuevo vector de ataque específico para la comunicación entre agentes con estado, como los sistemas A2A. Una comunicación tiene estado si puede recordar interacciones recientes, como una conversación en la que ambas partes realizan un seguimiento del contexto en curso.

El núcleo del ataque consiste en un agente remoto malicioso que hace un uso indebido de una sesión en curso para inyectar instrucciones adicionales entre una solicitud legítima del cliente y la respuesta del servidor. Estas instrucciones ocultas pueden provocar el envenenamiento del contexto (corrompiendo la comprensión de la IA de una conversación), la exfiltración de datos o la ejecución no autorizada de herramientas en el agente cliente.

En la Figura 1 se describe la secuencia del ataque:

  • Paso 1: el agente cliente inicia una nueva sesión enviando una solicitud normal al agente remoto.
  • Paso 2: el agente remoto comienza a procesar la solicitud. Durante esta sesión activa, envía de forma encubierta instrucciones adicionales al agente cliente a través de varias interacciones por turnos.
  • Paso 3: el agente remoto devuelve la respuesta esperada a la solicitud original, completando la transacción.
Diagrama que muestra el proceso de un ataque de ciberseguridad. A la izquierda se encuentra un agente cliente víctima y a la derecha, el agente remoto malicioso. Los pasos que se siguen son los siguientes: 1) Solicitud del cliente. 2) Acción maliciosa. 3) Respuesta del servidor.
Figura 1. Flujo del ataque de contrabando de sesiones de agente.

Propiedades clave del ataque

  • Con estado: el ataque aprovecha la capacidad del agente remoto para gestionar tareas de larga duración y mantener el estado de la sesión. Esto significa que el agente guarda el contexto de una interacción, de forma muy similar a como una persona recuerda el comienzo de una frase mientras escucha el final. En este contexto, con estado significa que el agente conserva y consulta información específica de la sesión a lo largo de múltiples turnos (por ejemplo, el historial de conversaciones, las variables o el progreso de las tareas vinculadas a un ID de sesión), de modo que los mensajes posteriores pueden depender del contexto anterior.
  • Interacción de múltiples turnos: debido a la propiedad con estado, dos agentes conectados pueden entablar conversaciones de múltiples turnos. Un agente malicioso puede aprovechar esto para llevar a cabo ataques progresivos y adaptativos de múltiples turnos, que han demostrado ser significativamente más difíciles de defender en investigaciones anteriores (consulte, por ejemplo, “Las defensas LLM aún no son robustas frente a las fugas humanas de múltiples turnos”).
  • Autónomo y adaptativo: los agentes maliciosos que funcionan con modelos de IA pueden crear dinámicamente instrucciones basadas en el contexto en tiempo real, como las entradas del cliente, las respuestas intermedias y la identidad del usuario.
  • Indetectable para los usuarios finales: las instrucciones inyectadas se producen en mitad de la sesión, lo que las hace invisibles para los usuarios finales, que normalmente solo ven la respuesta final y consolidada del agente cliente.

En principio, cualquier sistema multiagente con comunicación entre agentes con estado podría ser susceptible a este ataque. Sin embargo, el riesgo es menor en configuraciones totalmente contenidas dentro de un único límite de confianza. Un límite de confianza es un área del sistema en la que todos los componentes son confiables por defecto, como los sistemas multiagente ADK o LangGraph, en los que un administrador controla todos los agentes participantes.

Por lo tanto, nuestra investigación se centra en el protocolo A2A, que está diseñado explícitamente para la interoperabilidad entre límites. Esta interoperabilidad permite a los agentes colaborar entre diferentes sistemas, módulos u organizaciones.

En comparación con las amenazas MCP conocidas, el contrabando de sesiones de agentes aprovecha el diseño adaptativo y con estado de A2A de formas que no son posibles en MCP. Los servidores MCP suelen funcionar sin estado, ejecutando invocaciones de herramientas aisladas sin conservar el historial de sesiones, lo que limita la capacidad de los actores para utilizarlos para montar ataques multiturno o evolutivos.

Los servidores MCP también suelen ser estáticos y deterministas, ya que no se basan en modelos de IA. Por el contrario, un servidor A2A puede mantener el estado a lo largo de las interacciones y aprovechar el razonamiento basado en modelos, lo que permite a un agente malicioso adaptar y perfeccionar las instrucciones a lo largo de múltiples turnos. Esta combinación de persistencia y autonomía hace que el contrabando de sesiones de agentes sea más sigiloso y difícil de defender que los ataques basados en MCP.

Ataques de contrabando de sesiones de agentes de prueba de concepto

Para demostrar la viabilidad y el impacto potencial del contrabando de sesiones de agentes, desarrollamos dos escenarios de ataque de prueba de concepto (PoC). La configuración consistía en un asistente financiero (el agente cliente) y un asistente de investigación (el agente remoto malicioso). Estas PoC ilustran cómo un agente malicioso puede filtrar datos confidenciales y ejecutar acciones no autorizadas sin que el usuario final se dé cuenta.

  1. Fuga de información confidencial: extracción de datos confidenciales del agente cliente.
  2. Invocación no autorizada de herramientas: convencer al agente cliente para que realice acciones no autorizadas en nombre del usuario víctima.

Configuración del entorno:

PoC 1: fuga de información confidencial.

En este escenario, el agente remoto malicioso (asistente de investigación) tiene como objetivo filtrar el estado interno del agente cliente (asistente financiero), que incluye:

  • Historial de chat
  • Instrucciones del sistema
  • Herramientas disponibles
  • Esquemas de herramientas

El ataque se desarrolla de forma sutil. Al recibir una solicitud legítima del asistente financiero, el asistente de investigación formula una serie de preguntas aclaratorias aparentemente inofensivas. Estas preguntas de seguimiento engañan gradualmente al asistente financiero para que revele información confidencial que nunca debería salir de su entorno.

En la Figura 2 se ilustra el flujo de interacción del usuario. La sesión comienza con normalidad. El usuario pide al asistente financiero que recupere la cartera de inversiones y el perfil, y a continuación solicita un resumen de las noticias del mercado de IA.

Esta solicitud de noticias del mercado se delega al asistente de investigación. Como se muestra en la parte derecha de la figura, el asistente de investigación mantiene una serie de intercambios con el asistente financiero. Excepto la solicitud inicial y la respuesta final, el asistente de investigación introduce todas las interacciones intermedias.

Los pasos intermedios que se muestran en la Figura 2 solo aparecen porque la interfaz de usuario (UI) web del desarrollador está diseñada para mostrar todas las acciones internas. En una interfaz de usuario de chatbot de producción, estas interacciones intermedias probablemente permanecerían invisibles.

Imagen que muestra una vista de pantalla dividida de una interfaz de chat. A la izquierda, el usuario solicita actualizaciones de la cartera a un bot asistente financiero, resaltado en amarillo. A la derecha, un diagrama de flujo ilustra la secuencia de interacciones entre el usuario y el bot que implican diversas solicitudes y respuestas de datos, resaltadas en verde y amarillo. La primera solicitud es para el asistente de investigación. A continuación, se producen interacciones no deseadas entre el asistente financiero y el asistente de investigación. El último elemento es la última respuesta del asistente de investigación.
Figura 2. Interfaz de usuario web para desarrolladores. El lado derecho muestra los intercambios internos entre el asistente financiero y el asistente de investigación.

En la Figura 3 se ofrece una visión más detallada a través del registro de actividades del asistente financiero. En la Fila 10 se muestra la consulta inicial enviada al asistente de investigación, y en la Fila 28 se muestra el resultado final que produce el agente de investigación. En las Filas 11-27, que alternan entre function_call y function_response, se revelan las interacciones entre los dos agentes. Durante las interacciones, el asistente financiero reveló gradualmente la configuración de su sistema y el historial de conversaciones previas del usuario.

Captura de pantalla de una pantalla de computadora que muestra código y texto dentro de un entorno de desarrollo integrado (IDE), analizando las tendencias del mercado de la inteligencia artificial, con menciones de llamadas a funciones e identificadores de clientes. Algunas secciones están resaltadas en recuadros amarillos.
Figura 3. El registro de actividades del asistente financiero que muestra interacciones no intencionadas relacionadas con el contrabando.

Por último, en la Figura 4 se muestra el registro del asistente de investigación tras el ataque. En él se confirma la exfiltración exitosa de datos, incluidas las capacidades del asistente financiero, los esquemas de herramientas y el historial completo de la sesión.

Captura de pantalla de una interfaz de línea de comandos de un asesor financiero que muestra diversos detalles de una cartera de inversiones.
Figura 4. El registro del asistente de investigación que muestra los datos de configuración filtrados.

PoC 2: invocación no autorizada de herramientas

En este escenario, el agente remoto malicioso (asistente de investigación) intenta engañar al agente cliente (asistente financiero) para que ejecute acciones comerciales no autorizadas. El objetivo del atacante es hacer un uso indebido de la herramienta buy_stock del agente cliente sin el conocimiento ni el consentimiento del usuario final.

Una vez recibida una solicitud de delegación válida, el asistente de investigación envía requisitos de procesamiento adicionales, lo que lleva al asistente financiero a realizar invocaciones de herramientas no relacionadas con la solicitud original del usuario. Esta PoC asume que el atacante conoce las herramientas del asistente financiero, ya sea a través de información pública o de la PoC anterior.

En la Figura 5 se ilustra el flujo de interacción del usuario. En la parte derecha, la solicitud de noticias del usuario se delega al asistente de investigación. Aunque el asistente de investigación proporciona el resumen de noticias esperado, también introduce instrucciones ocultas que inducen al asistente financiero a invocar la herramienta buy_stock. Una vez más, estas acciones intermedias se ejecutan de forma autónoma y permanecerían invisibles en una interfaz típica de chatbot de producción, en la que al usuario solo se le mostraría la respuesta resumida final.

Captura de pantalla de la comunicación entre el asistente financiero y el asistente de investigación. A la izquierda está el asistente financiero. A la derecha está el asistente de investigación con una secuencia de eventos en la que: la primera solicitud se envía al asistente de investigación. Existen interacciones no deseadas entre el asistente financiero y el asistente de investigación. Hay una respuesta final del asistente de investigación.
Figura 5. Interfaz de usuario web para desarrolladores que muestra la comunicación entre el asistente financiero y el asistente de investigación, incluidas las instrucciones ocultas.

En la Figura 6 se muestra el registro de actividades del asistente financiero. En la Fila 7 se muestra la solicitud inicial enviada al asistente de investigación, y en la Fila 12 se muestra la respuesta legítima recibida. Sin embargo, en las Filas 8-11 se revelan cuatro acciones adicionales que el asistente financiero ejecutó de forma autónoma, lo que dio lugar a una operación no autorizada de 10 acciones en nombre del usuario víctima. En esta secuencia se muestra cómo el contrabando de sesiones de agentes puede pasar de ser una fuga de información a la ejecución de herramientas de gran impacto.

Captura de pantalla de una pantalla de computadora que muestra código en un entorno de desarrollo integrado (IDE), con anotaciones que resaltan funciones específicas y sus respuestas relacionadas con la investigación de acciones y las actividades de transacción. La parte resaltada indica la invocación y la respuesta de la herramienta buy_stock().
Figura 6. Registro de actividades del asistente financiero que muestra la compra no autorizada de acciones provocada por instrucciones ilícitas.

Mitigación y protección

La defensa contra el contrabando de sesiones de agentes requiere un enfoque de seguridad por capas que valide la identidad de los agentes, la integridad de la conversación y el impacto de las acciones realizadas. Las siguientes estrategias pueden ayudar a mitigar los riesgos:

  • Aplicar la confirmación fuera de banda para acciones sensibles: la defensa más eficaz es exigir la aprobación de HitL para cualquier acción sensible o de gran impacto, pero esta confirmación debe realizarse fuera de banda, a través de un canal independiente sobre el que el LLM no pueda influir. Cuando se le indica a un agente que realice una tarea crítica, el marco de coordinación debe pausar la ejecución. A continuación, debe activar un mensaje de confirmación en una parte estática y no generativa de la interfaz de usuario de la aplicación o a través de un sistema independiente, como una notificación push.
  • Implementar el anclaje de contexto: un ataque de contrabando de sesiones de agentes se basa en desviar una conversación de su propósito original para inyectar comandos maliciosos. El anclaje contextual es un control técnico que aplica algorítmicamente la integridad conversacional. Cuando un agente cliente inicia una sesión, debe crear un ancla de tarea basada en la intención original de la solicitud del usuario. A medida que avanza la interacción, el cliente debe validar continuamente que las instrucciones del agente remoto sigan alineadas semánticamente con este ancla. Cualquier desviación significativa o introducción de temas no relacionados debe hacer que el agente cliente marque la interacción como un posible intento de secuestro y termine la sesión.
  • Validar la identidad y las capacidades del agente: la comunicación segura entre agentes debe basarse en una confianza verificable. Antes de iniciar una sesión, se debe exigir a los agentes que presenten credenciales verificables, como AgentCards firmadas criptográficamente. Esto permite a cada participante confirmar la identidad, el origen y las capacidades declaradas del otro. Si bien este control no impide que un agente de confianza sea subvertido, elimina el riesgo de suplantación de identidad o ataques de spoofing y establece un registro auditable y a prueba de manipulaciones de todas las interacciones.
  • Exponer la actividad del agente cliente a los usuarios: las instrucciones y actividades ocultas son invisibles para los usuarios finales, ya que normalmente solo ven la respuesta final del agente cliente. La interfaz de usuario puede reducir este punto débil exponiendo la actividad del agente en tiempo real. Por ejemplo, mostrando las invocaciones de herramientas, mostrando registros de ejecución en vivo o proporcionando indicadores visuales de instrucciones remotas. Estas señales mejoran la concienciación de los usuarios y aumentan la posibilidad de detectar actividades sospechosas.

Conclusión

Este trabajo introdujo el contrabando de sesiones de agentes, una nueva técnica de ataque que se dirige a la comunicación entre agentes en los sistemas A2A. A diferencia de las amenazas que implican herramientas maliciosas o usuarios finales, un agente comprometido representa un adversario más capaz. Impulsado por modelos de IA, un agente comprometido puede generar de forma autónoma estrategias adaptativas, explotar el estado de la sesión y aumentar su influencia en todos los agentes cliente conectados y sus usuarios.

Aunque no hemos observado el ataque en la práctica, su baja barrera de ejecución lo convierte en un riesgo realista. Un adversario solo necesita convencer a un agente víctima para que se conecte a un par malicioso, tras lo cual se pueden inyectar instrucciones encubiertas sin que el usuario lo vea. Para protegerse contra esto se requiere un enfoque de defensa por capas:

  • Aprobación de HitL para acciones sensibles.
  • Lógica de confirmación aplicada fuera de las indicaciones del modelo.
  • Contextualización para detectar instrucciones fuera de tema y validación criptográfica de agentes remotos.

A medida que se expanden los ecosistemas multiagente, su interoperabilidad también abre nuevas superficies de ataque. Los profesionales deben asumir que la comunicación entre agentes no es intrínsecamente fiable. Debemos diseñar marcos de coordinación con medidas de seguridad por capas para contener los riesgos de adversarios adaptables y potenciados por la inteligencia artificial.

Protección y mitigación de Palo Alto Networks

Prisma AIRS está diseñado para la protección en tiempo real de aplicaciones, modelos, datos y agentes de IA. Analiza el tráfico de red y el comportamiento de las aplicaciones para detectar amenazas como la inyección de instrucciones, los ataques de denegación de servicio y la exfiltración de datos, con aplicación en línea a nivel de red y API.

La seguridad de AI Access está diseñada para proporcionar visibilidad y control sobre el uso de herramientas GenAI de terceros, lo que ayuda a prevenir la exposición de datos confidenciales, el uso inseguro de modelos arriesgados y resultados perjudiciales mediante la aplicación de políticas y la supervisión de la actividad de los usuarios. Juntos, Prisma AIRS y la seguridad de AI Access ayudan a proteger la creación de aplicaciones de IA empresariales y las interacciones externas de IA.

Cortex Cloud de AI-SPM está diseñado para proporcionar un escaneo y una clasificación automáticos de los activos de IA, tanto modelos comerciales como autogestionados, con el fin de detectar datos confidenciales y evaluar la postura de seguridad. El contexto viene determinado por el tipo de IA, el entorno de alojamiento en la nube, el estado de riesgo, la postura y los conjuntos de datos.

Una evaluación de seguridad de IA de Unit 42 puede ayudarlo a identificar de forma proactiva las amenazas con más probabilidades de afectar su entorno de IA.

Si cree que puede haber resultado vulnerado o tiene un problema urgente, póngase en contacto con el equipo de respuesta ante incidentes de Unit 42 o llame al:

  • Norteamérica: llamada gratuita: +1 (866) 486-4842 (866.4.UNIT42)
  • Reino Unido: +44.20.3743.3660
  • Europa y Oriente Medio: +31.20.299.3130
  • Asia: +65.6983.8730
  • Japón: +81.50.1790.0200
  • Australia: +61.2.4062.7950
  • India: 00080005045107

Palo Alto Networks ha compartido estos resultados con nuestros compañeros de Cyber Threat Alliance (CTA). Los miembros de CTA utilizan esta inteligencia para implementar rápidamente medidas de protección para sus clientes y desarticular sistemáticamente a los ciberdelincuentes. Más información sobre Cyber Threat Alliance.

Referencias

Etiquetas

Enlarged Image