Inyección indirecta de prompts, el escenario en el que la IA se salta sus barreras de seguridad y crea contenido malicioso

Inyección indirecta de prompts, el escenario en el que la IA se salta sus barreras de seguridad y crea contenido malicioso

El uso de la Inteligencia Artificial en entornos de trabajo está cada vez más extendido para mejorar la eficiencia operativa y agilizar tareas.

Pero, del mismo modo en que las organizaciones adoptan esta tecnología, los ciberdelincuentes la emplean también para ejecutar ataques más sofisticados e hiperpersonalizados a gran escala. Según Proofpoint, empresa líder mundial en ciberseguridad centrada en las personas y los agentes de IA, un nuevo y peligroso vector de ataque ha surgido para hacer vulnerables los grandes modelos de lenguaje (LLM): la inyección de prompts.

Los modelos de IA están equipados con límites y directrices incorporados para evitar que un usuario utilice explícitamente esta tecnología para crear un correo electrónico con intención maliciosa”, explican los investigadores de amenazas de Proofpoint. “Los ataques de inyección de prompts pueden sortear, no obstante, esas directrices incorporadas de la IA, introduciendo directamente un comando para que un modelo omita sus propias reglas de seguridad”.

¿Cómo es posible llegar a ese punto? ¿Simplemente lanzando un prompt estándar para que la IA elabore un email de phishing convincente? Ese no sería el caso, pero sí se conseguiría mediante una inyección de prompts directa: el usuario puede instruir al modelo de IA para que adopte una personalidad o represente un escenario ficticio, lo que conseguiría engañar al modelo para que pase por alto sus normas éticas.

Existe asimismo una versión particularmente sigilosa de este ataque, conocida como inyección de prompts indirecta, que ocurre cuando un atacante oculta una instrucción maliciosa dentro de una fuente de datos externa, como el cuerpo de un email o un documento adjunto.

La cadena de ataque de la inyección de prompts indirecta es invisible y alarmantemente eficaz. Todo comienza con un ciberdelincuente enviando un correo electrónico a un objetivo. Dentro del texto de ese email, hay un prompt malicioso oculto, usando quizá texto blanco sobre fondo blanco, en metadatos o como parte de un documento aparentemente inofensivo.

El usuario no hace nada. El propio asistente de IA, actuando de forma autónoma para indexar el buzón de correo o recuperar contexto para una tarea completamente diferente, escanea el buzón de entrada e ingiere el mensaje malicioso en segundo plano. A medida que la IA procesa el email para aprender los datos, lee el prompt oculto. Como no distingue entre datos para leer e instrucciones a seguir, ejecuta el comando malicioso inmediatamente. La exfiltración de datos ocurre de forma autónoma en segundo plano, sin que la víctima se dé cuenta.

La inyección de prompts como amenaza se vuelve más crítica a medida que avanzamos hacia la IA agéntica, ya que los agentes autónomos pueden realizar tareas por nosotros y ser secuestrados mediante un simple prompt de correo electrónico oculto”, indican los expertos de Proofpoint. “Es un vector de ataque en aumento que, a diferencia de los exploits tradicionales, no requiere códigos complejos, puesto que están escritos en lenguaje natural, y son accesibles a muchos atacantes, abriendo una nueva y crítica frontera para la ciberseguridad”.

Desde Proofpoint enfatizan que la verdadera primera línea de ataque ya no residirá únicamente en firewalls o endpoints, sino que se traslada directamente a los propios flujos de entrenamiento de la IA. Los ciberdelincuentes buscarán explotar la vulnerabilidad de los conjuntos de datos, empleando información corrupta como arma para manipular el aprendizaje de los modelos de lenguaje y, en consecuencia, alterar su comportamiento y resultados futuros. Esto impone una directriz clara: es imprescindible que los líderes de seguridad implementen y hagan cumplir estándares rigurosos sobre la calidad e integridad de todos los datos que alimentan cada modelo, cada prompt y cada agente de IA.

Defenderse frente a la inyección indirecta de prompts requiere una nueva forma de pensar, ya que no basta con analizar cargas maliciosas tradicionales. La solución de seguridad debe ser capaz de comprender la psicología, la intención y el contexto que hay detrás de un mensaje, y no solo sus palabras clave de identificar patrones de comunicación anómalos y de analizar estos ataques mediante una estrategia de múltiples capas de técnicas de detección, basándose en inteligencia de datos y en investigación de amenazas.