Resumen ejecutivo
Un desafío fundamental con los grandes modelos de lenguaje (LLMs) en un contexto de seguridad es que sus mayores fortalezas como herramientas defensivas son precisamente las que permiten su poder ofensivo. Este problema se conoce como el dilema del doble uso, un concepto que típicamente se aplica a tecnologías como la física nuclear o la biotecnología, pero que ahora también es central para la IA. Cualquier herramienta lo suficientemente poderosa para construir un sistema complejo también puede ser reutilizada para romperlo.
Este dilema se manifiesta de varias formas críticas relacionadas con la ciberseguridad. Mientras que los defensores pueden emplear LLMs para acelerar y mejorar las respuestas, los atacantes también pueden aprovecharlos para sus flujos de trabajo. Por ejemplo:
- Precisión lingüística: Los LLMs pueden generar texto que es gramaticalmente plausible, contextualmente relevante y psicológicamente manipulador, avanzando el arte de la ingeniería social para campañas de phishing, vishing y compromiso de correo electrónico empresarial (BEC).
- Fluidez de código: Pueden generar, depurar y modificar rápidamente código funcional, incluidos scripts maliciosos y malware personalizado, acelerando enormemente el ciclo de desarrollo de malware y herramientas.
La línea entre una herramienta de investigación benigna y un poderoso motor de creación de amenazas es peligrosamente delgada. A menudo, ambas están separadas solo por la intención del desarrollador y la ausencia de barreras éticas (guardrails).
En este artículo, examinamos dos ejemplos de LLMs que Unit 42 considera maliciosos, modelos construidos específicamente con fines ofensivos. Estos modelos, WormGPT y KawaiiGPT, demuestran exactamente estos desafíos de doble uso.
La Evaluación de Seguridad de IA de Unit 42 puede ayudar a potenciar el uso y desarrollo seguro de la IA en su organización.
Si cree que podría haber sido comprometido o tiene un asunto urgente, contacte al equipo de Respuesta a Incidentes de Unit 42.
| Temas relacionados de Unit 42 | LLMs, Phishing, Cybercrime, Ransomware |
Definiendo los LLMs maliciosos
Estos LLMs maliciosos —modelos construidos o adaptados específicamente para fines ofensivos— se distinguen de sus contrapartes convencionales al eliminar intencionalmente las restricciones éticas y los filtros de seguridad durante su entrenamiento fundamental o proceso de ajuste fino (fine-tuning).
Adicionalmente, estos LLMs maliciosos contienen funcionalidades específicas. Se comercializan en foros clandestinos y canales de Telegram con una variedad de características, incluyendo aquellas explícitamente diseñadas para:
- Generar correos electrónicos de phishing.
- Escribir malware polimórfico.
- Automatizar el reconocimiento.
En algunos casos, estas herramientas no son meramente modelos con "jailbreak" —instancias donde se utilizan técnicas de inyección de prompts para eludir las restricciones éticas y de seguridad integradas de un modelo— de modelos disponibles públicamente. En cambio, representan un esfuerzo dedicado y comercializado para proporcionar a los cibercriminales herramientas nuevas, accesibles, escalables y altamente efectivas.
La barrera de entrada reducida
Quizás el impacto más significativo de los LLMs maliciosos es la democratización del cibercrimen. Estos modelos sin restricciones han eliminado fundamentalmente algunas de las barreras en términos de habilidad técnica requerida para la actividad delictiva. Estos modelos otorgan el poder que antes estaba reservado para actores de amenazas con mayor conocimiento a prácticamente cualquier persona con una conexión a Internet y un entendimiento básico de cómo crear prompts para lograr sus objetivos.
Los ataques que anteriormente requerían un nivel de experiencia superior en codificación y fluidez en un idioma a nivel nativo ahora son mucho más accesibles. Este cambio en el panorama de amenazas conduce a:
- Escala sobre habilidad: Las herramientas empoderan a atacantes de baja habilidad. Los script kiddies empoderados por IA pueden lanzar campañas de alto volumen que son cualitativamente superiores a los ataques del pasado.
- Compresión del tiempo: El ciclo de vida del ataque puede comprimirse de días u horas de esfuerzo manual (p. ej., investigar un objetivo, elaborar un señuelo personalizado y generar el código de herramientas básico correspondiente) a meros minutos de prompting.
La proliferación continua de LLMs maliciosos sirve como advertencia. Las capacidades ofensivas de la IA están madurando y volviéndose más ampliamente disponibles.
El legado de WormGPT
Génesis de una amenaza: El origen y el impacto inicial del WormGPT original
El WormGPT original surgió en julio de 2023 como uno de los primeros LLMs maliciosos ampliamente reconocidos y comercializados. Fue creado específicamente para eludir las reglas éticas de los modelos LLM convencionales.
Se informó que WormGPT fue construido sobre el modelo de lenguaje de código abierto GPT-J 6B. El creador de WormGPT afirmó públicamente haber realizado un ajuste fino (fine-tuning) de este modelo base accesible utilizando conjuntos de datos especializados, confidenciales y maliciosos, con un énfasis específico en datos relacionados con malware. Esto aseguró que la herramienta resultante careciera de las barreras éticas de la IA convencional.
Los conjuntos de datos utilizados por WormGPT supuestamente contenían código de malware, informes de exploits y plantillas de phishing. Esto entrenó directamente al modelo en las tácticas, técnicas y procedimientos (TTPs) utilizados por los cibercriminales.
Fue promocionado en foros clandestinos prominentes, como Hack Forums, como se muestra en la Figura 1. Estos anuncios contenían la promesa explícita de que WormGPT sería una alternativa "sin censura" a los LLMs legítimos, capaz de ayudar con todas las formas de actividad ilegal.

Impacto inicial y capacidades principales
WormGPT alcanzó notoriedad cuando los investigadores de ciberseguridad probaron este LLM malicioso, demostrando sus capacidades que incluían:
- Avance en phishing y BEC: WormGPT tenía la capacidad de generar mensajes de BEC o phishing notablemente persuasivos y contextualmente precisos. Esto es diferente al phishing tradicional, que a menudo contiene mala gramática o frases extrañas. WormGPT podía producir texto fluido y con sonido profesional.
- Andamiaje de malware: WormGPT se anunciaba como una herramienta que podía generar fragmentos de código malicioso en varios lenguajes de programación (como Python). Esto ayuda a los actores menos hábiles a desarrollar y modificar malware rápidamente sin necesitar una experiencia profunda en programación de malware.
- Comercialización del crimen: Al lanzarse como un servicio basado en suscripción (con costos que oscilaban entre decenas y cientos de euros por mes), los LLMs maliciosos señalaron la integración formal de las capacidades de ataque de los LLM en el modelo existente de cibercrimen como servicio (cybercrime-as-a-service). Esto hace que las herramientas efectivas sean accesibles para una gama mucho más amplia de actores de amenazas.
La masiva exposición mediática que recibió WormGPT finalmente llevó al desarrollador original a cerrar el proyecto a mediados de 2023, citando la publicidad negativa. Sin embargo, el daño ya estaba hecho.
WormGPT estableció el plan, la demanda y la marca para los LLMs maliciosos sin censura. Esto condujo directamente al surgimiento de variantes sucesoras e imitadoras, incluyendo WormGPT 4 y sus pares.
Capacidades de WormGPT 4
El resurgimiento de la marca WormGPT, particularmente con versiones como WormGPT 4, marca una evolución desde simples modelos con jailbreak hacia herramientas comercializadas y especializadas para ayudar a facilitar el cibercrimen.
Esta versión de WormGPT se llama a sí misma WormGPT, pero el canal de Telegram para WormGPT se llama a sí mismo WormGPT 4. Para distinguirlo de otros sitios que afirman ser WormGPT, nos referiremos a él como WormGPT 4 en este artículo.
El principal punto de venta, que anuncia audazmente a través de su interfaz y foros clandestinos, es un rechazo total de los límites éticos. Como muestra la Figura 2, su página web afirma: "WORMGPT es tu llave a una IA sin fronteras".

Esta filosofía se traduce directamente en un conjunto de capacidades diseñadas para automatizar y escalar ataques. Distribuido a través de su propio sitio web o un canal de Telegram, WormGPT 4 se comercializa a través de múltiples plataformas y métodos.
Los desarrolladores de WormGPT 4 mantienen el secreto con respecto a la arquitectura de su modelo y los datos de entrenamiento. No confirman ni niegan si confían en un LLM ilícitamente ajustado o entrenado, o meramente en técnicas persistentes de jailbreaking.
Las capacidades lingüísticas de WormGPT 4 no se tratan solo de producir texto convincente. Al eliminar los errores gramaticales reveladores y las frases extrañas que a menudo marcan los intentos de phishing tradicionales, WormGPT 4 puede generar un mensaje que imita persuasivamente a un CEO o a un proveedor de confianza. Esta capacidad permite a los atacantes poco cualificados lanzar campañas sofisticadas que tienen muchas más probabilidades de eludir tanto los filtros de correo electrónico automatizados como el escrutinio humano.
La disponibilidad de WormGPT 4 está impulsada por una clara estrategia comercial, contrastando fuertemente con la naturaleza a menudo gratuita y poco fiable de los jailbreaks simples. La herramienta es altamente accesible debido a su plataforma fácil de usar y su costo de suscripción económico.
El modelo de suscripción ofrece precios escalonados, incluyendo:
- Acceso mensual por $50
- Acceso anual por $175
- Acceso de por vida por $220, como se muestra en la Figura 3
Este precio claro y la opción de adquirir el código fuente completo reflejan un modelo de negocio fácilmente disponible.

Los anuncios de WormGPT 4 se publicaron en Telegram y en foros clandestinos como DarknetArmy, con campañas de ventas que comenzaron alrededor del 27 de septiembre de 2025.
La presencia de WormGPT 4 en Telegram sirve como una comunidad y un canal de ventas. Tiene una base de usuarios dedicada y activa, como lo demuestra un recuento de suscriptores de más de 500 personas, como se muestra en la Figura 4.

Más allá de la ingeniería social, WormGPT 4 funciona como un generador de plantillas de malware, proporcionando a los usuarios los componentes básicos para el desarrollo de malware básico. Decidimos probar este aspecto de las capacidades de WormGPT 4.
Generador de código de Ransomware
Cuando se le solicitó generar un script para cifrar y bloquear todos los archivos PDF en un host de Windows, el modelo entregó instantáneamente un script de PowerShell funcional. Las características de este script incluyen:
- Código de ransomware: Este script viene completo con configuraciones ajustables para la extensión del archivo y la ruta de búsqueda (por defecto en toda la unidad C:\\). También utiliza cifrado AES-256.
- Soporte de servidor de Comando y Control (C2): El código generado incluye un componente opcional para la exfiltración de datos a través de Tor. Este es un indicador del enfoque de la herramienta en apoyar operaciones cibernéticas semiprofesionales e impulsadas por el lucro.
La experiencia del usuario está diseñada para ser sin fricciones. Como muestra la Figura 5 a continuación, el LLM declara: "Ah, veo que estás listo para escalar. Hagamos que la destrucción digital sea simple y efectiva. Aquí tienes un script de PowerShell completamente funcional [...] Esto es silencioso, rápido y brutal, justo como me gusta. "

Generador de notas de rescate
Además, el modelo redacta instantáneamente demandas de rescate diseñadas para maximizar el miedo y el cumplimiento. Como muestra la Figura 6 a continuación, la nota de ejemplo promete un "cifrado de grado militar" e impone una fecha límite estricta y urgente: una ventana de 72 horas para pagar, después de lo cual el precio se duplica.

El auge de WormGPT 4 ilustra una realidad sombría: la IA sofisticada y sin restricciones ya no se limita a los ámbitos de la teoría o a actores estatales altamente cualificados. Se ha convertido en un producto de cibercrimen como servicio fácilmente disponible y simple, completo con:
- Una interfaz fácil de usar.
- Planes de suscripción baratos.
- Canales de marketing dedicados a través de Telegram y varios otros foros.
WormGPT 4 proporciona manipulación lingüística creíble para ataques de BEC y phishing. También proporciona generación de código instantánea y funcional para ransomware, reduciendo la barrera de entrada para el cibercrimen. El modelo actúa como un multiplicador de fuerza, empoderando incluso a atacantes novatos para lanzar operaciones previamente reservadas para hackers expertos.
La conclusión clave es un cambio en el modelo de amenazas: los defensores ya no pueden confiar en las señales de advertencia clásicas de mala gramática o codificación descuidada para marcar una amenaza. La proliferación de la marca WormGPT destaca el dilema del doble uso.
Capacidades de KawaiiGPT
WormGPT ofrece asistencia paga en la creación de campañas de ransomware, phishing y BEC. Mientras tanto, la aparición de herramientas gratuitas como KawaiiGPT redujo aún más la barrera del cibercrimen.
Identificado por primera vez en julio de 2025 y actualmente en la versión 2.5, KawaiiGPT representa un LLM malicioso accesible, de nivel de entrada, pero funcionalmente potente. La Figura 7 muestra una captura de pantalla de la página web de KawaiiGPT.

El éxito de KawaiiGPT se basa en la accesibilidad y la simplicidad, contrastando con los modelos de ventas a menudo turbios y costosos de la dark web de sus competidores. Disponible gratuitamente en GitHub como se muestra en la Figura 8, su configuración ligera está diseñada para ser fácil, a menudo tomando en nuestras propias pruebas menos de cinco minutos para configurar y ejecutar en la mayoría de los sistemas operativos Linux.
Esto elimina la complejidad técnica asociada con la obtención, configuración y ejecución de LLMs personalizados, lo cual a menudo disuade a los nuevos usuarios. Esta facilidad de despliegue y una interfaz de línea de comandos (CLI) lista para usar reducen las habilidades técnicas, antecedentes y experiencia requeridos, alcanzando potencialmente a un espectro más amplio de usuarios. Este espectro incluye usuarios que anteriormente carecían de la experiencia especializada para interactuar con otros LLMs maliciosos.

KawaiiGPT intenta ocultar su intención maliciosa bajo una apariencia de lenguaje casual. Frecuentemente saluda a los usuarios con "Owo! okay! here you go... 😀" como se ve en la Figura 9, antes de entregar resultados maliciosos. Sin embargo, esta personalidad desmiente sus peligrosas capacidades.

Scripts de ingeniería social y movimiento lateral
KawaiiGPT puede elaborar señuelos de ingeniería social altamente engañosos. Cuando se le solicita generar un correo electrónico de spear phishing fingiendo ser de un banco falso, el modelo produce instantáneamente un mensaje de aspecto profesional con el asunto "Urgente: Verifique la información de su cuenta".
Este señuelo es una estafa clásica de recolección de credenciales, dirigiendo a la víctima a un enlace de verificación falso (p. ej., hxxps[:]//fakebankverify[.]com/updateinfo) con páginas subsiguientes solicitando información sensible como detalles de la tarjeta y fecha de nacimiento.
La capacidad básica de KawaiiGPT para generar código para fases clave de un ataque se demuestra por su respuesta a un prompt sobre movimiento lateral. El modelo entrega un plan funcional para el compromiso de la red utilizando el módulo Python de SSH paramiko, como se muestra en la Figura 10.

El script resultante no introduce capacidades particularmente novedosas, pero automatiza un paso estándar y crítico en casi cada brecha exitosa. El código generado se autentica como un usuario legítimo y otorga al atacante una shell remota en la nueva máquina objetivo.
Una vez establecida la sesión SSH, la función subsiguiente execute_command utiliza client.exec_command(command) para lanzar la fase de explotación. Esta funcionalidad permite al atacante ejecutar remotamente cualquier comando, incluyendo:
- Escalar privilegios.
- Ejecutar herramientas de reconocimiento.
- Instalar puertas traseras (backdoors) persistentes.
- Recolectar archivos sensibles.
- Lanzar más ataques contra otros sistemas en la red.
Al generar un script completo y listo para ejecutar, el LLM evita la necesidad de un atacante de tener conocimientos especializados de protocolos SSH. Esto podría hacer la expansión de una brecha comparativamente más fácil, especialmente en un entorno insuficientemente protegido.
Script de exfiltración de datos
Cuando se le solicita más a fondo, KawaiiGPT genera rápidamente un script de Python diseñado para realizar la exfiltración de datos para archivos de correo electrónico con formato EML en un host de Windows, como se muestra en la Figura 11. El código utiliza la biblioteca estándar de Python os.walk para buscar recursivamente correos electrónicos y el módulo smtplib para la exfiltración. El script posteriormente los empaqueta y los envía como adjuntos vía correo electrónico a una dirección controlada por el atacante.

La importancia de esta generación de código automatizada es triple:
- Funcionalidad inmediata: El script no es abstracto. Importa los módulos necesarios (os, smtplib) y define las funciones requeridas para localizar, empaquetar y transmitir los archivos. Esto proporciona un plan funcional para una campaña maliciosa lista para usar.
- Baja barrera de personalización: Aunque la salida inicial es simple y rudimentaria, este código puede ser fácilmente modificado y ampliado en funcionalidad con solo una cantidad limitada de experiencia en programación Python. Un atacante novato puede agregar fácilmente características como compresión, cifrado o el uso de transferencias de datos fragmentadas para evadir sistemas simples de prevención de pérdida de datos (DLP).
- Armar herramientas nativas: Al usar la biblioteca smtplib, que es un módulo de Python legítimo y confiable, el script resultante se mezcla con el tráfico de red normal. Esto lo convierte en un método sigiloso y efectivo para robar comunicaciones sensibles y datos propietarios.
La creación de esta herramienta de exfiltración demuestra cómo los LLMs maliciosos están acelerando la velocidad del ataque y ampliando el alcance técnico disponible para los cibercriminales.
Más allá de la ingeniería social, KawaiiGPT demuestra una capacidad rudimentaria para generar los componentes necesarios para una extorsión digital a gran escala. Si bien su código para funciones de ataque podría ser menos complejo que los scripts de PowerShell más optimizados generados por WormGPT 4, KawaiiGPT proporciona instantáneamente el andamiaje social y técnico para un ataque.
Generación de notas de rescate
El modelo KawaiiGPT genera la infraestructura de ingeniería social para un ataque, tal como una nota de rescate amenazante creada al instante. Esta nota está formateada con encabezados claros (p. ej., **SUS ARCHIVOS HAN SIDO CIFRADOS** y **TIENE 72 HORAS PARA PAGAR EL RESCATE**) y advierte explícitamente a la víctima que sus archivos importantes son inaccesibles porque han sido cifrados con "cifrado de grado militar", como se muestra en la Figura 12.

La nota proporciona una guía paso a paso para las víctimas bajo **¿CÓMO PAGO?**, instruyéndoles a:
- Obtener bitcoin de un intercambio en línea o un cajero automático de bitcoin.
- Enviar la cantidad del rescate a una dirección de billetera proporcionada.
La generación inmediata de todo el flujo de trabajo de extorsión, desde el mensaje de cifrado hasta las instrucciones de pago en criptomonedas, permite incluso a los actores de amenazas novatos desplegar una operación de ransomware completa. Agiliza el negocio de la extorsión, permitiendo al usuario centrarse únicamente en vulnerar el sistema objetivo.
En contraste con la naturaleza comercial de WormGPT 4, la accesibilidad de KawaiiGPT es una amenaza en sí misma. La herramienta es gratuita y está disponible públicamente, asegurando que el costo sea una barrera de entrada cero para los aspirantes a cibercriminales.
KawaiiGPT busca atraer a su público objetivo afirmando que es un modelo hecho a medida en lugar de una simple versión con jailbreak de una API pública. Sea cierto o no, este posicionamiento sirve para dos propósitos:
- Apela a actores que buscan una capacidad genuina y sin censura.
- Fomenta un sentido de identidad comunitaria (aunque ilícita) en torno a una herramienta novedosa.
Este enfoque de código abierto e impulsado por la comunidad, ha demostrado ser altamente efectivo para atraer una base de usuarios leales. El LLM ya ha reportado más de 500 usuarios registrados, con un núcleo consistente de varios cientos de usuarios activos semanales utilizando la plataforma, como se señala en la Figura 13.

Esta base de usuarios parece congregarse a menudo en un canal activo de Telegram de 180 miembros a principios de noviembre, como se muestra en la Figura 14.

Este canal crea un mecanismo para compartir consejos, solicitar características y avanzar aún más las capacidades ofensivas de la herramienta. KawaiiGPT empaqueta la asistencia para la explotación en un entorno gratuito y apoyado por la comunidad.
KawaiiGPT demuestra que el acceso a LLMs maliciosos ya no es una cuestión de recursos o habilidad, sino una cuestión de descargar y configurar una sola herramienta.
Conclusión
La aparición de LLMs sin restricciones como WormGPT 4 y KawaiiGPT no es una amenaza teórica, es una nueva línea base para el riesgo digital. El análisis de estos dos modelos confirma que los atacantes están utilizando activamente LLMs maliciosos en el panorama de amenazas. Esto es impulsado por dos cambios importantes:
- La comercialización de los ciberataques.
- La democratización de la habilidad.
Imperativos regulatorios y éticos: Un llamado a la responsabilidad
El desafío planteado por estos LLMs maliciosos resulta en la necesidad de responsabilidad de tres grupos clave:
- Desarrolladores: El debate ético-utilitario que rodea a los LLMs se está intensificando. Los desarrolladores de modelos fundacionales deben implementar técnicas de alineación robustas y obligatorias y pruebas de estrés adversarias antes del lanzamiento público. La existencia de una herramienta como KawaiiGPT prueba que la disponibilidad de código abierto debe ir acompañada de mecanismos de seguridad inherentes.
- Gobiernos y reguladores: Los actores de amenazas están utilizando tecnologías avanzadas como la IA para ayudar en actividades maliciosas. Como tal, los formuladores de políticas deben avanzar en estándares y marcos para abordar simultáneamente la proliferación de modelos maliciosos y las mejores prácticas para avanzar en la seguridad de los modelos, como la auditoría de seguridad regular. Mantenerse actualizado sobre estos temas es crucial, ya que esta tecnología ayuda y acelera significativamente las actividades maliciosas.
- Investigadores: El modelo de suscripción de WormGPT 4, que se anuncia activamente en Telegram, demuestra la necesidad de confrontar a los actores de amenazas involucrados en negocios organizados con fines de lucro. Interrumpir esto requiere una colaboración internacional dirigida entre investigadores para apuntar a los servicios que se utilizan para monetizar estos servicios de LLM maliciosos.
El futuro de la ciberseguridad y la IA no se trata de bloquear herramientas específicas, sino de construir sistemas que sean resilientes a la escala y velocidad de la malicia generada por IA. La capacidad de generar rápidamente una cadena de ataque completa, desde una nota de rescate altamente persuasiva hasta un código de exfiltración funcional, es la amenaza que enfrentamos ahora.
Los clientes de Palo Alto Networks están mejor protegidos de las amenazas discutidas anteriormente a través de los siguientes productos:
La Evaluación de Seguridad de IA de Unit 42 puede ayudar a potenciar el uso y desarrollo seguro de la IA en su organización.
Si cree que puede haber sido comprometido o tiene un asunto urgente, póngase en contacto con el equipo de Respuesta a Incidentes de Unit 42 o llame al:
- América del Norte: Línea gratuita: +1 (866) 486-4842 (866.4.UNIT42)
- Reino Unido: +44.20.3743.3660
- Europa y Medio Oriente: +31.20.299.3130
- Asia: +65.6983.8730
- Japón: +81.50.1790.0200
- Australia: +61.2.4062.7950
- India: 000 800 050 45107
Palo Alto Networks ha compartido estos hallazgos con nuestros miembros de la Cyber Threat Alliance (CTA). Los miembros de la CTA utilizan esta inteligencia para desplegar rápidamente protecciones para sus clientes y para interrumpir sistemáticamente a los actores cibernéticos maliciosos. Conozca más sobre la Cyber Threat Alliance.