Los ciberdelincuentes están aprovechando cada vez más los grandes modelos de lenguaje (LLM) para automatizar y mejorar sus ciberataques. Lo confirma Cisco Talos, la división de ciberinteligencia de Cisco. De acuerdo con la investigación, los actores maliciosos no sólo están explotando los servicios de IA públicos, también utilizan modelos personalizados y versiones ‘con jailbreak’. Estas herramientas les permiten orquestar campañas de phishing convincentes y escribir código malicioso complejo.
Gracias a su capacidad para generar texto persuasivo, resolver problemas y escribir código, los LLM están ganando popularidad en todos los sectores. Según Hugging Face, plataforma que aloja LLM, actualmente hay más de 1,8 millones de modelos disponibles. La mayoría están equipados con salvaguardas y limitaciones incorporadas (‘barandillas y ‘alineaciones’) para evitar usos delictivos.
Índice de temas
LLM sin restricciones
Sin embargo, Cisco Talos ha identificado un número significativo de LLM sin restricciones que permiten a los ciberdelincuentes elaborar mensajes de phishing altamente realistas y comunicaciones fraudulentas, a menudo libres de errores gramaticales o frases sospechosas. Esto aumenta la probabilidad de que las víctimas revelen información personal o corporativa.
Ejemplos de estos modelos son Ollama y WhiteRabbitNeo, este último promocionado como herramienta para operaciones de ciberseguridad tanto defensivas como ofensivas. El análisis del proveedor también destaca los métodos para eliminar las restricciones integradas (alineaciones). Los usuarios pueden modificar los conjuntos de datos de entrenamiento y ajustar los modelos base para eliminar restricciones, facilitando así un uso indebido.
LLM maliciosos personalizados
Algunos delincuentes han ido más allá desarrollando sus propios LLM y promoviéndolos en la web oscura. Estos LLM maliciosos pueden crear software dañino de forma autónoma, como ransomware, troyanos de acceso remoto, shellcode y diversos scripts.
Además, ayudan a generar correos de phishing, páginas de destino y archivos de configuración. También pueden verificar datos de tarjetas de crédito robadas, escanear sitios web en busca de vulnerabilidades e idear nuevas estrategias delictivas. Ejemplos de este tipo de aplicaciones maliciosas son GhostGPT, WormGPT, DarkGPT, DarkestGPT y FraudGPT. Talos ha detectado que FraudGPT, en particular, forma parte de una campaña de estafa más amplia.
Abuso de LLM legítimos
Dada la viabilidad limitada de los LLM sin restricciones y al alto riesgo de estafa con modelos maliciosos, muchos ciberdelincuentes optan por explotar modelos legítimos. Estos modelos ofrecen una plataforma potente, siempre que lo atacantes puedan eludir las medidas de seguridad integradas.
Las principales barreras son las directrices de formación y las medidas de seguridad que impiden respuestas a consultas poco éticas o ilegales. Para superarlas, emplean técnicas como la inyección inmediata, que intenta hacer jailbreak a los modelos y eludir sus limitaciones.
“Para combatir el uso indebido de grandes modelos de lenguaje, las organizaciones deben adaptar sus medidas de seguridad en consecuencia”, destaca Ángel Ortiz, director de Ciberseguridad en Cisco España. “Esto implica monitorizar el tráfico relacionado con la IA, detectar avisos sospechosos y capacitar a los empleados para reconocer los correos electrónicos de phishing generados por la IA. Además, recomendamos encarecidamente trabajar exclusivamente con modelos de confianza y plataformas bien protegidas”.








