especiales

Qué son las redes GAN



Dirección copiada

Las redes generativas adversativas o antagónicas permiten crear datos sintéticos. Aunque su uso inicial se centraba en la producción de imágenes, su versatilidad las ha hecho aptas para sonidos y textos. Te contamos un poco más sobre estas soluciones de IA de aprendizaje profundo

Publicado el 1 sept 2025

Cristina Albarrán

Directora de Redes&Telecom



Qué son las redes GAN
Qué son las redes GAN

Las redes GAN o redes generativas adversativas o antagónicas es un concepto ligado a la IA. La gran habilidad de estas arquitecturas es poder crear datos (ya sea en forma de imágenes, sonidos y textos) a través de dos redes neuronales enfrentadas: la generadora y la discriminadora. Como un juego, una se vuelve más precisa a la hora de crear datos falsos, mientras que la otra se perfecciona para detectarlos.

En este artículo te contamos cuáles son sus características, cómo funcionan y sus aplicaciones.

En qué consiste las redes GAN. Características

Las redes generativas adversativas o antagónicas -popularmente conocidas por su acrónimo del inglés GAN-, son una clase de algoritmos de inteligencia artificial que se utilizan en el aprendizaje profundo no supervisado y son implementadas por un sistema de dos redes neuronales enfrentadas que compiten entre sí en una especie de juego de suma cero (la ganancia o pérdida de una de las redes se compensa con la ganancia o pérdida de la opuesta).

Estas redes, que fueron presentadas por Ian Goodfellow y otros autores en 2014, se utilizan para generar imágenes sintéticas,aunque, dada su versatilidad son capaces de aprender a generar nuevas instancias de cualquier tipo de datos como imágenes sintéticas de caras, nuevas canciones de un determinado estilo o texto de un género concreto. No obstante, la capacidad para generar datos sintéticos de alta calidad se ha empleado en diferentes áreas desde la producción publicitaria hasta la investigación científica.

Se componen de dos partes principales: el generador y el discriminador.

  • El generador es responsable de crear imágenes o datos sintéticos a partir de un conjunto de datos de entrada aleatorios.
  • El discriminador tiene como objetivo distinguir entre datos reales y aquellos generados.

Cómo funcionan las redes GAN

Como hemos dicho, la arquitectura de las redes GAN consta de dos redes neuronales profundas, una generativa y otra discriminativa, que compiten mutuamente (de ahí lo de “antagónicas”). Aunque una ecuación matemática compleja constituye la base de todo el proceso de computación, su funcionamiento es muy sencillo. Una red genera nuevos datos al tomar una muestra de datos de entrada aleatorios y modificarla en la medida de lo posible y otra los evalúa tratando de predecir si la salida de datos generada pertenece al conjunto de datos original. El sistema genera versiones nuevas y mejoradas de valores de datos falsos hasta que la red de predicción ya no puede distinguir el falso del original.

Es decir, el generador produce nuevas instancias de datos, mientras que el discriminador distingue entre instancias de datos “reales”, procedentes del conjunto de datos de entrenamiento, y datos “falsos”, producidos por el generador.

El generador y el discriminador se entrenan juntos para que compitan entre ellos hasta que el generador sea capaz de crear datos sintéticos realistas que el discriminador no pueda identificar como falsos. Una vez que el entrenamiento concluye satisfactoriamente, los datos producidos por el generador se pueden utilizar para crear nuevos datos sintéticos, que a su vez se podrían emplear como entrada de otras redes neuronales profundas.

En la práctica de entrenamiento, un conjunto de datos conocido sirve como “el saber” de partida para el discriminador. Entrenar al discriminador implica presentarle muestras del conjunto de datos, hasta que logra algún nivel de exactitud. Después, las muestras sintetizadas por el generador son evaluadas por el discriminador. En ambas redes se aplica la retropropagación, de modo que el generador produce imágenes progresivamente mejores, mientras el discriminador se refina cada vez más a la hora de distinguir esas imágenes sintéticas. ​Mediante la retroalimentación se actualizan los parámetros y se busca mejorar la precisión.

Las redes GAN tienen la capacidad de aprendizaje no supervisado, o sea que pueden aprender sin necesidad de datos etiquetados. En otras palabras, pueden aprender a generar datos a partir de una variedad de fuentes

El generador intenta maximizar la probabilidad de error del discriminador, pero este último intenta minimizar la probabilidad de error. En las iteraciones de entrenamiento, tanto el generador como el discriminador evolucionan y se enfrentan de forma continua hasta alcanzar un estado de equilibrio. En este punto, el discriminador ya no puede reconocer los datos sintetizados y se da por concluido el proceso de formación.

La meta final del aprendizaje de la red generativa es aumentar el índice de error de la red discriminativa, o sea, engañar a la red discriminativa produciendo nuevos elementos sintéticos que parecen provenir de la distribución de datos auténticos, vamos, mentir sin que lo descubran. ​El objetivo del discriminador es identificar elementos falsos procedentes del generador.

Tipos de redes GAN

Según las fórmulas matemáticas utilizadas y las formas en las que el generador y el discriminador interactúan entre sí, podemos hablar de diferentes tipos de modelos gan.

Entre los más comunes se encuentran:

Conditional GAN

Frente a una red GAN original que presupone que no hay etiquetas, una conditional GAN (cGAN) introduce el concepto de condicionamiento, lo que permite la generación de datos específicos. El generador y el discriminador reciben información adicional, por lo general, etiquetas de clase u otra forma de datos condicionantes. Se pueden utilizar en aplicaciones tales como la generación de escenas, donde se requiere cierta organización de la información

Deep convolutional GAN

Al reconocer el poder de las redes neuronales convolucionales (CNN, un tipo de algoritmo de aprendizaje profundo especializado en el análisis de datos visuales, como imágenes y vídeos, inspiradas en la corteza visual humana) en el procesamiento de imágenes, Deep convolutional GAN (DCGAN) integra arquitecturas CNN en GAN. El generador utiliza convoluciones transpuestas para aumentar la distribución de los datos, y el discriminador también utiliza capas convolucionales para clasificar los datos. Asimismo introduce directrices de arquitectura para hacer que la capacitación sea más estable.

Laplacian Pyramid GAN

Conocidas como LAPGAN se enfrentan el desafío de generar imágenes de alta resolución al dividir el problema en etapas. Recurren a un enfoque jerárquico, con múltiples generadores y discriminadores que trabajan en diferentes escalas o resoluciones de la imagen. El proceso comienza con la generación de una imagen de baja resolución cuya calidad mejora en las etapas progresivas de GAN.

Super-resolution GAN

Los Super-resolution GANS (SRGAN) se centran en la ampliación de imágenes de baja resolución a alta resolución. El objetivo es mejorar las imágenes a una resolución más alta y, al mismo tiempo, mantener la calidad y los detalles de la imagen.

Vanilla GAN

Este es el modelo GAN básico que genera variaciones de datos con poca o ninguna retroalimentación de la red discriminadora. Suele requerir mejoras para la mayoría de los casos de uso en el mundo real.

Otros tipos más específicos

En el mercado existen otros tipos de GAN que resuelven problemas específicos. Por ejemplo, CycleGAN, DiscoGAN o StyleGAN.

Ventajas de las redes GAN

Las redes GAN aportan muchas ventajas en tanto en cuanto pueden generar datos de alta calidad difíciles de distinguir de los datos reales, además de producir datos nuevos y datos faltantes. Y lo pueden hacer a una velocidad mucho mayor que la producción manual, aprendiendo sin supervisión.

Por otra parte, su flexibilidad y versatilidad permite utilizar estas soluciones en uno vasto abanico de aplicaciones en múltiples sectores: audiovisual, sanitario, ingeniería, arquitectura…

Inconvenientes

Si bien las redes GAN son eficaces para generar datos sintéticos nuevos que se pueden destinar a muchas aplicaciones, con frecuencia es difícil obtener resultados precisos, debido a los diferentes modos de fallo que pueden producirse. Todavía tienen limitaciones en cuanto a la calidad de los datos generados ya que a veces pueden generar datos que son visualmente atractivos, pero no realistas o útiles.

A ello se suma la dificultad de entrenamiento debido a la necesidad de equilibrar la convergencia entre el generador y el discriminador. Además, en algunos casos se producen imágenes similares y repetitivas o de poca calidad como borrosas o distorsionadas.

Y es que, las redes GAN precisan de grandes cantidades de datos de entrenamiento para obtener buenos resultados y estar bien distribuidos.

Casos de uso y ejemplos de redes GAN

Producción de imágenes, vídeos y escenas

Las redes GAN o RGA se han empleado para generar muestras de imágenes fotorrealistas de diseño industrial, de ropa, de interiores o de elementos para escenas de juegos de ordenador. Mediante indicaciones basadas en texto o modificando las imágenes existentes, ayudan a crear experiencias visuales realistas y experiencias inmersivas en videojuegos o aplicaciones de entrenamiento digital.

GAN también puede editar imágenes, como convertir una imagen de baja resolución en una de alta resolución o convertir una imagen en blanco y negro en color o mejorar de forma notable imágenes con muy poca luz. También puede crear rostros, personajes y animales realistas para animación y video. De hecho, algunas de estas soluciones han construido patrones de movimiento en vídeo o se han centrado en la en la reconstrucción de modelos 3D a partir de imágenes 2D o imágenes escaneadas. Un uso que se relaciona estrechamente con la realidad aumentada y que tiene su campo de aplicación en la optimización de imágenes astronómicas o en el cuidado de la salud, combinando radiografías y otras exploraciones corporales para crear imágenes realistas de los órganos destinadas a la planificación y simulación quirúrgicas.

Su utilidad también queda reflejada en la generación de escenas para conducción autónoma. La calzada y la acera están ubicadas debajo de los edificios y el cielo. Una imagen sintética creada para este ejemplo que no respete la ubicación de la calzada se considerará inmediatamente como falsa e inutilizable en una aplicación de conducción autónoma.

Completar la información faltante

Este tipo de redes neuronales resultan extremadamente eficientes para «rellenar» la información faltante. En este sentido, el modelo generativo está capacitado para -en algunas ocasiones-, adivinar con precisión y completar alguna información faltante en un conjunto de datos. Podría ser para generar imágenes del subsuelo mediante la comprensión de la correlación entre los datos de la superficie y las estructuras subterráneas. Al estudiar las imágenes conocidas del subsuelo, puede crear otras nuevas utilizando mapas del terreno para aplicaciones energéticas como la cartografía geotérmica o la captura y el almacenamiento de carbono.

Audio y voz: creación de música con IA

Las redes neuronales gan también se utilizan para aplicaciones tales como la síntesis de texto a voz, la conversión de voz y la mejora de la calidad de voz. Estas soluciones ofrecen una considerable ventaja respecto de las implementaciones tradicionales de audio y voz, ya que pueden generar nuevas muestras en lugar de limitarse a aumentar las señales existentes y su aplicación llega a la producción de música.

La red generativa se dedica a crear música mientras que la discriminativa se encarga de discernir entre la música real (ya existente) que se le proporciona y la música «falsa» (aquella que la red generativa intenta generar). Su éxito se consigue cuando, la red discriminativa es incapaz de encontrar diferencias significativas entre la música real y la falsa. De esta manera, el programa recopila información de música de varios géneros y es capaz de reproducir un estilo de composición de un artista determinado o fusionar dos estilos de música. Un ejemplo sería como en 2021, el equipo de Matthias Röder (director del Karajan Institut de Salzburgo) fue capaz de acabar la Sinfonía n.º 10 de Beethoven, también conocida como «la inacabada» con la ayuda de la IA.

Generación de escritura manuscrita

Las redes GAN se pueden aprovechar para complementar conjuntos de datos más pequeños que necesiten más ejemplos de datos para entrenar modelos de deep learning precisos. Un ejemplo es la detección de escritura manuscrita; para entrenar una red neuronal profunda para escritura a mano, se necesitan miles de muestras de datos de entrenamiento, y recopilar esos datos manualmente puede llevar mucho tiempo.

Generar datos de entrenamiento para otros modelos

Las redes GAN se retroalimentan así que una de sus aplicaciones más claras es el de generar datos de entrenamiento para otros modelos. En machine learning, el aumento de datos incrementa artificialmente el conjunto de entrenamiento mediante la creación de copias modificadas de un conjunto de datos a partir de los datos existentes. Por ejemplo, se pueden generar datos de transacciones fraudulentas que luego se utilizan para entrenar a otro sistema de ML de detección de fraudes. Estos datos pueden enseñar al sistema a distinguir con precisión entre transacciones sospechosas y auténticas.

Artículos relacionados