Si alguna plataforma le cobra tokens por imágenes generadas por IA en 2026, no le está vendiendo un producto. Le está vendiendo ignorancia. El coste real de generar una imagen en su propio hardware es aproximadamente cero una vez que posee una tarjeta gráfica capaz. La generación de imágenes IA local no es un secreto, no es un truco y no está limitada a ingenieros. Es software libre y de código abierto que ejecuta los mismos modelos (o mejores) por los que estas plataformas le cobran por cada clic.
Esta guía le acompaña en la configuración. Al final, tendrá un pipeline de generación de imágenes IA local funcionando en su propia máquina, produciendo imágenes al nivel de calidad que las aplicaciones cobran en suscripciones premium, sin coste por imagen. El único requisito es una GPU moderna y aproximadamente una hora de su tiempo.
Qué es ComfyUI y por qué importa
ComfyUI es una interfaz gratuita, de código abierto, basada en nodos, para ejecutar modelos de generación de imágenes IA localmente. Piense en ello como un entorno de programación visual donde cada paso del proceso de generación (cargar un modelo, escribir un prompt, ajustar parámetros, generar, escalar) es una caja arrastrable que conecta con cables. Se ejecuta en su navegador, pero el cálculo ocurre en su máquina.
La parte de « basada en nodos » suena intimidante. No lo es. El flujo de trabajo por defecto que viene con ComfyUI ya conecta las cajas que necesita para la generación básica de texto a imagen. Escribe un prompt, hace clic en « Queue Prompt » y obtiene una imagen. Los nodos se vuelven útiles después, cuando quiera encadenar operaciones más complejas: img2img, inpaintingTécnica de edición de imágenes con IA que rellena o reemplaza una región seleccionada según un prompt de texto, integrando el resultado de forma natural con el resto de la imagen., ControlNet, procesamiento por lotes. Pero para empezar, puede tratarlo como un simple campo de texto con un botón de generar.
ComfyUI soporta Stable Diffusion 1.5, SDXL, Stable Diffusion 3 y modelos Flux de forma nativa. Se desarrolla activamente, con una gran comunidad creando nodos personalizados para cada flujo de trabajo imaginable. El repositorio de GitHub (github.com/comfyanonymous/ComfyUI) tiene decenas de miles de estrellas y se actualiza frecuentemente.
Qué es Flux
Flux es una familia de modelos de texto a imagen creada por Black Forest Labs, fundada por varios de los investigadores detrás del Stable Diffusion original. Flux representa el estado del arte actual en generación de imágenes con pesos abiertos. « Pesos abiertos » significa que los archivos del modelo entrenado son descargables gratuitamente. No necesita clave API ni suscripción. Descarga el archivo, apunta ComfyUI hacia él y genera.
La familia Flux incluye varias versiones. La principal (Flux.1 Dev) ofrece la mejor calidad. Una versión más rápida (Flux.1 Schnell, « rápido » en alemán) genera imágenes más deprisa pero con algo menos de detalle. Las versiones más recientes siguen mejorando. Lo clave: todas son gratuitas para descargar y usar.
Para ejecutar Flux en un ordenador normal, querrá la versión comprimida (llamada « FP8 »). Piense en ello como comprimir una foto de máxima calidad a alta calidad: el archivo se reduce mucho, apenas se nota la diferencia y funciona en hardware más modesto. Necesita unos 12 GB de memoria de vídeo en su tarjeta gráfica. Existen versiones aún más comprimidas que caben en tarjetas de 8 GB.
La familia Flux incluye varias variantes. Flux.1 Dev es el modelo de desarrollo estándar, óptimo para calidad. Flux.1 Schnell intercambia calidad por generación significativamente más rápida (4 pasos de inferencia frente a 20-50). Flux.2 añadió soporte multi-referencia y mejoró la coherencia. NVIDIA colaboró con Black Forest Labs para optimizar Flux.2 para GPUs RTX de consumo mediante cuantización FP8, reduciendo los requisitos de VRAM en aproximadamente un 40 %.
Para la generación de imágenes IA local en hardware de consumo, los checkpoints cuantizados FP8 son el objetivo. Comprimen los pesos del modelo de FP16/FP32 a FP8, reduciendo a la mitad la huella de memoria con pérdida de calidad perceptual mínima. Flux.1 Dev FP8 funciona cómodamente con 12 GB de VRAM. Las variantes cuantizadas GGUF (Q4_K_M, Q5_K_S) reducen el mínimo a 6-8 GB con compromisos de calidad progresivos. Para tarjetas de 24 GB, los pesos BF16 completos siguen siendo una opción.
Requisitos de hardware: menos de lo que piensa
Su ordenador tiene dos cerebros: la CPU (el procesador principal que ejecuta su sistema operativo) y la GPU (la tarjeta gráfica, diseñada originalmente para videojuegos). La generación de imágenes IA se ejecuta en la GPU porque es masivamente mejor en el tipo de matemáticas paralelas que estos modelos necesitan. La especificación clave es la VRAM: la memoria dedicada de su tarjeta gráfica. Más VRAM significa que puede ejecutar modelos más grandes y mejores.
La configuración mínima viable para la generación de imágenes IA local con Flux es cualquier GPU NVIDIA con 8 GB de VRAM. Eso incluye la RTX 3060 (variante de 12 GB), RTX 3070, RTX 4060 y todo lo superior. Las GPU AMD también funcionan, aunque NVIDIA tiene mejor soporte de software para esta carga de trabajo. Si no tiene idea de qué GPU tiene, en Windows vaya a Configuración, Sistema, Pantalla, luego desplácese hasta « Pantalla avanzada » y le indicará.
Aquí está el desglose práctico:
- 8 GB de VRAM (RTX 3060 8 GB, RTX 4060): Ejecuta modelos Flux muy comprimidos. La generación toma de 30 a 60 segundos por imagen. Perfectamente usable.
- 12 GB de VRAM (RTX 3060 12 GB, RTX 4070): Ejecuta Flux.1 Dev FP8 de forma nativa. La generación toma de 15 a 30 segundos. El punto ideal para la mayoría de usuarios.
- 16 a 24 GB de VRAM (RTX 4080, RTX 4090): Ejecuta modelos de precisión completa a alta velocidad. De 5 a 15 segundos por imagen. El segmento de lujo.
Una RTX 3060 12 GB usada se vende por entre 150 y 200 dólares en 2026. Eso es menos que seis meses de suscripciones premium en la mayoría de plataformas de IA. Solo que la GPU no caduca, no requiere pagos recurrentes y además puede ejecutar videojuegos.
Configurar la generación de imágenes IA local paso a paso
Esta es la parte que parece complicada desde fuera y que en la práctica toma unos 30 minutos. Necesita tres cosas: Python (un lenguaje de programación sobre el que está construido ComfyUI), el propio ComfyUI y un archivo de modelo Flux (el « cerebro » que genera imágenes).
Antes de empezar: varios de estos pasos implican escribir comandos en un terminal. Un terminal es simplemente una forma textual de decirle a su ordenador qué hacer. En Windows, pulse la tecla Windows y escriba « cmd » para abrir el Símbolo del sistema. En Mac, abra Spotlight (Cmd+Espacio) y escriba « Terminal ». Parece una película de hackers, pero todo lo que está haciendo es escribir instrucciones en lugar de hacer clic en botones.
El camino fácil: si los pasos de abajo le parecen excesivos, vaya directamente a la aplicación de escritorio ComfyUI. Empaqueta todo en un instalador normal para Windows y macOS: descárguelo, haga doble clic, listo. La configuración manual de abajo le da más control, pero la aplicación de escritorio le pone a generar imágenes en unos cinco clics.
Paso 1: Instalar Python
Descargue Python 3.10 o posterior desde python.org. Ejecute el instalador. Importante en Windows: marque la casilla « Add Python to PATH » en la parte inferior de la primera pantalla. Esto permite que su terminal encuentre Python cuando escriba comandos. En Mac y Linux, Python suele estar ya instalado.
Para verificar: abra un terminal y escriba python --version. Si muestra algo como « Python 3.12.1 », está listo.
Paso 2: Descargar y configurar ComfyUI
Todavía en su terminal, escriba este comando y pulse Enter:
git clone https://github.com/comfyanonymous/ComfyUI.git
Esto descarga la aplicación ComfyUI completa en una carpeta llamada « ComfyUI » dondequiera que apunte su terminal (normalmente su carpeta de usuario). Si su ordenador dice « git is not recognized », necesita instalar Git primero: descárguelo desde git-scm.com, ejecute el instalador con la configuración por defecto y vuelva a intentarlo.
A continuación, navegue hasta la carpeta e instale los componentes necesarios:
cd ComfyUI
pip install -r requirements.txt
El segundo comando lee una lista de software que ComfyUI necesita y lo descarga automáticamente. La descarga ocupa varios gigabytes (incluye las bibliotecas matemáticas que hacen que su GPU trabaje con IA). Con una conexión decente, de cinco a diez minutos. Solo se hace una vez.
Paso 3: Descargar un modelo Flux
El archivo del modelo es el « cerebro » que realmente genera las imágenes. Es un archivo grande (aproximadamente 12 GB para la versión estándar). Vaya a huggingface.co (una plataforma gratuita donde se comparten modelos de IA) y busque « flux1-dev-fp8 ». Descargue el archivo y colóquelo en la carpeta ComfyUI/models/checkpoints/. Si tiene una tarjeta gráfica más modesta (8 GB de VRAM o menos), busque « flux GGUF » en su lugar para encontrar versiones comprimidas más pequeñas (de 4 a 8 GB).
Paso 4: Ejecutar
En su terminal, asegúrese de que todavía está en la carpeta ComfyUI, y escriba:
python main.py
ComfyUI inicia un servidor local en su máquina. Abra su navegador web y vaya a http://127.0.0.1:8188 (esa dirección simplemente significa « este ordenador, puerto 8188 », no va a internet). La interfaz se carga con un flujo de trabajo predeterminado ya configurado. Seleccione su modelo descargado en la caja « Load Checkpoint », escriba lo que quiera ver en el campo de prompt y haga clic en « Queue Prompt ». Su primera imagen generada por IA aparecerá en 15 a 60 segundos dependiendo de su GPU.
Si obtiene un error de memoria insuficiente, pruebe: python main.py --lowvram. Esto indica a ComfyUI que sea más cuidadoso con la memoria de su GPU, sacrificando algo de velocidad por compatibilidad con tarjetas más modestas.
Paso 1: Python + Git
Se requiere Python 3.10+ y Git. Si no están instalados: sudo apt install python3 python3-pip git (Debian/Ubuntu), brew install python git (macOS), o descargue los instaladores desde python.org y git-scm.com (Windows, marque « Add to PATH »).
Paso 2: Clonar e instalar dependencias
git clone https://github.com/comfyanonymous/ComfyUI.git && cd ComfyUI
Para NVIDIA (CUDA):
pip install -r requirements.txt
Para AMD (ROCm):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0 && pip install -r requirements.txt
Alternativamente, use la aplicación de escritorio ComfyUI que empaqueta Python y las dependencias en un instalador autónomo.
Paso 3: Descargar el checkpoint
Coloque su archivo de modelo en ComfyUI/models/checkpoints/. Puntos de partida recomendados:
- 12 GB+ de VRAM:
flux1-dev-fp8.safetensors(~12 GB) desde Hugging Face - 8 GB de VRAM: Variante GGUF Q5_K_S (~8 GB) desde Hugging Face o Civitai
- 6 GB de VRAM: Variante GGUF Q4_K_M (~5 GB), usable con el flag
--lowvram
El VAE está integrado en los checkpoints FP8. Para GGUF, puede necesitar un VAE separado (ae.safetensors del repositorio Flux).
Paso 4: Lanzar
# Default
python main.py
# Low VRAM (8GB)
python main.py --lowvram
# CPU only (slow)
python main.py --cpu
Acceso en http://127.0.0.1:8188. El flujo de trabajo predeterminado se carga automáticamente. Seleccione su checkpoint en la cadena KSampler, establezca su prompt y ejecute. Para Flux, use 20 a 30 pasos con el muestreador Euler para Dev, 4 pasos para Schnell.
La economía de los tokens: por qué está pagando realmente
Ahora que sabe que la configuración toma 30 minutos y no cuesta nada más allá del hardware que quizá ya posee, considere lo que cobran las plataformas de aplicaciones IA.
El modelo de precios típico funciona así: un nivel gratuito le da de 3 a 5 imágenes por día. Una suscripción intermedia (de 10 a 15 dólares al mes) le da de 30 a 50 imágenes. Los niveles premium (de 30 a 40 dólares al mes) desbloquean generación « ilimitada », que normalmente significa un tope más alto con limitación. Algunas plataformas venden paquetes de tokens por separado, cobrando de 0,10 a 0,50 dólares por imagen además de la suscripción.
¿El coste real para estas plataformas? Ejecutar Flux o un modelo similar en GPUs en la nube cuesta aproximadamente de 0,01 a 0,04 dólares por imagen a escala, dependiendo de la infraestructura. El margen va de 3x a 50x. Para las plataformas que venden tokens individuales a 0,25 o 0,50 dólares por imagen, el margen es astronómico. Como analizamos en nuestra comparativa de aplicaciones compañeras de IA, el modelo de negocio se basa en que los usuarios no sepan cuánto cuesta realmente la tecnología.
Es el equivalente a cobrar por cada búsqueda en Google en 2004, excepto que Google entendió que hacer la búsqueda gratuita y monetizar la atención era más rentable que exprimir cada céntimo a los usuarios. El mercado de aplicaciones compañeras de IA no ha aprendido esta lección, o más exactamente, ha aprendido que sus usuarios aún no lo saben.
El escalado también es gratuito
Muchas plataformas cobran tokens adicionales por imágenes « HD » o « escaladas ». La generación de imágenes IA local incluye el escalado sin coste adicional. Modelos como 4x-UltraSharp y RealESRGAN pueden tomar una generación de 512×512 y escalarla a 2048×2048 con detalle y nitidez añadidos. En ComfyUI, esto es un solo nodo adicional en su flujo de trabajo. Los archivos de modelos de escalado son pequeños (menos de 100 MB) y están disponibles gratuitamente.
Lo mismo se aplica al inpainting (borrar parte de una imagen y dejar que la IA la rellene), img2img (darle a la IA una foto existente y pedirle que la transforme) y ControlNet (darle a la IA una pose de referencia o boceto a seguir). Cada función que una plataforma podría bloquear tras un muro de pago existe como una extensión gratuita e instalable en ComfyUI.
Alternativas que vale la pena conocer
ComfyUI no es la única opción para la generación de imágenes IA local, aunque es la más flexible.
Automatic1111 (Stable Diffusion WebUI) es la interfaz más antigua y más establecida. Se parece más a una página web normal: tiene un campo de texto, algunos controles deslizantes y un botón de generar. Sin cables, sin cajas. Más simple de entender el primer día, pero más difícil para cosas avanzadas después. Si el enfoque visual de nodos de ComfyUI realmente le desanima, empiece aquí.
Forge es un fork de Automatic1111 optimizado para menor uso de VRAM y generación más rápida. Añade funciones de gestión de memoria que permiten ejecutar modelos más grandes en GPUs más pequeñas. Un buen punto medio.
Los tres son gratuitos, de código abierto y usan los mismos archivos de modelo. ComfyUI recibe la recomendación aquí porque su sistema de nodos escala de lo simple a lo extraordinariamente complejo sin cambiar de herramienta, y su soporte de Flux es el mantenido más activamente. Pero cualquiera de los tres le sacará de la rueda de hámster de los tokens.
El panorama general
El patrón aquí no es exclusivo de la generación de imágenes. La degradación de plataformas como modelo de negocio funciona restringiendo gradualmente lo que antes estaba disponible libremente, para luego revenderle el acceso a precio premium. Las aplicaciones compañeras de IA tomaron un atajo: pusieron las restricciones desde el principio, apostando a que los usuarios nunca descubrirían que la tecnología subyacente es abierta y gratuita.
La generación de imágenes IA local no es un rodeo ni un truco. Es el estado por defecto de la tecnología. Los modelos son abiertos. Las herramientas son abiertas. La única barrera es saber que existen. Ahora lo sabe.



