Chat IA Local GGUF
Demo GPU pendiente de hostingLLM cuantizado GGUF sobre llama.cpp — 5 GB VRAM
GPU — GPU Local (5 GB VRAM minimo, RTX 2060+)Ver codigo en GitHub
Nota honesta: Los componentes marcados como “Demo GPU pendiente” corren en hardware local (RTX 2060 / RTX 5070 Ti) y requieren VRAM dedicada para funcionar. Hostear inferencia GPU en la nube a costo razonable esta pendiente. El codigo fuente de cada componente esta disponible en GitHub.
Descripcion
Solucion de LLM local diseniada para hardware accesible. Corre Qwen2.5-7B-Instruct en Q4_K_M (~4.6 GB VRAM) en una RTX 2060 con tokens de alta calidad. Soporta multi-GPU via tensor_split, cambio dinamico de modelo desde la UI sin reiniciar el servidor, y multiples puertos para distintos modelos simultaneos. Backend FastAPI + UI web incluida.
Requisitos de hardware
RTX 2060+ | 5 GB VRAM minimo | CUDA + cuDNN | Linux / WSL2
Capacidades
- —Inferencia LLM cuantizada GGUF (Q4_K_M)
- —Aceleracion GPU NVIDIA con CUDA
- —Soporte multi-GPU con tensor_split
- —Cambio dinamico de modelo sin reiniciar
- —Multiples instancias en distintos puertos
- —UI web de chat incluida
- —Fallback CPU automatico
Stack tecnologico
Python 3.10+llama-cpp-pythonFastAPICUDA / cuDNNQwen2.5-7B GGUFLLaMA 3.1 8B GGUFGemma 2 9B GGUFDeepSeek-R1 GGUF
Diagrama de arquitectura
Server FastAPI con llama-cpp-python como motor de inferencia GGUF, con gestion de modelos y API REST.
Cargando diagrama...
Codigo fuente
https://github.com/stevenvo780/IA