Chat IA Local GGUF

Demo GPU pendiente de hosting

LLM cuantizado GGUF sobre llama.cpp — 5 GB VRAM

GPUGPU Local (5 GB VRAM minimo, RTX 2060+)Ver codigo en GitHub
Nota honesta: Los componentes marcados como “Demo GPU pendiente” corren en hardware local (RTX 2060 / RTX 5070 Ti) y requieren VRAM dedicada para funcionar. Hostear inferencia GPU en la nube a costo razonable esta pendiente. El codigo fuente de cada componente esta disponible en GitHub.

Descripcion

Solucion de LLM local diseniada para hardware accesible. Corre Qwen2.5-7B-Instruct en Q4_K_M (~4.6 GB VRAM) en una RTX 2060 con tokens de alta calidad. Soporta multi-GPU via tensor_split, cambio dinamico de modelo desde la UI sin reiniciar el servidor, y multiples puertos para distintos modelos simultaneos. Backend FastAPI + UI web incluida.

Requisitos de hardware

RTX 2060+ | 5 GB VRAM minimo | CUDA + cuDNN | Linux / WSL2

Capacidades

  • Inferencia LLM cuantizada GGUF (Q4_K_M)
  • Aceleracion GPU NVIDIA con CUDA
  • Soporte multi-GPU con tensor_split
  • Cambio dinamico de modelo sin reiniciar
  • Multiples instancias en distintos puertos
  • UI web de chat incluida
  • Fallback CPU automatico

Stack tecnologico

Python 3.10+llama-cpp-pythonFastAPICUDA / cuDNNQwen2.5-7B GGUFLLaMA 3.1 8B GGUFGemma 2 9B GGUFDeepSeek-R1 GGUF

Diagrama de arquitectura

Server FastAPI con llama-cpp-python como motor de inferencia GGUF, con gestion de modelos y API REST.

Cargando diagrama...

Codigo fuente

https://github.com/stevenvo780/IA

Ver en GitHub