Jarvis IA v2
Demo GPU pendiente de hostingAsistente RAG avanzado — multi-modelo, voz, GPU
GPU — GPU Local (16GB+ VRAM recomendado)Ver codigo en GitHub
Nota honesta: Los componentes marcados como “Demo GPU pendiente” corren en hardware local (RTX 2060 / RTX 5070 Ti) y requieren VRAM dedicada para funcionar. Hostear inferencia GPU en la nube a costo razonable esta pendiente. El codigo fuente de cada componente esta disponible en GitHub.
Descripcion
JarvisIAV2 es un asistente completo que corre en hardware local con GPU. Soporta multiples LLMs (Qwen2.5-14B/32B, LLaMA 3.1 70B, DeepSeek 14B) con seleccion automatica segun complejidad de la consulta. El sistema RAG usa ChromaDB y embeddings BGE-M3 para recuperacion semantica. Incluye interfaz web moderna con tema oscuro, historial de chat, indicadores de estado GPU, y capacidades de voz bidireccionalmente.
Requisitos de hardware
RTX 3090/4090/5070 Ti | 16GB+ VRAM | 32GB+ RAM | CUDA 11.8+
Capacidades
- —RAG con ChromaDB y embeddings BGE-M3
- —Seleccion automatica de modelo por dificultad
- —Interfaz web moderna tipo ChatGPT
- —TTS y STT (voz bidireccional)
- —Monitoreo GPU en tiempo real
- —Carga/descarga dinamica de modelos sin reiniciar
- —Soporte multi-modelo: Qwen, LLaMA, DeepSeek
- —API REST para integracion con otros sistemas
Stack tecnologico
Python 3.10+FastAPIChromaDBBGE-M3 EmbeddingsQwen2.5-14B/32BLLaMA 3.1 70BDeepSeek 14BCUDA 11.8+Docker
Diagrama de arquitectura
Pipeline RAG completo con seleccion inteligente de modelo, base de vectores ChromaDB, y servicio web FastAPI.
Cargando diagrama...
Codigo fuente
https://github.com/stevenvo780/jarvisIAV2