Jarvis IA v2

Demo GPU pendiente de hosting

Asistente RAG avanzado — multi-modelo, voz, GPU

GPUGPU Local (16GB+ VRAM recomendado)Ver codigo en GitHub
Nota honesta: Los componentes marcados como “Demo GPU pendiente” corren en hardware local (RTX 2060 / RTX 5070 Ti) y requieren VRAM dedicada para funcionar. Hostear inferencia GPU en la nube a costo razonable esta pendiente. El codigo fuente de cada componente esta disponible en GitHub.

Descripcion

JarvisIAV2 es un asistente completo que corre en hardware local con GPU. Soporta multiples LLMs (Qwen2.5-14B/32B, LLaMA 3.1 70B, DeepSeek 14B) con seleccion automatica segun complejidad de la consulta. El sistema RAG usa ChromaDB y embeddings BGE-M3 para recuperacion semantica. Incluye interfaz web moderna con tema oscuro, historial de chat, indicadores de estado GPU, y capacidades de voz bidireccionalmente.

Requisitos de hardware

RTX 3090/4090/5070 Ti | 16GB+ VRAM | 32GB+ RAM | CUDA 11.8+

Capacidades

  • RAG con ChromaDB y embeddings BGE-M3
  • Seleccion automatica de modelo por dificultad
  • Interfaz web moderna tipo ChatGPT
  • TTS y STT (voz bidireccional)
  • Monitoreo GPU en tiempo real
  • Carga/descarga dinamica de modelos sin reiniciar
  • Soporte multi-modelo: Qwen, LLaMA, DeepSeek
  • API REST para integracion con otros sistemas

Stack tecnologico

Python 3.10+FastAPIChromaDBBGE-M3 EmbeddingsQwen2.5-14B/32BLLaMA 3.1 70BDeepSeek 14BCUDA 11.8+Docker

Diagrama de arquitectura

Pipeline RAG completo con seleccion inteligente de modelo, base de vectores ChromaDB, y servicio web FastAPI.

Cargando diagrama...

Codigo fuente

https://github.com/stevenvo780/jarvisIAV2

Ver en GitHub