Arquitectura de la StevenAI Suite

Vision de alto nivel de como los 6 componentes IA de Steven Vallejo interactuan entre si, desde el IDE del desarrollador hasta los modelos GPU locales y la nube.

Nota honesta: Los componentes marcados como “Demo GPU pendiente” corren en hardware local (RTX 2060 / RTX 5070 Ti) y requieren VRAM dedicada para funcionar. Hostear inferencia GPU en la nube a costo razonable esta pendiente. El codigo fuente de cada componente esta disponible en GitHub.

Cargando diagrama...

Capas de la arquitectura

Capa IDE / Herramientas de desarrollo

—MCP Swarm Delegator — delega tareas complejas a enjambre local
—MCP Autonomous Agents — agentes con contexto de proyecto via OpenAI

Capa de asistentes conversacionales

—Jarvis IA v1 — asistente modular NLP en espanol (CPU)
—Jarvis IA v2 — RAG + multi-modelo + voz (GPU 16GB+)
—Chat IA GGUF — LLM cuantizado accesible (GPU 5GB+)

Capa de procesamiento de documentos

—PDF to Markdown IA — OCR GPU con Surya para PDF/DOCX/PPTX

Infraestructura de modelos

—Ollama local — modelos 14B (deepseek-r1, qwen2.5-coder, qwen2.5)
—GGUF via llama-cpp-python — Qwen 7B, LLaMA 8B, Gemma 9B, DeepSeek 7B
—ChromaDB + BGE-M3 — vectorstore para RAG
—OpenAI API — GPT-4o / GPT-5 / o1 (fallback cloud)

Detalles por componente

El asistente original — arquitectura cerebro modular

Asistente RAG avanzado — multi-modelo, voz, GPU

Chat IA Local GGUF

LLM cuantizado GGUF sobre llama.cpp — 5 GB VRAM

MCP Swarm Delegator

Enjambre local Planner-Worker-Reviewer via MCP

MCP Autonomous Agents

Servidor MCP con agentes autonomos — OpenAI + REST

PDF to Markdown IA

Conversor OCR GPU — PDF/DOCX/PPTX a Markdown con Surya