Daímon

Pila de inteligencia artificial

Pila de inteligencia artificial construida y operada por Steven Vallejo. Desde asistentes RAG con modelos de 70B hasta conversores OCR GPU y enjambres de agentes MCP.

6componentes
4GPU locales
1via API
1CPU local
Nota honesta: Los componentes marcados como “Demo GPU pendiente” corren en hardware local (RTX 2060 / RTX 5070 Ti) y requieren VRAM dedicada para funcionar. Hostear inferencia GPU en la nube a costo razonable esta pendiente. El codigo fuente de cada componente esta disponible en GitHub.

Componentes

Jarvis IA v1

El asistente original — arquitectura cerebro modular

Primera iteracion del asistente personal en espanol. Inspirado en el cerebro humano: corteza OS, lobulos NLP, sistema de memoria, ego de respuesta y pesos emocionales para personalizar interacciones.

Node.jsNLP.jsPythonMycroft+2
CPULocal CPU / NLP ligero
Codigo disponible

Jarvis IA v2

Asistente RAG avanzado — multi-modelo, voz, GPU

Version avanzada con interfaz web tipo ChatGPT, sistema RAG sobre ChromaDB con embeddings BGE-M3, seleccion automatica de modelo por dificultad de query, TTS/STT y monitoreo GPU en tiempo real.

Python 3.10+FastAPIChromaDBBGE-M3 Embeddings+5
GPUGPU Local (16GB+ VRAM recomendado)
Demo GPU pendiente de hosting

Chat IA Local GGUF

LLM cuantizado GGUF sobre llama.cpp — 5 GB VRAM

App de chat local optimizada para GPUs con ~5 GB VRAM. Usa modelos GGUF cuantizados (Qwen2.5-7B, LLaMA 3.1 8B, Gemma 2 9B, DeepSeek-R1) via llama-cpp-python con aceleracion CUDA.

Python 3.10+llama-cpp-pythonFastAPICUDA / cuDNN+4
GPUGPU Local (5 GB VRAM minimo, RTX 2060+)
Demo GPU pendiente de hosting

MCP Swarm Delegator

Enjambre local Planner-Worker-Reviewer via MCP

Servidor MCP que expone herramientas a Copilot y Cursor para delegar tareas complejas a un enjambre de LLMs locales en Ollama. Pipeline Planner (deepseek-r1:14b) → Workers paralelos (qwen2.5-coder:14b) → Reviewer (qwen2.5:14b).

TypeScript / Node.jsMCP Protocol (stdio)Ollamadeepseek-r1:14b+3
GPUGPU Local (16 GB VRAM, RTX 5070 Ti)
Demo GPU pendiente de hosting

MCP Autonomous Agents

Servidor MCP con agentes autonomos — OpenAI + REST

Servidor MCP dual (stdio + HTTP) con agentes autonomos integrados con OpenAI. Herramientas de analisis de codigo, contexto automatico de proyecto y endpoints REST para integracion web.

TypeScript / Node.jsMCP ProtocolOpenAI API (GPT-4o, GPT-5, o1)Express / HTTP+1
APIAPI Cloud (OpenAI)
Disponible — requiere OPENAI_API_KEY

PDF to Markdown IA

Conversor OCR GPU — PDF/DOCX/PPTX a Markdown con Surya

Conversor de documentos a Markdown con OCR acelerado por GPU usando el modelo Surya. Arquitectura separada en Backend API, Worker GPU y Frontend para maxima estabilidad. Soporta PDF, DOCX y PPTX.

Python 3.10+Surya OCRFastAPICUDA / PyTorch+1
GPUGPU Local (CUDA, RTX recomendado) + fallback CPU
Demo GPU pendiente de hosting

Arquitectura de la suite completa

Diagrama de como los 6 componentes interactuan entre si: desde el IDE hasta los modelos GPU, pasando por los servidores MCP y los vectorstores.

Ver arquitectura global
Codigo disponible en GitHub
Demo GPU pendiente de hosting
GPUCorre en GPU local
APICorre via API cloud
CPUCorre en CPU local