Daímon

Pila de inteligencia artificial

Pila de inteligencia artificial construida y operada por Steven Vallejo. Desde asistentes RAG con modelos de 70B hasta conversores OCR GPU y enjambres de agentes MCP.

6componentes

4GPU locales

1via API

1CPU local

Nota honesta: Los componentes marcados como “Demo GPU pendiente” corren en hardware local (RTX 2060 / RTX 5070 Ti) y requieren VRAM dedicada para funcionar. Hostear inferencia GPU en la nube a costo razonable esta pendiente. El codigo fuente de cada componente esta disponible en GitHub.

Componentes

Jarvis IA v1

El asistente original — arquitectura cerebro modular

Primera iteracion del asistente personal en espanol. Inspirado en el cerebro humano: corteza OS, lobulos NLP, sistema de memoria, ego de respuesta y pesos emocionales para personalizar interacciones.

Node.jsNLP.jsPythonMycroft+2

CPU — Local CPU / NLP ligero

Codigo disponible

Jarvis IA v2

Asistente RAG avanzado — multi-modelo, voz, GPU

Version avanzada con interfaz web tipo ChatGPT, sistema RAG sobre ChromaDB con embeddings BGE-M3, seleccion automatica de modelo por dificultad de query, TTS/STT y monitoreo GPU en tiempo real.

Python 3.10+FastAPIChromaDBBGE-M3 Embeddings+5

GPU — GPU Local (16GB+ VRAM recomendado)

Demo GPU pendiente de hosting

Chat IA Local GGUF

LLM cuantizado GGUF sobre llama.cpp — 5 GB VRAM

App de chat local optimizada para GPUs con ~5 GB VRAM. Usa modelos GGUF cuantizados (Qwen2.5-7B, LLaMA 3.1 8B, Gemma 2 9B, DeepSeek-R1) via llama-cpp-python con aceleracion CUDA.

Python 3.10+llama-cpp-pythonFastAPICUDA / cuDNN+4

GPU — GPU Local (5 GB VRAM minimo, RTX 2060+)

Demo GPU pendiente de hosting

MCP Swarm Delegator

Enjambre local Planner-Worker-Reviewer via MCP

Servidor MCP que expone herramientas a Copilot y Cursor para delegar tareas complejas a un enjambre de LLMs locales en Ollama. Pipeline Planner (deepseek-r1:14b) → Workers paralelos (qwen2.5-coder:14b) → Reviewer (qwen2.5:14b).

TypeScript / Node.jsMCP Protocol (stdio)Ollamadeepseek-r1:14b+3

GPU — GPU Local (16 GB VRAM, RTX 5070 Ti)

Demo GPU pendiente de hosting

MCP Autonomous Agents

Servidor MCP con agentes autonomos — OpenAI + REST

Servidor MCP dual (stdio + HTTP) con agentes autonomos integrados con OpenAI. Herramientas de analisis de codigo, contexto automatico de proyecto y endpoints REST para integracion web.

TypeScript / Node.jsMCP ProtocolOpenAI API (GPT-4o, GPT-5, o1)Express / HTTP+1

API — API Cloud (OpenAI)

Disponible — requiere OPENAI_API_KEY

PDF to Markdown IA

Conversor OCR GPU — PDF/DOCX/PPTX a Markdown con Surya

Conversor de documentos a Markdown con OCR acelerado por GPU usando el modelo Surya. Arquitectura separada en Backend API, Worker GPU y Frontend para maxima estabilidad. Soporta PDF, DOCX y PPTX.

Python 3.10+Surya OCRFastAPICUDA / PyTorch+1

GPU — GPU Local (CUDA, RTX recomendado) + fallback CPU

Demo GPU pendiente de hosting

Arquitectura de la suite completa

Diagrama de como los 6 componentes interactuan entre si: desde el IDE hasta los modelos GPU, pasando por los servidores MCP y los vectorstores.

Ver arquitectura global

Codigo disponible en GitHub

Demo GPU pendiente de hosting

GPUCorre en GPU local

APICorre via API cloud

CPUCorre en CPU local