Entrada · Request Ingress
● RECEIVING
Data Ingress
REQUEST
Datos financieros · Queries · Tool calls · Context externo
Zona MCP · Model Context Protocol Internals
Fase 1 — Ingesta & Escaneo
SCAN ENGINE
1.1
Request Parser
Deserializa JSON-RPC. Extrae method, params, id. Valida schema del mensaje entrante.
2ms
JSON-RPC 2.0
→
1.2
Auth & Permissions
Verifica token OAuth / API key. Valida permisos del cliente contra ACL de recursos.
5ms
RBAC
→
1.3
Schema Validator
Valida estructura contra el MCP spec. Rechaza payloads malformados. Sanitiza inputs.
3ms
Strict mode
→
1.4
Source Scanner
Identifica tipo de recurso: Tool, Resource, Prompt. Escanea disponibilidad del servidor MCP.
8ms
24 sources
→
1.5
Rate Limiter
Token bucket por cliente. Throttle si excede límites. Prioriza por SLA tier.
1ms
Tier-based
Validated payload
Fase 2 — Construcción de Contexto
CONTEXT BUILDER
2.1
Tool Discovery
Enumera tools disponibles en los MCP servers conectados. Cachea schemas de cada tool.
12ms
150+ tools
→
2.2
Resource Fetcher
Obtiene recursos del MCP server: archivos, DB rows, APIs. Normaliza a formato unificado.
25ms
Multi-source
→
2.3
Context Assembler
Ensambla prompt con: system instructions, tools schema, resources, conversation history.
8ms
128K window
→
2.4
Token Optimizer
Trunca contexto si excede ventana. Prioriza: instrucciones > tools > resources > history.
4ms
Smart trim
→
2.5
Prompt Injection Guard
Escanea contexto ensamblado buscando inyecciones maliciosas. Sanitiza contenido externo.
6ms
Security
Assembled context
Fase 3 — Orquestación de Tools
TOOL ROUTER
3.1
Tool Call Router
Recibe tool_use del LLM. Rutea al MCP server correcto según el tool name registrado.
3ms
Router
→
3.2
Param Validator
Valida parámetros contra el JSON schema del tool. Rechaza tipos incorrectos o faltantes.
2ms
Schema check
→
3.3
MCP Server Executor
Ejecuta la llamada al MCP server via JSON-RPC / stdio / SSE. Timeout configurable.
50-200ms
Execute
→
3.4
Response Sanitizer
Valida respuesta del server. Sanitiza output. Trunca si excede límites. Maneja errores.
4ms
Clean output
→
3.5
Result Injector
Inyecta tool_result de vuelta al contexto del LLM como mensaje tipo tool_result.
2ms
Re-inject
↻ MCP Tool Loop — Puede iterar N veces hasta completar la tarea
Context + Tool Results
● PROCESSING
Protocol Hub
MCP
Contexto unificado listo · Envía al LLM para inferencia
Full context payload
Zona LLM · Large Language Model Internals
Fase 4 — LLM Preprocesamiento
TOKENIZER
4.1
Tokenizer
Convierte texto a tokens (BPE). Mapea tool schemas a representación numérica interna.
8ms
BPE encoding
→
4.2
Embedding Layer
Convierte tokens a vectores densos. Agrega positional encoding para secuencia.
12ms
d=4096
→
4.3
Safety Classifier
Pre-filtro de seguridad. Detecta prompts adversariales, contenido prohibido, jailbreaks.
15ms
Guard rail
→
4.4
Intent Classifier
Clasifica intención: tool_use, direct_response, clarification, multi-step reasoning.
10ms
Intent routing
Encoded tensors
Fase 5 — Inferencia & Razonamiento
TRANSFORMER CORE
5.1
Self-Attention
Multi-head attention sobre toda la secuencia. Captura relaciones entre todos los tokens.
~80ms
96 heads
→
5.2
Feed-Forward + MoE
Capas feed-forward con Mixture of Experts. Activa subconjunto de parámetros por token.
~60ms
Sparse MoE
→
5.3
Autoregressive Decode
Genera tokens uno a uno. Cada token atiende a todos los anteriores. Sampling top-p / temp.
~120ms
Streaming
→
5.4
Tool Use Decision
Decide si necesita llamar un tool (genera tool_use block) o responder directamente.
Inline
Decision point
↻ Si tool_use → Regresa a MCP Fase 3 para ejecutar · Loop hasta completar
Generated tokens
Fase 6 — Post-Procesamiento & Validación
OUTPUT VALIDATOR
6.1
Output Safety Filter
Filtra contenido generado contra políticas. Detecta alucinaciones, datos sensibles, PII.
10ms
RLHF filter
→
6.2
Citation Validator
Verifica que las citas correspondan a fuentes reales. Cross-check con recursos MCP.
8ms
Fact-check
→
6.3
Format Serializer
Serializa respuesta: text blocks, tool_use blocks, citations. Estructura JSON final.
3ms
JSON serialize
→
6.4
Stream Encoder
Codifica para streaming SSE. Envía tokens progresivamente al cliente en tiempo real.
1ms
SSE stream
→
6.5
Audit Logger
Registra: request, context, tokens usados, tool calls, latencia, resultado. Compliance log.
2ms
Full trace
● INFERENCE
AI Engine
LLM
Respuesta generada, validada y lista para entrega
Final response
Salida · Response Delivery
● DELIVERED
Response Egress
OUTPUT
Respuesta estructurada entregada al sistema solicitante
SOfia Dashboard
API Response
Streaming SSE
Webhook Callback
Audit Trail
Analytics Event
Cache Update
Error Handler