NOC Interno — MCP & LLM · Arquitectura de Procesamiento

Entrada · Request Ingress

● RECEIVING

Data Ingress

REQUEST

Datos financieros · Queries · Tool calls · Context externo

Zona MCP · Model Context Protocol Internals

①

Fase 1 — Ingesta & Escaneo

SCAN ENGINE

1.1

Request Parser

Deserializa JSON-RPC. Extrae method, params, id. Valida schema del mensaje entrante.

2ms

JSON-RPC 2.0

→

1.2

Auth & Permissions

Verifica token OAuth / API key. Valida permisos del cliente contra ACL de recursos.

5ms

RBAC

→

1.3

Schema Validator

Valida estructura contra el MCP spec. Rechaza payloads malformados. Sanitiza inputs.

3ms

Strict mode

→

1.4

Source Scanner

Identifica tipo de recurso: Tool, Resource, Prompt. Escanea disponibilidad del servidor MCP.

8ms

24 sources

→

1.5

Rate Limiter

Token bucket por cliente. Throttle si excede límites. Prioriza por SLA tier.

1ms

Tier-based

Validated payload

②

Fase 2 — Construcción de Contexto

CONTEXT BUILDER

2.1

Tool Discovery

Enumera tools disponibles en los MCP servers conectados. Cachea schemas de cada tool.

12ms

150+ tools

→

2.2

Resource Fetcher

Obtiene recursos del MCP server: archivos, DB rows, APIs. Normaliza a formato unificado.

25ms

Multi-source

→

2.3

Context Assembler

Ensambla prompt con: system instructions, tools schema, resources, conversation history.

8ms

128K window

→

2.4

Token Optimizer

Trunca contexto si excede ventana. Prioriza: instrucciones > tools > resources > history.

4ms

Smart trim

→

2.5

Prompt Injection Guard

Escanea contexto ensamblado buscando inyecciones maliciosas. Sanitiza contenido externo.

6ms

Security

Assembled context

③

Fase 3 — Orquestación de Tools

TOOL ROUTER

3.1

Tool Call Router

Recibe tool_use del LLM. Rutea al MCP server correcto según el tool name registrado.

3ms

Router

→

3.2

Param Validator

Valida parámetros contra el JSON schema del tool. Rechaza tipos incorrectos o faltantes.

2ms

Schema check

→

3.3

MCP Server Executor

Ejecuta la llamada al MCP server via JSON-RPC / stdio / SSE. Timeout configurable.

50-200ms

Execute

→

3.4

Response Sanitizer

Valida respuesta del server. Sanitiza output. Trunca si excede límites. Maneja errores.

4ms

Clean output

→

3.5

Result Injector

Inyecta tool_result de vuelta al contexto del LLM como mensaje tipo tool_result.

2ms

Re-inject

↻ MCP Tool Loop — Puede iterar N veces hasta completar la tarea

Context + Tool Results

● PROCESSING

Protocol Hub

MCP

Contexto unificado listo · Envía al LLM para inferencia

Full context payload

Zona LLM · Large Language Model Internals

④

Fase 4 — LLM Preprocesamiento

TOKENIZER

4.1

Tokenizer

Convierte texto a tokens (BPE). Mapea tool schemas a representación numérica interna.

8ms

BPE encoding

→

4.2

Embedding Layer

Convierte tokens a vectores densos. Agrega positional encoding para secuencia.

12ms

d=4096

→

4.3

Safety Classifier

Pre-filtro de seguridad. Detecta prompts adversariales, contenido prohibido, jailbreaks.

15ms

Guard rail

→

4.4

Intent Classifier

Clasifica intención: tool_use, direct_response, clarification, multi-step reasoning.

10ms

Intent routing

Encoded tensors

⑤

Fase 5 — Inferencia & Razonamiento

TRANSFORMER CORE

5.1

Self-Attention

Multi-head attention sobre toda la secuencia. Captura relaciones entre todos los tokens.

~80ms

96 heads

→

5.2

Feed-Forward + MoE

Capas feed-forward con Mixture of Experts. Activa subconjunto de parámetros por token.

~60ms

Sparse MoE

→

5.3

Autoregressive Decode

Genera tokens uno a uno. Cada token atiende a todos los anteriores. Sampling top-p / temp.

~120ms

Streaming

→

5.4

Tool Use Decision

Decide si necesita llamar un tool (genera tool_use block) o responder directamente.

Inline

Decision point

↻ Si tool_use → Regresa a MCP Fase 3 para ejecutar · Loop hasta completar

Generated tokens

⑥

Fase 6 — Post-Procesamiento & Validación

OUTPUT VALIDATOR

6.1

Output Safety Filter

Filtra contenido generado contra políticas. Detecta alucinaciones, datos sensibles, PII.

10ms

RLHF filter

→

6.2

Citation Validator

Verifica que las citas correspondan a fuentes reales. Cross-check con recursos MCP.

8ms

Fact-check

→

6.3

Format Serializer

Serializa respuesta: text blocks, tool_use blocks, citations. Estructura JSON final.

3ms

JSON serialize

→

6.4

Stream Encoder

Codifica para streaming SSE. Envía tokens progresivamente al cliente en tiempo real.

1ms

SSE stream

→

6.5

Audit Logger

Registra: request, context, tokens usados, tool calls, latencia, resultado. Compliance log.

2ms

Full trace

● INFERENCE

AI Engine

LLM

Respuesta generada, validada y lista para entrega

Final response

Salida · Response Delivery

● DELIVERED

Response Egress

OUTPUT

Respuesta estructurada entregada al sistema solicitante

SOfia Dashboard

API Response

Streaming SSE

Webhook Callback

Audit Trail

Analytics Event

Cache Update

Error Handler

12:04:32[OK]Request parsed · schema valid · auth OK

12:04:32[MCP]Context assembled: 42K tokens · 6 tools · 3 resources

12:04:33[LLM]Inference: 2 tool calls → MCP loop → final response 380ms

12:04:33[OK]Safety pass · citation valid · response delivered via SSE

12:04:33[AUDIT]Full trace logged · compliance: OK