By Bruno Kodjaoglanian Cardoso Tulux in News — 22 jun 2026

Prefill-as-a-Service (PrfaaS): Desagregação de KVCache Cross-Datacenter

1. Introdução e Contexto

O serviço de Modelos de Linguagem de Grande Escala (LLMs) é tradicionalmente dividido em duas fases distintas: Prefill (processamento do prompt de entrada) e Decode (geração iterativa de tokens). Devido às características computacionais opostas de cada fase (o prefill é limitado pela computação, enquanto o decode é limitado pela largura de banda da memória), a indústria adotou a Desagregação Prefill-Decode (PD).

No entanto, em modelos de atenção densa tradicionais, a transferência do estado interno (KVCache) entre estas fases exige uma largura de banda de rede massiva, forçando os clusters a coexistirem no mesmo datacenter. O PrfaaS surge como um novo paradigma que permite que o KVCache de modelos de próxima geração seja enviado através de datacenters distintos utilizando redes Ethernet comuns.

2. O Problema: A "Parede de Largura de Banda"

A desagregação PD convencional enfrenta um desafio logístico:
Volume do KVCache: Em modelos densos, o cache gerado no prefill é demasiado grande para ser movido eficientemente por redes que não sejam de ultrabaixa latência (como RDMA).
Rigidez de Infraestrutura: Esta dependência de RDMA impede o uso de recursos de computação distribuídos globalmente, onde se poderia usar energia mais barata num local para o prefill e hardware focado em latência noutro para o decode.

3. O Catalisador: Modelos de Atenção Híbrida

O PrfaaS aproveita uma mudança fundamental na arquitetura dos LLMs de próxima geração (ex: modelos que misturam atenção densa com camadas lineares ou esparsas):
Redução de Cache: Estes modelos produzem um KVCache significativamente menor, muitas vezes reduzido numa ordem de grandeza (ex: 10x ou mais).
Viabilidade de Rede: Com um cache menor, a transferência de dados torna-se compatível com redes Ethernet de prateleira (commodity), permitindo latências de transferência que não invalidam os ganhos de velocidade de processamento.

4. Arquitetura do Sistema PrfaaS

O sistema é composto por um cluster remoto de prefill (PrfaaS Cluster) e clusters locais de desagregação (Local PD Clusters).

4.1. Agendamento Bandwidth-aware (Ciente da Banda)

O sistema não envia todos os pedidos para o cluster remoto de forma ingénua. O agendador decide o destino baseando-se em:
1.Comprimento do Prompt: Pedidos curtos são mantidos localmente para evitar o overhead da rede.
2.Estado do Cache: Se o prefixo já estiver em cache local, o pedido não é enviado para fora.
3.Capacidade de Rede: O sistema monitoriza a largura de banda disponível e ajusta o fluxo de KVCache para evitar congestionamentos que atrasariam o Time To First Token (TTFT).

4.2. Pool de Blocos Híbrido (Hybrid Block Pool)

Para gerir a memória eficientemente, o PrfaaS utiliza uma gestão de memória que unifica blocos de cache locais e remotos. Isto permite:
*Alocação dinâmica de blocos de cache entre diferentes GPUs.
*Suporte para partilha de prefixos (Prefix Caching) em larga escala.

5. Resultados e Análise de Desempenho

O PrfaaS foi avaliado utilizando modelos híbridos de larga escala (até 1T de parâmetros) com resultados significativos:

Métrica	Comparação com PD Homogéneo	Comparação com PD Heterogéneo
Throughput (Vazão)	+54%	+32%
P90 TTFT (Latência)	Redução de até 64%	-

A principal conclusão é que a poupança de tempo ao processar um prompt longo em hardware topo de gama (ex: H200) compensa largamente o tempo de transmissão do KVCache via Ethernet, resultando numa experiência de utilizador superior.

6. Conclusão e Implicações

O PrfaaS demonstra que a desagregação cross-datacenter é agora tecnicamente viável e economicamente atrativa. Esta arquitetura permite uma flexibilidade sem precedentes na gestão de recursos de IA, permitindo que os fornecedores de nuvem escalem o prefill de forma independente e distribuída geograficamente sem comprometer a latência do utilizador final.

Referências:

Qin, R., et al. (2026). Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter. arXiv:2604.15039v1.