Prefill-as-a-Service (PrfaaS): Desagregação de KVCache Cross-Datacenter
1. Introdução e Contexto
O serviço de Modelos de Linguagem de Grande Escala (LLMs) é tradicionalmente dividido em duas fases distintas: Prefill (processamento do prompt de entrada) e Decode (geração iterativa de tokens). Devido às características computacionais opostas de cada fase (o prefill é limitado pela computação, enquanto o decode é limitado pela largura de banda da memória), a indústria adotou a Desagregação Prefill-Decode (PD).
No entanto, em modelos de atenção densa tradicionais, a transferência do estado interno (KVCache) entre estas fases exige uma largura de banda de rede massiva, forçando os clusters a coexistirem no mesmo datacenter. O PrfaaS surge como um novo paradigma que permite que o KVCache de modelos de próxima geração seja enviado através de datacenters distintos utilizando redes Ethernet comuns.
2. O Problema: A "Parede de Largura de Banda"
A desagregação PD convencional enfrenta um desafio logístico:
Volume do KVCache: Em modelos densos, o cache gerado no prefill é demasiado grande para ser movido eficientemente por redes que não sejam de ultrabaixa latência (como RDMA).
Rigidez de Infraestrutura: Esta dependência de RDMA impede o uso de recursos de computação distribuídos globalmente, onde se poderia usar energia mais barata num local para o prefill e hardware focado em latência noutro para o decode.
3. O Catalisador: Modelos de Atenção Híbrida
O PrfaaS aproveita uma mudança fundamental na arquitetura dos LLMs de próxima geração (ex: modelos que misturam atenção densa com camadas lineares ou esparsas):
Redução de Cache: Estes modelos produzem um KVCache significativamente menor, muitas vezes reduzido numa ordem de grandeza (ex: 10x ou mais).
Viabilidade de Rede: Com um cache menor, a transferência de dados torna-se compatível com redes Ethernet de prateleira (commodity), permitindo latências de transferência que não invalidam os ganhos de velocidade de processamento.
4. Arquitetura do Sistema PrfaaS
O sistema é composto por um cluster remoto de prefill (PrfaaS Cluster) e clusters locais de desagregação (Local PD Clusters).
4.1. Agendamento Bandwidth-aware (Ciente da Banda)
O sistema não envia todos os pedidos para o cluster remoto de forma ingénua. O agendador decide o destino baseando-se em:
1.Comprimento do Prompt: Pedidos curtos são mantidos localmente para evitar o overhead da rede.
2.Estado do Cache: Se o prefixo já estiver em cache local, o pedido não é enviado para fora.
3.Capacidade de Rede: O sistema monitoriza a largura de banda disponível e ajusta o fluxo de KVCache para evitar congestionamentos que atrasariam o Time To First Token (TTFT).
4.2. Pool de Blocos Híbrido (Hybrid Block Pool)
Para gerir a memória eficientemente, o PrfaaS utiliza uma gestão de memória que unifica blocos de cache locais e remotos. Isto permite:
*Alocação dinâmica de blocos de cache entre diferentes GPUs.
*Suporte para partilha de prefixos (Prefix Caching) em larga escala.
5. Resultados e Análise de Desempenho
O PrfaaS foi avaliado utilizando modelos híbridos de larga escala (até 1T de parâmetros) com resultados significativos:
| Métrica | Comparação com PD Homogéneo | Comparação com PD Heterogéneo |
|---|---|---|
| Throughput (Vazão) | +54% | +32% |
| P90 TTFT (Latência) | Redução de até 64% | - |
A principal conclusão é que a poupança de tempo ao processar um prompt longo em hardware topo de gama (ex: H200) compensa largamente o tempo de transmissão do KVCache via Ethernet, resultando numa experiência de utilizador superior.
6. Conclusão e Implicações
O PrfaaS demonstra que a desagregação cross-datacenter é agora tecnicamente viável e economicamente atrativa. Esta arquitetura permite uma flexibilidade sem precedentes na gestão de recursos de IA, permitindo que os fornecedores de nuvem escalem o prefill de forma independente e distribuída geograficamente sem comprometer a latência do utilizador final.
Referências:
- Qin, R., et al. (2026). Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter. arXiv:2604.15039v1.