Ignorando o BPE: Tokenização Contínua via Convoluções Causais Aceleradas por Triton
Introdução
A tokenização discreta de subpalavras é uma fonte fundamental de ruído e sobrecarga de parâmetros em modelos de linguagem modernos. O Byte Pair Encoding (BPE) cria representações fragmentadas que degradam as relações semânticas entre palavras morfologicamente relacionadas e introduzem vulnerabilidade a pequenas variações ortográficas.
Este artigo detalha a arquitetura