GPT (Generative Pre-trained Transformer)
KV Cache
Otimização na inferência que armazena em cache as chaves (keys) e valores (values) dos tokens anteriores para evitar recalcular os estados de atenção a cada nova geração de token.
← Voltar