Otimização de Transformer
Particionamento do Estado do Otimizador
Método de distribuição de memória que particiona os estados do otimizador em várias GPUs para reduzir significativamente a pegada de memória durante o treinamento.
← Voltar