Оптимизация трансформеров
Шардирование состояний оптимизатора
Метод распределения памяти, разделяющий состояния оптимизатора на несколько GPU для значительного сокращения использования памяти во время обучения.
← Назад