GPT
Decoder-only Architecture
Estructura de modelo Transformer que utiliza únicamente capas de decodificación, optimizada para la generación de texto autoregresivo. A diferencia de los codificadores-decodificadores, esta arquitectura enmascara los tokens futuros durante el entrenamiento para preservar la naturaleza causal.
← Volver