Arquitectura BERT - Glosario IA

📖

términos

Modelado de Lenguaje Enmascarado (MLM)

Objetivo de preentrenamiento donde el 15% de los tokens se enmascaran aleatoriamente y el modelo debe predecirlos usando el contexto bidireccional. Esta técnica permite a BERT aprender representaciones contextuales profundas forzando al modelo a comprender las relaciones semánticas entre las palabras.

📖

términos

Predicción de la Siguiente Oración (NSP)

Tarea de preentrenamiento binaria donde el modelo predice si dos oraciones dadas son consecutivas en el texto original. Aunque controvertida, este objetivo ayuda a BERT a comprender las relaciones inter-oraciones para tareas como QA y NLI.

📖

términos

Tokenización WordPiece

Algoritmo de segmentación que divide las palabras en subunidades morfológicas para manejar vocabulario desconocido y optimizar la representación. Este enfoque permite a BERT procesar eficientemente palabras raras y neologismos descomponiéndolas en tokens conocidos.

📖

términos

Mecanismo de Autoatención

Mecanismo fundamental donde cada token calcula pesos de atención con respecto a todos los demás tokens de la secuencia. Esta operación permite a BERT capturar dependencias a larga distancia y crear representaciones contextuales ricas.

📖

términos

Incrustaciones de Segmento

Incrustaciones especializadas que distinguen diferentes segmentos en la entrada, típicamente usadas para separar las oraciones A y B en tareas de pares de oraciones. Estas incrustaciones permiten al modelo diferenciar el contexto de cada segmento.

📖

términos

Bloque Codificador Transformer

Unidad computacional fundamental de BERT compuesta de atención multi-cabeza seguida de una red feed-forward con conexiones residuales y normalización. Cada bloque procesa la secuencia entera simultáneamente, preservando las relaciones globales.

📖

términos

Capa de Pooling

Capa final que agrega las representaciones de tokens en un vector único para tareas de clasificación. BERT típicamente usa la representación del token [CLS] o realiza un pooling promedio sobre todos los tokens.

📖

términos

Estados Ocultos

Representaciones vectoriales de alta dimensión producidas en cada capa del Transformer para cada token de la secuencia. Estos estados ocultos capturan progresivamente características semánticas cada vez más abstractas.

📖

términos

Pre-entrenamiento

Fase de entrenamiento no supervizado en amplios corpus donde BERT aprende representaciones lingüísticas generales a través de MLM y NSP. Esta etapa establece las bases de conocimiento del modelo antes del ajuste fino específico para tareas.

📖

términos

Arquitectura Solo Encoder

Estructura de BERT que utiliza únicamente los bloques codificadores del Transformer, a diferencia de los modelos codificador-decodificador. Esta arquitectura está optimizada para tareas de comprensión y clasificación de texto.

📖

términos

[CLS] Token

Token especial agregado al principio de cada secuencia de entrada cuya representación final se utiliza para tareas de clasificación. Este token agrega la información contextual de toda la secuencia para tomar decisiones de nivel global.

Glosario IA

Modelado de Lenguaje Enmascarado (MLM)

Predicción de la Siguiente Oración (NSP)

Tokenización WordPiece

Mecanismo de Autoatención

Incrustaciones de Segmento

Bloque Codificador Transformer

Capa de Pooling

Estados Ocultos

Pre-entrenamiento

Arquitectura Solo Encoder

[CLS] Token

No se encontraron resultados