Glosario IA
El diccionario completo de la Inteligencia Artificial
Modelado de Lenguaje Enmascarado (MLM)
Objetivo de preentrenamiento donde el 15% de los tokens se enmascaran aleatoriamente y el modelo debe predecirlos usando el contexto bidireccional. Esta técnica permite a BERT aprender representaciones contextuales profundas forzando al modelo a comprender las relaciones semánticas entre las palabras.
Predicción de la Siguiente Oración (NSP)
Tarea de preentrenamiento binaria donde el modelo predice si dos oraciones dadas son consecutivas en el texto original. Aunque controvertida, este objetivo ayuda a BERT a comprender las relaciones inter-oraciones para tareas como QA y NLI.
Tokenización WordPiece
Algoritmo de segmentación que divide las palabras en subunidades morfológicas para manejar vocabulario desconocido y optimizar la representación. Este enfoque permite a BERT procesar eficientemente palabras raras y neologismos descomponiéndolas en tokens conocidos.
Mecanismo de Autoatención
Mecanismo fundamental donde cada token calcula pesos de atención con respecto a todos los demás tokens de la secuencia. Esta operación permite a BERT capturar dependencias a larga distancia y crear representaciones contextuales ricas.
Incrustaciones de Segmento
Incrustaciones especializadas que distinguen diferentes segmentos en la entrada, típicamente usadas para separar las oraciones A y B en tareas de pares de oraciones. Estas incrustaciones permiten al modelo diferenciar el contexto de cada segmento.
Bloque Codificador Transformer
Unidad computacional fundamental de BERT compuesta de atención multi-cabeza seguida de una red feed-forward con conexiones residuales y normalización. Cada bloque procesa la secuencia entera simultáneamente, preservando las relaciones globales.
Capa de Pooling
Capa final que agrega las representaciones de tokens en un vector único para tareas de clasificación. BERT típicamente usa la representación del token [CLS] o realiza un pooling promedio sobre todos los tokens.
Estados Ocultos
Representaciones vectoriales de alta dimensión producidas en cada capa del Transformer para cada token de la secuencia. Estos estados ocultos capturan progresivamente características semánticas cada vez más abstractas.
Pre-entrenamiento
Fase de entrenamiento no supervizado en amplios corpus donde BERT aprende representaciones lingüísticas generales a través de MLM y NSP. Esta etapa establece las bases de conocimiento del modelo antes del ajuste fino específico para tareas.
Arquitectura Solo Encoder
Estructura de BERT que utiliza únicamente los bloques codificadores del Transformer, a diferencia de los modelos codificador-decodificador. Esta arquitectura está optimizada para tareas de comprensión y clasificación de texto.
[CLS] Token
Token especial agregado al principio de cada secuencia de entrada cuya representación final se utiliza para tareas de clasificación. Este token agrega la información contextual de toda la secuencia para tomar decisiones de nivel global.