Glosario IA
El diccionario completo de la Inteligencia Artificial
Tokenizador
Herramienta o algoritmo específico que implementa las reglas y métodos de descomposición del texto en tokens según un esquema predeterminado. Los tokenizadores modernos incluyen preprocesamientos como la normalización Unicode y la pre-tokenización antes de la segmentación principal.
Tokenización por carácter
Enfoque de granularidad fina donde cada carácter individual se convierte en un token, eliminando así completamente el problema de las palabras fuera de vocabulario. Aunque teóricamente perfecta para la cobertura, este método aumenta considerablemente la longitud de las secuencias y reduce la eficiencia computacional.
Tokenización por palabra
Método tradicional donde cada palabra completa (delimitada por espacios o puntuación) se convierte en un token único. Este enfoque sufre de limitaciones importantes con palabras raras, errores ortográficos y vocabularios de gran tamaño, haciéndolo poco adecuado para los LLM modernos.
Tokenización por subpalabra
Estrategia intermedia que divide las palabras en fragmentos significativos basados en estadísticas de co-ocurrencia, como prefijos, sufijos o raíces. Este método representa el estado del arte en los transformers, optimizando el equilibrio entre la cobertura del vocabulario y la eficiencia computacional.
Espacio de tokenización
Dimensión matemática definida por el tamaño total del vocabulario, donde cada token se mapea a un identificador numérico único. Este espacio determina la complejidad computacional del procesamiento e influye directamente en el tamaño de los embeddings y las capas de atención en las arquitecturas transformer.
Tokenización contextual
Técnica avanzada donde la decisión de segmentación depende del contexto circundante, permitiendo tokenizaciones diferentes para la misma palabra según su uso. Este enfoque, utilizado en modelos como XLNet, mejora la representación semántica pero aumenta significativamente la complejidad computacional.
Fuera de Vocabulario (OOV)
Problema que surge cuando aparecen tokens no presentes en el vocabulario predefinido durante la inferencia, requiriendo estrategias de gestión específicas. Los enfoques modernos de tokenización por subpalabras reducen considerablemente las ocurrencias OOV, pero el tratamiento de estos casos sigue siendo crucial para la robustez.
Tokenización voraz
Estrategia de segmentación que siempre selecciona el token más largo posible que corresponde al inicio de la palabra restante a procesar. Este enfoque simple y rápido, sin embargo, a veces puede producir subóptimos en comparación con métodos globales que consideran toda la secuencia.
Tokenización probabilística
Enfoque que utiliza modelos probabilísticos para evaluar diferentes segmentaciones posibles y seleccionar la más probable según el corpus de entrenamiento. A diferencia de los métodos deterministas, puede producir tokenizaciones variables en función de las probabilidades condicionales aprendidas.