Tokenización - Glosario IA

📖

términos

Tokenizador

Herramienta o algoritmo específico que implementa las reglas y métodos de descomposición del texto en tokens según un esquema predeterminado. Los tokenizadores modernos incluyen preprocesamientos como la normalización Unicode y la pre-tokenización antes de la segmentación principal.

📖

términos

Tokenización por carácter

Enfoque de granularidad fina donde cada carácter individual se convierte en un token, eliminando así completamente el problema de las palabras fuera de vocabulario. Aunque teóricamente perfecta para la cobertura, este método aumenta considerablemente la longitud de las secuencias y reduce la eficiencia computacional.

📖

términos

Tokenización por palabra

Método tradicional donde cada palabra completa (delimitada por espacios o puntuación) se convierte en un token único. Este enfoque sufre de limitaciones importantes con palabras raras, errores ortográficos y vocabularios de gran tamaño, haciéndolo poco adecuado para los LLM modernos.

📖

términos

Tokenización por subpalabra

Estrategia intermedia que divide las palabras en fragmentos significativos basados en estadísticas de co-ocurrencia, como prefijos, sufijos o raíces. Este método representa el estado del arte en los transformers, optimizando el equilibrio entre la cobertura del vocabulario y la eficiencia computacional.

📖

términos

Espacio de tokenización

Dimensión matemática definida por el tamaño total del vocabulario, donde cada token se mapea a un identificador numérico único. Este espacio determina la complejidad computacional del procesamiento e influye directamente en el tamaño de los embeddings y las capas de atención en las arquitecturas transformer.

📖

términos

Tokenización contextual

Técnica avanzada donde la decisión de segmentación depende del contexto circundante, permitiendo tokenizaciones diferentes para la misma palabra según su uso. Este enfoque, utilizado en modelos como XLNet, mejora la representación semántica pero aumenta significativamente la complejidad computacional.

📖

términos

Fuera de Vocabulario (OOV)

Problema que surge cuando aparecen tokens no presentes en el vocabulario predefinido durante la inferencia, requiriendo estrategias de gestión específicas. Los enfoques modernos de tokenización por subpalabras reducen considerablemente las ocurrencias OOV, pero el tratamiento de estos casos sigue siendo crucial para la robustez.

📖

términos

Tokenización voraz

Estrategia de segmentación que siempre selecciona el token más largo posible que corresponde al inicio de la palabra restante a procesar. Este enfoque simple y rápido, sin embargo, a veces puede producir subóptimos en comparación con métodos globales que consideran toda la secuencia.

📖

términos

Tokenización probabilística

Enfoque que utiliza modelos probabilísticos para evaluar diferentes segmentaciones posibles y seleccionar la más probable según el corpus de entrenamiento. A diferencia de los métodos deterministas, puede producir tokenizaciones variables en función de las probabilidades condicionales aprendidas.

Glosario IA

Tokenizador

Tokenización por carácter

Tokenización por palabra

Tokenización por subpalabra

Espacio de tokenización

Tokenización contextual

Fuera de Vocabulario (OOV)

Tokenización voraz

Tokenización probabilística

No se encontraron resultados