Glosario IA
El diccionario completo de la Inteligencia Artificial
Destilación de Modelo
Método de compresión donde un modelo grande y complejo (el maestro) entrena a un modelo más pequeño y rápido (el estudiante) para reproducir sus salidas, incluyendo las probabilidades suaves, para transferir su conocimiento y alcanzar un rendimiento cercano con una complejidad reducida.
Optimización de Hiperparámetros
Proceso sistemático de búsqueda de la mejor combinación de hiperparámetros (ej: tasa de aprendizaje, tamaño de lote) para un modelo, a menudo mediante métodos como la búsqueda en cuadrícula, la búsqueda aleatoria o la optimización bayesiana, para maximizar su rendimiento en un conjunto de datos dado.
Ajuste Fino (Fine-Tuning)
Técnica de adaptación de un modelo preentrenado en grandes datos a una tarea específica continuando el entrenamiento en un conjunto de datos más pequeño y específico, permitiendo obtener un alto rendimiento con menos datos y tiempo de cómputo.
Optimización de Inferencias
Conjunto de técnicas destinadas a reducir la latencia y el coste computacional de la fase de predicción de un modelo en producción, incluyendo la cuantificación, la compilación para aceleradores de hardware específicos (TPU, GPU) y la optimización del grafo de cómputo.
Compilación de Modelo
Proceso de transformación del grafo de cómputo de un modelo, proveniente de un framework como TensorFlow o PyTorch, en un formato ejecutable altamente optimizado para un hardware objetivo específico (CPU, GPU, TPU), aplicando fusiones de operaciones y otras optimizaciones de bajo nivel.
Fusión de Operaciones (Operator Fusion)
Técnica de compilación que combina varias operaciones elementales del grafo de cómputo (ej: una convolución seguida de una adición de sesgo y una activación) en una sola operación kernel, reduciendo así la sobrecarga de memoria y los accesos a memoria para acelerar la ejecución.
ONNX (Open Neural Network Exchange)
Formato de representación de modelo abierto y estandarizado que permite la interoperabilidad entre diferentes frameworks de IA (PyTorch, TensorFlow, etc.) y los runtimes de inferencia, facilitando así el despliegue y la optimización en diversas plataformas de hardware.
Entrenamiento Disperso (Sparse Training)
Paradigma de entrenamiento donde solo una fracción de los pesos del modelo se actualiza en cada iteración, lo que permite mantener una estructura dispersa mientras se aprende, reduciendo así los requisitos de cómputo y memoria desde la fase de entrenamiento.
Búsqueda de Arquitectura (NAS)
Proceso de automatización del diseño de arquitecturas de modelos óptimas para una tarea determinada, utilizando algoritmos de búsqueda (ej: optimización por refuerzo, algoritmos evolutivos) para explorar el espacio de arquitecturas posibles y encontrar un compromiso rendimiento-complejidad.
Perfilado de Modelo
Análisis detallado del rendimiento de un modelo durante el entrenamiento o la inferencia, midiendo el tiempo de ejecución, el uso de memoria y los cuellos de botella a nivel de cada operación, para identificar los objetivos prioritarios para la optimización.
Plegado de Normalización por Lotes
Optimización aplicada después del entrenamiento que integra los parámetros de la capa de normalización por lotes (media y varianza) en los pesos y sesgos de la capa convolucional o lineal anterior, eliminando así la necesidad de calcular la normalización en la inferencia y reduciendo la latencia.
Grafos de Computación Dinámicos
Enfoque donde el grafo de computación se construye al vuelo en cada ejecución, permitiendo estructuras de modelos condicionales (ej: early exit, redes recursivas) que pueden adaptarse según la entrada para ahorrar recursos computacionales en ejemplos 'fáciles'.