Glossário IA
O dicionário completo da Inteligência Artificial
Operador Max Implícito
Técnica matemática em IQL que evita o cálculo direto do máximo sobre as ações, utilizando limites superiores conservadores baseados na distribuição de comportamento.
Distribuição de Comportamento
Distribuição de probabilidade das ações no conjunto de dados offline que representa a política que gerou os dados de treinamento utilizados pelo IQL.
Função de Perda Conservadora
Objetivo matemático em IQL que penaliza as superestimativas dos valores Q fora da distribuição de comportamento para garantir a estabilidade da aprendizagem.
Estimativa de Q-Alvo Implícita
Mecanismo IQL que calcula os valores alvo sem maximização explícita, utilizando expectativas condicionais baseadas na distribuição de comportamento.
Desacoplamento Valor-Política
Princípio fundamental do IQL que separa a aprendizagem da função de valor da extração da política para evitar vieses de otimização no contexto offline.
Período de Treinamento Offline
Fase de aprendizagem onde o IQL utiliza apenas um conjunto fixo de dados sem interação com o ambiente, garantindo segurança e eficiência computacional.
Amostragem de Importância Ponderada
Técnica utilizada em IQL para corrigir o desvio entre a distribuição de comportamento e a política alvo, ponderando as amostras de acordo com sua relevância.
Otimização com Restrição de Lote
Estratégia em IQL que restringe as ações aprendidas a permanecerem próximas às observadas no conjunto de dados para evitar extrapolações não confiáveis.
Viés de Distribuição Offline
Um desafio importante no IQL onde dados limitados e enviesados podem levar a estimativas incorretas se não forem geridos adequadamente por mecanismos conservadores.
Função de Vantagem Implícita
Uma extensão do IQL que estima as vantagens relativas das ações sem maximização explícita, permitindo uma seleção de ações mais robusta em contextos offline.
Regularização de Comportamento
Um mecanismo no IQL que penaliza desvios significativos da distribuição de comportamento para manter a estabilidade e evitar ações arriscadas.
Critério de Terminação Implícita
Um método no IQL para determinar a convergência da aprendizagem com base na estabilidade das estimativas Q, em vez de métricas de desempenho explícitas.
Experiência de Demonstração
Um conjunto de dados pré-coletados usados pelo IQL como única fonte de aprendizagem, tipicamente provenientes de especialistas ou políticas existentes.