Aprendizagem Q Implícita (IQL)

📖

termos

Operador Max Implícito

Técnica matemática em IQL que evita o cálculo direto do máximo sobre as ações, utilizando limites superiores conservadores baseados na distribuição de comportamento.

📖

termos

Distribuição de Comportamento

Distribuição de probabilidade das ações no conjunto de dados offline que representa a política que gerou os dados de treinamento utilizados pelo IQL.

📖

termos

Função de Perda Conservadora

Objetivo matemático em IQL que penaliza as superestimativas dos valores Q fora da distribuição de comportamento para garantir a estabilidade da aprendizagem.

📖

termos

Estimativa de Q-Alvo Implícita

Mecanismo IQL que calcula os valores alvo sem maximização explícita, utilizando expectativas condicionais baseadas na distribuição de comportamento.

📖

termos

Desacoplamento Valor-Política

Princípio fundamental do IQL que separa a aprendizagem da função de valor da extração da política para evitar vieses de otimização no contexto offline.

📖

termos

Período de Treinamento Offline

Fase de aprendizagem onde o IQL utiliza apenas um conjunto fixo de dados sem interação com o ambiente, garantindo segurança e eficiência computacional.

📖

termos

Amostragem de Importância Ponderada

Técnica utilizada em IQL para corrigir o desvio entre a distribuição de comportamento e a política alvo, ponderando as amostras de acordo com sua relevância.

📖

termos

Otimização com Restrição de Lote

Estratégia em IQL que restringe as ações aprendidas a permanecerem próximas às observadas no conjunto de dados para evitar extrapolações não confiáveis.

📖

termos

Viés de Distribuição Offline

Um desafio importante no IQL onde dados limitados e enviesados podem levar a estimativas incorretas se não forem geridos adequadamente por mecanismos conservadores.

📖

termos

Função de Vantagem Implícita

Uma extensão do IQL que estima as vantagens relativas das ações sem maximização explícita, permitindo uma seleção de ações mais robusta em contextos offline.

📖

termos

Regularização de Comportamento

Um mecanismo no IQL que penaliza desvios significativos da distribuição de comportamento para manter a estabilidade e evitar ações arriscadas.

📖

termos

Critério de Terminação Implícita

Um método no IQL para determinar a convergência da aprendizagem com base na estabilidade das estimativas Q, em vez de métricas de desempenho explícitas.

📖

termos

Experiência de Demonstração

Um conjunto de dados pré-coletados usados pelo IQL como única fonte de aprendizagem, tipicamente provenientes de especialistas ou políticas existentes.

Glossário IA

Operador Max Implícito

Distribuição de Comportamento

Função de Perda Conservadora

Estimativa de Q-Alvo Implícita

Desacoplamento Valor-Política

Período de Treinamento Offline

Amostragem de Importância Ponderada

Otimização com Restrição de Lote

Viés de Distribuição Offline

Função de Vantagem Implícita

Regularização de Comportamento

Critério de Terminação Implícita

Experiência de Demonstração

Nenhum resultado encontrado