MARL Parcialmente Observable

📖

términos

POMDP (Proceso de Decisión de Markov Parcialmente Observable)

Marco teórico que modela entornos donde el agente solo percibe una observación parcial del estado real, requiriendo inferencia probabilística sobre el estado oculto para tomar decisiones óptimas.

📖

términos

Espacio de Observación

Conjunto de señales sensoriales parciales que cada agente puede percibir del entorno, representando información incompleta del estado global del sistema.

📖

términos

Distribución de probabilidad sobre el espacio de estados ocultos que un agente mantiene y actualiza a partir de sus observaciones sucesivas para representar su incertidumbre sobre el estado real del entorno.

📖

términos

Protocolo de Comunicación

Mecanismo que define cuándo, cómo y qué información los agentes pueden intercambiar entre sí para coordinar sus acciones en un entorno parcialmente observable.

📖

términos

Entrenamiento Centralizado con Ejecución Descentralizada

Enfoque donde los agentes se entrenan utilizando información global (estados, acciones de todos) pero ejecutan sus políticas individualmente usando solo sus observaciones locales.

📖

términos

Factorización de la Función de Valor

Técnica que descompone la función de valor global en suma de funciones de valor individuales o locales, permitiendo el aprendizaje descentralizado mientras preserva la coherencia global.

📖

términos

Modelado de Adversarios

Proceso de inferencia de las políticas o intenciones de otros agentes basado en sus comportamientos observados, crucial para la toma de decisiones en entornos competitivos o cooperativos.

📖

términos

Problema de Asignación de Crédito

Dificultad para atribuir correctamente la recompensa global a cada agente en un sistema multiagente, particularmente compleja cuando las observaciones son parciales y las acciones interdependientes.

📖

términos

Aprendizaje de Acción Conjunta

Método donde los agentes aprenden a coordinar sus acciones modelando explícitamente el impacto de las acciones combinadas en la recompensa global, a pesar de la observabilidad parcial.

📖

términos

Estimación de Estado

Proceso algorítmico que permite a un agente inferir el estado global más probable a partir de sus observaciones locales y su modelo del entorno.

📖

términos

Compartición de Información

Estrategia que define cómo los agentes distribuyen y agregan sus observaciones locales para mejorar el conocimiento colectivo del estado del entorno.

📖

términos

Historial de Observación Local

Secuencia temporal de las observaciones pasadas de un agente, utilizada como contexto adicional para compensar la falta de información sobre el estado global actual.

📖

términos

Observabilidad Parcial Multiagente

Condición donde ningún agente individual puede observar el estado completo del sistema, requiriendo estrategias de coordinación e inferencia para alcanzar rendimientos óptimos.

📖

términos

Política Descentralizada

Función de decisión para cada agente que mapea su historial de observaciones locales a una acción, sin dependencia directa de la información de otros agentes durante la ejecución.

📖

términos

Conocimiento Común

Información que todos los agentes conocen y saben que los demás también conocen, esencial para la coordinación en entornos parcialmente observables.

📖

términos

Grafo de Coordinación

Estructura que representa las dependencias de interacción entre agentes, permitiendo factorizar el problema de decisión global en subproblemas locales más fáciles de resolver.

Glosario IA

POMDP (Proceso de Decisión de Markov Parcialmente Observable)

Espacio de Observación

Estado de Creencia

Protocolo de Comunicación

Entrenamiento Centralizado con Ejecución Descentralizada

Factorización de la Función de Valor

Modelado de Adversarios

Problema de Asignación de Crédito

Aprendizaje de Acción Conjunta

Estimación de Estado

Compartición de Información

Historial de Observación Local

Observabilidad Parcial Multiagente

Política Descentralizada

Conocimiento Común

Grafo de Coordinación

No se encontraron resultados