AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
子類別
经典多臂赌博机
智能体在多个选项中进行选择以最大化累积奖励的基础问题。
10 術語
子類別
Epsilon-贪婪算法
一种以 1-ε 的概率利用已知最佳动作,并以 ε 的概率随机探索的策略。
10 術語
子類別
UCB算法
基于置信上限的方法,通过统计区间平衡探索与利用。
13 術語
子類別
汤普森采样
根据参数的后验分布对参数进行采样以做出决策的贝叶斯方法。
0 術語
子類別
上下文强盗
一种扩展,其决策取决于每一轮观察到的上下文特征。
10 術語
子類別
线性强盗
期望奖励是上下文特征的线性函数的模型。
12 術語
子類別
非平稳强盗
奖励分布随时间变化,需要持续适应的框架。
13 術語
子類別
组合强盗
代理在结构约束下同时选择动作集的问题
10 術語
子類別
对抗性强盗
对手选择奖励以最小化智能体收益的场景。
10 術語
子類別
级联强盗
项目依次呈现,直到用户点击其中一项的模型。
14 術語
子類別
有限反馈多臂老虎机
每次行动后仅能观察到部分奖励信息的情况。
14 術語
子類別
在线广告多臂老虎机
用于实时优化广告活动的专用应用程序。
8 術語
子類別
用于 A/B 测试的强盗算法
用于网页体验优化的传统 A/B 测试的智能替代方案
5 術語
子類別
用于推荐的强盗算法
学习用户偏好以个性化推荐的系统。
7 術語
子類別
分层强盗
多层结构,其中决策按层次组织以解决复杂问题。
10 術語
🔍