问题求解和机器博弈
问题求解与人工智能
问题求解;
决策-博弈(各主体存在利益冲突,求解其矛盾,解释和预测)
博弈论:
历史:
冯诺依曼、摩 根斯坦 约翰纳什:纳什均衡computer game
概念:基于博弈论,用人工智能方法解决博弈中的问题
里程碑:各种牌类游戏分类:
- 完备信息博弈:棋盘上子的位置都公开/非完备:扑克
- 确定性/非确定性:存在其他因素改变时间方向:麻将开局骰子
- 双人/多人
- 各种棋牌对应的计算机搜索节点规模,德州扑克E1755;围棋E160当做非完备处理
领域研究框架
人类如何进行博弈游戏
观察当前局势 有哪些合法的走步 哪个最有利 执行机器
- 人界界面-数据结构
- 走法生成器-规则解释器
- 搜索引擎-估值核心(经验技巧灵感-思考能力)(机器学习方法-博弈树搜索方法:对比)(如果需要很长时间收敛,eg3年,可能已经软硬件迭代更新了) 非完备信息处理 抽样信息空间,蒙特卡洛抽样
- 走步执行器
主流解决方案
博弈树搜索方法
机器学习方法 蒙特卡洛抽样 德州扑克AAAI-ACPC、四国军棋(顶级的复杂性)蒙特卡洛博弈树搜索方法MCTS:
人工智能:alpha-beta剪枝 历史启发算法那
动态:不先深也不先广 选择 扩展 抽样 反向传播- 感觉我毕设那个是蒙特卡洛抽样啊 概率来自于历史上布局的统计 MCTS节点扩展选择策略:UCT算法 2009法国 XI+这个节点被计算过的次数 被选到的次数越多,它的权值越大,开发-探索选择倾向, 开局阶段应该更广泛探索,进入后盘像更深的方向探索 风险模型 风险优势、收益优势 正向风险(买彩票,正向风险高所以买)负向风险(一瓶药里只有一颗毒药不吃) 对手建模方法 非完备信息的牌类 进攻型防守型的对手,固定位置步子的习惯峰值有很不同的。 强化学习方法 CFR方法通过反复迭代和训练 2015 science 二人受限(加注只能加固定值、跟牌、弃牌) 已经解决 阿尔伯塔 10^14更搞笑的存储方法, 可以应用了,原来是10^12 ACPC AAAI IJCAI 非完备信息博弈专题 2013 多人德州4 哈工大,hit-sz 人工智能目标 想出这个玩法 数值设计,每一关的摆放怎样的规律。关卡的失败率曲线,人工智能模拟用户行为,驴子前面胡萝卜vs大规模测试?10个人每个人3000盘、慢不准 腾讯、博雅 加拿大阿尔伯他大学机器博弈研究中心 jonathan schaeffer 和游戏厂商合作FIFA系列足球,RPG,cs, AIIDE暴雪的即时战略大赛 线上扑克教学网站 花钱学到了技巧再去赌博