强烈建议你试试无所不能的chatGPT，快点击我

机器人技术课堂笔记-zjj2016.11.10

阅读量：4549 次

发布时间：2019-06-08

本文共 1146 字，大约阅读时间需要 3 分钟。

问题求解和机器博弈

问题求解与人工智能

问题求解；

决策-博弈(各主体存在利益冲突，求解其矛盾，解释和预测)

博弈论：

历史：

冯诺依曼、摩根斯坦

约翰纳什：纳什均衡

computer game

概念：基于博弈论，用人工智能方法解决博弈中的问题

里程碑：各种牌类游戏

分类：

完备信息博弈：棋盘上子的位置都公开/非完备：扑克

确定性/非确定性：存在其他因素改变时间方向：麻将开局骰子

双人/多人

各种棋牌对应的计算机搜索节点规模，德州扑克E1755;围棋E160当做非完备处理

领域研究框架

人类如何进行博弈游戏

观察当前局势

有哪些合法的走步

哪个最有利

执行

机器

人界界面-数据结构

走法生成器-规则解释器

搜索引擎-估值核心（经验技巧灵感-思考能力）（机器学习方法-博弈树搜索方法:对比）（如果需要很长时间收敛，eg3年，可能已经软硬件迭代更新了）
非完备信息处理
抽样信息空间，蒙特卡洛抽样

走步执行器

主流解决方案

博弈树搜索方法

机器学习方法

蒙特卡洛抽样

德州扑克AAAI-ACPC、四国军棋（顶级的复杂性）

蒙特卡洛博弈树搜索方法MCTS：

人工智能：alpha-beta剪枝历史启发算法那

动态：不先深也不先广

选择

扩展

抽样

反向传播

感觉我毕设那个是蒙特卡洛抽样啊
概率来自于历史上布局的统计
MCTS节点扩展选择策略:UCT算法 2009法国
XI+这个节点被计算过的次数
被选到的次数越多，它的权值越大，开发-探索选择倾向，
开局阶段应该更广泛探索，进入后盘像更深的方向探索
风险模型
风险优势、收益优势
正向风险（买彩票，正向风险高所以买）负向风险（一瓶药里只有一颗毒药不吃）
对手建模方法
非完备信息的牌类
进攻型防守型的对手，固定位置步子的习惯峰值有很不同的。
强化学习方法
CFR方法通过反复迭代和训练 2015 science 二人受限（加注只能加固定值、跟牌、弃牌）已经解决阿尔伯塔 10^14更搞笑的存储方法，
可以应用了，原来是10^12
ACPC AAAI IJCAI
非完备信息博弈专题
2013 多人德州4
哈工大，hit-sz
人工智能目标
想出这个玩法
数值设计，每一关的摆放怎样的规律。关卡的失败率曲线，人工智能模拟用户行为，驴子前面胡萝卜vs大规模测试？10个人每个人3000盘、慢不准
腾讯、博雅
加拿大阿尔伯他大学机器博弈研究中心
jonathan schaeffer
和游戏厂商合作FIFA系列足球，RPG，cs，
AIIDE暴雪的即时战略大赛
线上扑克教学网站
花钱学到了技巧再去赌博

主要研究问题

核心算法

转载于:https://www.cnblogs.com/dunfentiao/p/5164065.html

你可能感兴趣的文章

SQL Server统计数据库中表个数、视图个数、存储过程个数

设计模式：观察者模式

JVM体系结构之六：堆Heap之1

TCP之二：TCP的三次握手与四次分手

es的返回数据结构

[ActionScript 3.0] as3处理xml的功能和遍历节点

linux学习(6)-redhat安装xwindow环境

6.28 加法作业

CentOS6+nginx+uwsgi+mysql+django1.6.6+python2.6.6

【bzoj2829】信用卡凸包凸包

关于拍照那些小事——五一苏行记（三）

jquery简单的表单验证充值数量

大叔手记（1）：使用Visual Studio的查找与替换替代默认的系统搜索

Android手机监控软件设计实现

算法导论<二>

oracle 应用程序调用存储函数

洛谷 P3629 [APIO2010]巡逻解题报告

深入理解JS的事件绑定、事件流模型

Fedora 23+CUDA 8.0+ GTX970 安装

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-17 07:38:47 当前IP: 3.15.6.109 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我