在今天的文章中,我们使用来自Stuart Russell和Peter Norvig的《Artificial Intelligence: A Modern Approach》一书中的网格例子来介绍MDP的基本概念。
现实世界中的诸多场景,从古代的田忌赛马到现代的核威慑、越南战争及俄乌冲突,都可以认为是典型的博弈场景。在冯·诺伊曼和奥斯卡·摩根斯特恩的《博弈论与经济行为》奠定其理论研究基础之后,博弈论作为一个重要的分析工具,在众多学科和领域中都得到了广泛的应用。
本文的公式基于Stuart J. Russell和Peter Norvig的教科书《Artificial Intelligence: A Modern Approach》,为了保持数学方程格式的一致性所以略有改动,。
在视频游戏领域,深度强化学习可以用于让智能体在复杂的游戏环境中达到或超越人类水平,如在Atari 2600游戏中使用深度Q网络,在围棋游戏中使用AlphaGo和AlphaGo Zero,在StarCraft II游戏中使用AlphaStar,在Dota 2游戏中使用OpenAI Five等。
自 1986 年开始,日本丰田公司推出了 P 系列 1-3 型机器人,在 1997 年推出 了“P3”和 2000 年推出了“ASIMO”,“ASIMO”除了优化步行方式外,还增加了 对手部的操作和控制。
(本文阅读时间:16分钟)编者按:2020年,微软亚洲研究院开源了金融 AI 通用技术平台 Qlib。Qlib 以金融 AI 研究者和金融行业 IT 从业者为用户,针对金融场景研发了一个适应人工智能算法的高性能基础设施和数据、模型管理平台。
阅读文章前辛苦您点下“关注”,方便讨论和分享,为了回馈您的支持,我将每日更新优质内容。文 | 南柯归洵编辑 | 南柯归洵前言智能制造是新科学革命的核心,它可以通过使用信息技术来实现生产力的快速发展,来解决能源消耗等社会问题。