Deep TAMER：用于训练机器人的深度学习新算法，TAMER的扩展

2019-05-2720:59:15人工智能与大数据Comments3,369 views字数 1103阅读模式

美国陆军研究实验室和德克萨斯大学奥斯汀分校的研究人员开发了机器人或计算机程序的新技术，以学习如何通过与人类教练互动来完成任务。研究结果将于2月2日至7日在路易斯安那州新奥尔良举行的人工智能促进会议上公布并发表。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/13012.html

ARL和UT的研究人员考虑了一个特定的案例，即人类以批评的形式提供实时反馈。德克萨斯大学奥斯汀分校的教授彼得斯通博士与他的前博士生布拉德诺克斯，作为TAMER，或通过评估强化手动培训代理人，首先介绍了ARL / UT团队开发了一种新算法叫做Deep TAMER。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/13012.html

文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/13012.html

它是TAMER的扩展，它使用深度学习 - 一种机器学习算法，它受到大脑的松散启发，使机器人能够通过在短时间内与人类一起观看视频流来学习如何执行任务教练。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/13012.html

根据陆军研究员Garrett Warnell博士的说法，该团队考虑了一种情况，即人类教导代理人如何通过观察代理并提供批评，例如“好工作”或“糟糕的工作” - 类似于一个人培训的方式一只狗做伎俩。Warnell表示，研究人员扩展了该领域的早期工作，以便对目前通过图像看世界的机器人或计算机程序进行此类培训，这是设计可在现实世界中运行的学习代理的重要的第一步。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/13012.html

人工智能中的许多当前技术要求机器人与其环境交互很长一段时间以学习如何最佳地执行任务。在此过程中，代理可能执行的操作不仅可能是错误的，例如机器人在墙上跑，而是像在悬崖边跑的机器人那样灾难性的。Warnell表示，人类的帮助将加快代理人的速度，并帮助他们避免潜在的陷阱。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/13012.html

作为第一步，研究人员展示了Deep TAMER的成功，通过使用15分钟的人工提供的反馈来培训代理人在Atari保龄球比赛中比人类表现更好 - 这一任务已被证明对于甚至状态很难人工智能的最先进方法。深受TAMER训练的特工表现出超人的表现，他们的业余训练师以及平均而言，是一名专业的人类Atari球员。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/13012.html

在接下来的一到两年内，研究人员有兴趣探索其最新技术在更广泛的环境中的适用性：例如，除Atari Bowling之外的视频游戏和其他模拟环境，以更好地代表在何时发现的代理和环境类型在现实世界中使用机器人。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/13012.html

他们的工作将在AAAI 2018会议论文集中发表。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/13012.html

“未来的军队将由士兵和自主队友并肩工作，”瓦内尔说。“虽然人类和自治人员都可以提前接受培训，但团队将不可避免地被要求在他们以前从未见过的新环境中执行任务，例如搜索和救援或监视。在这种情况下，人类非常擅长推广他们的培训，但目前的人工智能代理不是。“文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/13012.html

Deep TAMER是研究人员设想的一系列研究的第一步，它将使陆军中更成功的人类自治团队成为可能。最终，他们希望自主代理能够以各种风格快速安全地向人类队友学习，例如演示，自然语言教学和批评。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/13012.html

Deep TAMER：用于训练机器人的深度学习新算法，TAMER的扩展

ControlNet再升级！字节提出ControlNet ++！

Suno AI创作音乐的专业级保姆教程

英伟达黄仁勋：为什么还要用Python？命令行都不需要！GPU开发时代将至!

「现实版贾维斯」RPA+AI技术如何革新你的工作？

5个AIGC导航网站，建议收藏！

GPT-4.5 Turbo疑似提前曝光，OpenAI要发布了？

Claude 官方提示词模板之中文版（含API Prompt）

Claude 3是什么鬼东西？能超越GPT4

AI无监督学习“聚类算法”详解，理论实现到案例说明

字节扣子Coze深度教学：免费使用 GPT-4 Turbo，GPTs，DALLE 3，支持多agent协同

Comment