机器之心报道
机器之心编辑部
人类每天使用数字设备的时间长达数十亿小时。如果我们能够开发出协助完成一部分这些任务的智能体,就有可能进入智能体辅助的良性循环,然后根据人类对故障的反馈,改进智能体并使其获得新的能力。DeepMind 在这一领域有了新的研究成果。

如果机器可以像人类一样使用计算机,则可以帮助我们完成日常任务。在这种情况下,我们也有可能利用大规模专家演示和人类对交互行为的判断,它们是推动人工智能最近取得成功的两个因素。

最近关于 3D 模仿世界中自然语言、代码生成和多模态交互行为的工作(2021 年 DeepMind 交互智能体团队)已经产生了具备卓越表达能力、上下文感知和丰富常识的模型。这项研究有力地证明了以下两种组件的力量:机器与人类之间一致的丰富、组合输出空间;为机器行为提供信息的大量人类数据和判断。

具备这两种组件但受到较少关注的一个领域是数字设备控制(digital device control),它包括使用数字设备来完成大量有用任务。由于几乎完全使用数字信息,该领域在数据采集和控制并行化方面具有很好的扩展性(与机器人或聚变反应堆相比)。该领域还将多样化、多模态输入与富有表达能力、可组合且兼容人类的可供性相结合。

近日,在 DeepMind 的新论文《A Data-driven Approach for Learning to Control Computers》,研究者重点探究了训练智能体像人一样进行键盘和鼠标的基本计算机控制。


论文地址:https://arxiv.org/pdf/2202.08137.pdf

DeepMind 对计算机控制进行初步调查采用的基准是 MiniWob++ 任务套件(一组具有挑战性的计算机控制问题),它包含一组执行点击、打字、填写表格和其他此类基本计算机交互任务的指令(下图 1 b)。MiniWob++ 进一步提供了以编程方式定义的奖励。这些任务是迈向更开放人机交互的第一步,其中人类使用自然语言指定任务并提供有关性能的后续判断。

研究者重点训练智能体来解决这些任务,使用的方法在原则上适用于任何在数字设备上执行的任务,并且具备符合预期的数据和计算扩展特性。因此,他们直接结合强化学习(RL)和行为克隆(BC)两种技术,其中行为克隆通过人类与智能体行动空间之间的对齐来辅助完成(也就是键盘和鼠标)。

具体地,研究者探究使用键盘和鼠标进行计算机控制,并通过自然语言指定对象。并且,他们没有专注于手工设计的课程和专门的行动空间,而是开发了一种基于强化学习的可扩展方法,并结合利用实际人机交互提供的行为先验。

这是 MiniWob(2016 年由 OpenAI 提出的一种与网站交互的强化学习智能体的基准,MiniWob++ 是它的扩展版本)构想中提出的一种组合,但当时并未发现可以生成高性能智能体。因此,之后的工作试图通过让智能体访问特定 DOM 的操作来提升性能,并通过受限的探索技术使用精心策划的指导来减少每个步骤中可用的行动数量。通过重新审视模仿与强化学习的简单可扩展组合,研究者发现实现高性能主要的缺失因素仅是用于行为克隆的人类轨迹数据集的大小。随着人类数据的增加,性能会可靠地提升,使用的数据集大小是以往研究中的 400 倍。

研究者在 MiniWob++ 基准测试中的所有任务上都实现了 SOTA 和人类平均水平,并找到了跨任务迁移的强有力证据。这些结果证明了训练机器使用计算机过程中统一的人机界面非常有用。总之,研究者结果展示了一种超越 MiniWob++ 基准测试能力以及像人类一样控制计算机的方案。

对于 DeepMind 的这一研究,网友大都惊呼「不可思议」。


方法

MiniWob++

MiniWob++ 是 Liu 等人在 2018 年提出的基于 web 浏览器的套件,是早期 MiniWob(Mini World of Bits)任务套件的扩展,而 MiniWoB 是一个用于与网站交互的强化学习基准,其可以感知小网页(210x160 像素)的原始像素和产生键盘和鼠标动作。MiniWob++ 任务范围从简单的按钮点击到复杂的表单填写,例如,在给出特定指令时预订航班(图 1a)。

之前关于 MiniWob++ 的研究已经考虑了能够访问 DOM 特定动作的架构,从而允许智能体直接与 DOM 元素交互而无需鼠标或键盘导航到它。DeepMind 的研究者选择仅使用基于鼠标和键盘的操作,并进一步假设该接口将更好地迁移到计算机控制任务,而无需与紧凑的 DOM 进行交互。最后,MiniWob++ 任务需要单击或拖动操作,而这些操作无法通过基于 DOM 元素的操作来实现(参见图 1b 中的示例)。

与之前的 MiniWob++ 研究一样,DeepMind 的智能体可以访问由环境提供的文本字符串字典,该字典被输入到给定任务的输入字段中(参见附录图 9 示例)。 

下图为运行 MiniWob++ 的计算机控制环境。人类和智能体都使用键盘和鼠标控制计算机,人类提供用于行为克隆的示范行为,智能体受过训练以模仿这种行为或表现出追求奖励的行为。人类和智能体尝试解决 MiniWob++ 任务套件,其中包括需要单击、键入、拖动、填写表格等。


环境接口

如果想要智能体像人类一样使用计算机,它们需要接口来传输和接收观察结果和动作。最初的 MiniWob++ 任务套件提供了一个基于 Selenium 的接口。DeepMind 决定实现一个可替代环境堆栈,旨在支持智能体可以在 web 浏览器中实现各种任务。该接口从安全性、特性和性能方面进行了优化 (图 1a)。

原来的 MiniWob++ 环境实现通过 Selenium 访问内部浏览器状态并发出控制命令。相反,DeepMind 的智能体直接与 Chrome DevTools 协议 (CDP) 交互,以检索浏览器内部信息。

智能体架构

DeepMind 发现没有必要基于专门的 DOM 处理架构,相反,受最近关于多模态架构的影响,DeepMind 应用了最小模态特定处理,其主要依靠多模态 transformer 来灵活处理相关信息,如图 2 所述。


感知。智能体接收视觉输入(165x220 RGB 像素)和语言输入(示例输入显示在附录图 9 中)。像素输入通过一系列四个 ResNet 块,具有 3×3 内核,strides 为 2、2、2、2,以及输出通道(32、128、256、512)。这产生了 14×11 的特征向量,DeepMind 将其展平为 154 个 token 列表。

三种类型的语言输入任务指令、DOM 和任务字段使用同一个模块处理:每个文本字符串被分成 token,每个 token 映射被到大小为 64 的嵌入。

策略:智能体策略由 4 个输出组成:动作类型、光标坐标、键盘键索引和任务字段索引。每个输出都由单个离散概率分布建模,除光标坐标外,光标坐标由两个离散分布建模。

动作类型是从一组 10 种可能的动作中选择的,其中包括一个无操作(表示无动作)、7 个鼠标动作(移动、单击、双击、按下、释放、上滚轮、下滚轮)和两个键盘动作(按键、发出文本)。

DeepMind 从 77 名人类参与者那里收集了超过 240 万个 104 MiniWob++ 任务演示,总计大约 6300 小时,并使用模仿学习和强化学习 (RL) 的简单混合来训练智能体。

实验结果

MiniWob++ 上的人类水平性能

由于大部分研究通常只解决了 MiniWob++ 任务的一个子集,因此该研究在每个单独的任务上采用已公开的最佳性能,然后将这些子任务的聚合性能与该研究提出的智能体进行比较。如下图 3 所示,该智能体大大超过了 SOTA 基准性能。


此外, 该智能体在 MiniWob++ 任务组件中实现了人类水平的平均性能。这种性能是通过结合 BC 和 RL 联合训练来实现的。


研究者发现,虽然该智能体的平均性能与人类相当,但有些任务人类的表现明显优于该智能体,如下图 4 所示。 


任务迁移

研究者发现,与在每个任务上单独训练的智能体相比,在 MiniWob++ 的全部 104 个任务上训练一个智能体可以显著提升性能,如下图 5 所示。


扩展

如下图 7 所示,人类轨迹数据集(human trajectory dataset)的大小是影响智能体性能的关键因素。使用 1/1000 的数据集,大约相当于 6 小时的数据,会导致快速过拟合,并且与仅使用 RL 的性能相比没有显著提升。随着该研究将此基线的数据量增加到三个数量级直至完整数据集大小,智能体的性能得到了持续的提升。


此外,研究者还注意到,随着算法或架构的变化,在数据集大小上的性能可能会更高。

消融实验

该智能体使用像素和 DOM 信息,并且可以配置为支持一系列不同的操作。该研究进行了消融实验以了解各种架构选择的重要性。

该研究首先消融不同的智能体输入(图 8a)。当前的智能体配置强烈依赖 DOM 信息,如果删除此输入,性能会下降 75%。相反,视觉信息的输入对该智能体的影响不太显著。


如图 8b 所示,该研究移除了智能体使用环境给定的文本输入选项(任务字段)的能力。有趣的是,移除之后的智能体仍然能够解决涉及表单填写的任务,但它是通过 highlight 文本,并将其拖动到相关的文本框,以从人类轨迹中学会完成这个任务。值得注意的是,在原始 Selenium 版本的环境中智能体实现这种拖动操作并不简单。

图 8b 还展示了一个消融实验结果,其中智能体使用与特定 DOM 元素交互的替代动作。这意味着智能体无法解决涉及单击画布内特定位置、拖动或 highlight 文本的任务。

WAIC 2022上海人工智能开发者大会嘉年华——Amazon DeepRacer冠军争夺赛


WAIC 2022上海人工智能开发者大会将于2月26日在上海临港举办。活动当天将有四场以 「智能时代的 AI 生活」为主题嘉年华,其中Amazon DeepRacer冠军争夺赛将在当天下午开赛。
AmazonDeepRacer是亚马逊云科技推出的 1/18 自动驾驶赛车,使用摄像头查看赛道,并使用强化学习模型来控制油门和方向盘。用户可以在模拟环境或实际赛道上测试强化学习模型,进行赛车竞速。
1小时上手AI,构建自己的第一个强化学习模型!来与大神们一起开启 “速度与激情” 的进阶之旅!
识别下方海报二维码,立即报名。

© THE END 

转载请联系本公众号获得授权


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 书中对明代杂剧的分期问题,对明代教坊司和钟鼓司等宫廷剧场,以及“家乐”等文人剧场及其发展皆作了有创见性的论述,对徐渭、汪道昆、孟称舜等戏曲名家名作也作了深入细致
  • ”我的没头脑和不高兴[苦涩][苦涩][苦涩]七年在电竞圈已经是偷来的岁月了以后我的锤石会勾你的卡莎我的盛大登场打断你的完美谢幕滴滴艾卡西亚暴雨落在你的头上再也没
  • 日主强,刃旺则能劫财,护印,并断绝官杀的生机,如无有力的官杀制伏或有力的食伤泄化,日主势必旺极无依,所以羊刃格有凶多吉少之患,但羊刃格遇官杀食伤克泄太多,或财
  • 大学的‮候时‬在亲戚档口拿‮个一‬小位置‮首放‬饰没过‮久多‬我妈跟我说我被‮出赶‬来❌-大一‮学辍‬就为了奋不顾身‮直做‬销一年时间‮了上‬最高级别因为自‮年
  • 无语了小库从昨天开始眼睛分泌物突然增多,还伴随着呕吐,宠物店的人怀疑是犬瘟,急忙带着小库去兽医站治疗,花了50大洋做了试纸测试,发现不是询问了前因后果,兽医得出
  • [转载]黄 老 居 士 慈悲开示:“昼夜常念”,也是昼夜,刚才我说过了。有的大德就是认为,你夜间要是不能念,你应该起来痛哭流涕的忏悔。这要求很高很高。我们现在就
  • 想着前几天,也就是端午节前的高考,更是严重,封路,戒严,一下子如临大敌的样子,我给政府点赞的同时,也想起来以前我的高考还有中考,中考就是大家坐公交车到县城宾馆住
  • ”一语惊醒梦中人,金忠这话彻底把朱棣拉回了现实,倘若自己大明江山的储君一事都要因武将施压而发生改变,自己的皇权不就成了笑话了吗?公元1399年,金忠在得到朱棣宠
  • 会想到这些主要是觉得对于琳来说,监护人,或者说父亲这个角色不能简单的只理解成桑克瑞德,兰吉特这个人真的很可怜,我觉得他在老年的时候只是因为“这样一来可怜的敏菲利
  • 5.减肥没有那么容易,每块肉都有它的脾气。5.减肥没有那么容易,每块肉都有它的脾气。
  • 这我也感到生气和遗憾,不是7f我都破防了,为什么你没有,演唱会的时候我还要期待你唱生日歌,再推上来一个大蛋糕,但是,没有。你其实是一个特别容易满足的人。
  • 合创Z03是在2021年上海车展上亮相的,当时是合创品牌与EDG联合开发的车型,“EDG”(EDwar dGaming)即国内一家电竞俱乐部,合创此举主要是想针
  • 早上一开门天地都是白茫茫的,门口还有兔子的爪印,一串一串的伸向远处的树林。碎碎碎碎碎片✨ [给你小心心]小 水杯富豪 放手机还用俩[给你小心心]兔子的卡姿兰大
  • ① 沙三个泽塔取走头部,准备风油精、碎钻、uv胶、光油和白漆,这里我用的是1mm碎钻,淘宝搜碎钻一大堆,大小选择可以选小点的,uv胶看个人需要,因为最后我是粘死
  • 馆主李松堂先生行走于北京拆迁街巷胡同,抢救出许多有价值的物件,故被称为捡来的博物馆。博物馆成立于2001年10月,李松堂先生收藏展品,有好多来自北京拆除的民居上
  • 保利和光尘樾规划2号楼1单元4-1房详情:保利和光尘樾,总建筑面积约27.3万平方米,择址中央公园西·悦来智慧城,位居重庆北拓主轴,萃集中央公园与悦来优质配套,
  • #covid-19# 德国T细胞疫苗I期临床结果,疫苗由多个新冠HLA-DR t细胞表位组成,辅以TLR 1/2激动剂作为佐剂(XS15 emulsified
  • 2.第一泡:水温90度沿壶内边低旋冲泡中心定水后6秒出汤,品饮之。2.首泡:水温65度沿盖碗中心低旋高冲中心划十字定水后10秒出汤,品饮之。
  • 尤其是对于中年男女来说,每个人都会有自己的工作和生活,非得和对方有一定的交集,那也意味着不可能真的那么纯粹。尤其是对中年人来说,都有一定的感情经历,都不是男女关
  • 同时因为河流的流水量存在不同年份的变化,因此,鹅卵石在岸边的堆积会形成多层次的堆积,但这些鹅卵石只分布在河道的上部,河道的下部长年流水,因而不形成鹅卵石堆积现象