当前位置: 金沙澳门官网网址cow > 智能科技 > 正文

金沙澳门官网网址cow:作者李昀烛,有了这项新

时间:2019-09-19 14:07来源:智能科技
原标题:瞄准工业智能化市场,麻省理工让 AI 教机器人操纵物品 原标题:有了这项新技术机器人可就真的成精啦! 智东西 人工智能正在一步步走向强大。今天,麻省理工学院又公布了

原标题:瞄准工业智能化市场,麻省理工让 AI 教机器人操纵物品

原标题:有了这项新技术机器人可就真的成精啦!

智东西

金沙澳门官网网址cow 1

人工智能正在一步步走向强大。今天,麻省理工学院又公布了一项新发明,让科技更进一步。

来自engadget的消息称,麻省理工学院最新研究发布的的机器视觉系统可以让机器人自行解决它所看到的问题。

编 | 赵佳蕊

新智元报道

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员,发明了一种名为 DON 的“密集的视觉对象网”——让机器人能学会独立观察、理解并操作它们从未见过的物体。

对于反复执行特定动作的机器来说,目前的计算机视觉技术已经足够了,比如从装配线上取下一个物体,把它放到一个箱子里。然而,要让机器人变得足够有用,不仅能在仓库里装箱子,还能在我们自己的家里帮上忙,目前的而技术就显得力不从心了。

导语:美国麻省理工学院计算机科学和人工智能实验室研究人员设计了一个可以把触觉信号转化为视觉信号的的人工智能系统,也可以根据视觉片段预测触觉。

来源:techexplorist

研究人员们计划今年10月在瑞士的机器学习大会上展示他们的新发明。

对此,麻省理工学院设计了“DON”系统。

智东西6月17日消息,近日麻省理工学院计算机科学和人工智能实验室的研究人员研发出了一个新的人工智能系统,这个人工智能系统能够通过触觉信息生成视觉信息,也可以根据视觉片段预测触觉。

编辑:张佳

金沙澳门官网网址cow 2

DON,或称“密集物体网”,是麻省理工学院计算机科学和人工智能实验室(CSAIL)开发的一种新型机器视觉形式。它能够生成一个“可视化路线图”——即以坐标形式排列的可视化数据点的集合。这个系统会把这些单独的坐标集拼接成一个更大的坐标集合,就像您的手机可以将多张照片拼接成一个全景图像一样。这使得系统能够更好、更直观地理解对象的形状以及它在周围环境中的工作方式。

相关论文将在下周的计算机视觉和模式识别会议上将发表一篇新的论文,这篇论文由CSAIL博士生Yun Zhu Li、MIT教授Russ Tedrake、Antonio Torralba和MIT博士后Jun Yan Zhu共同创作。 一、这个AI可以将视觉信息和触觉信息相互进行转换

摸一摸就知道长什么样、看一看就知道摸着是什么感觉,你以为我说的是人?不,是AI。MIT研究人员开发出一种具有预测性人工智能的机器人,它可以通过触摸来学习“看”,通过“看”来学习感觉,李昀烛和朱俊彦这两位大神参与了此项研究。

DON试图抓起一只鞋子(图片来源:MIT CSAIL)

“从计算机视觉系统中得到的最粗糙、最高级的东西就是检测目标,”该研究论文的作者、博士生Lucas Manuelli告诉Engadget。“下一步是进行像素标记,所有的像素都是一个人或一条道路的一部分。很多自我驾驶汽车系统都会进行这两部操作。“

该小组的系统使用了GANs把触觉数据拼凑出视觉图像。其中GANs的神经系统被应用在两个部分,包括产生样本的发生器和能够区分产生样本和真实样本的鉴别器的两部分神经网络。

我们人类可以通过简单地触摸来轻松地判断物体的外形,这完全归功于我们的触觉,它使我们具备了这种能力。此外,我们当然也可以通过观察物体来确定它的感受。

核心研究人员 Lucas Manuelli 说:“目前的许多科技手法都无法识别物体的准确样貌。例如,现有的算法无法操纵机器手柄来抓一个杯子。尤其是当杯子的形状和摆放复杂时,更为艰难。”

“但如果你真的想以某种特定的方式与某个物体互动,比如以特定的方式抓住鞋子或抓住一个杯子,”他继续说道,“那么仅仅有一个边界框或所有对应于杯子的像素是不够的。我们的系统必须得在对象中获得更精细的细节......这种信息对于进行更高级的操作任务是必要的。“

样本的获取来源于一个名为visgel的数据集,visgel拥有超过300万个视觉/触觉数据对,其中包括12000个视频剪辑,剪辑中包含了近200个物体(如工具、织物和家用产品)。

但做同样的事情对于机器来说可能是困难的,这也是一个巨大的挑战。即使是被编程有感官的机器人也无法做到这一点,它们不能把这些触觉信号互换使用。

DON 不是一个控制系统。相反,它是一种自我监督的深层神经网络——一种模仿大脑神经元功能的分层算法——训练机器人用精确坐标的形式来描述物体。在训练结束后,DON 能够自主地挑选出参考框架。当一个类似的新物体出现时,DON 就可以将它们映射到一起,在三维空间中计算出物体的可视化形状。

也就是说,DON系统可以让机器人看着一杯咖啡时,正确定位到咖啡杯的手柄上。当机器人拿起咖啡杯时,DON系统能让机器人意识到杯子的底部需要保持指向下方,以避免杯子里的东西洒出来。

这一人工智能系统首先将识别机器人所接触物体区域的形状和材质,并在参考的数据集中进行比对,最终生成所接触部位的图像信息。

现在,麻省理工学院计算机科学与人工智能实验室的研究人员已经开发出一种具有预测性人工智能的机器人,它可以通过触摸来学习“看”,通过“看”来学习感觉。

金沙澳门官网网址cow 3

金沙澳门官网网址cow 4

例如:如果给出鞋子上完整的触觉数据,这个模型就可以确定鞋子上最有可能被触摸的位置。

强强联合,必出精品

DON的视角(图片来源:MIT CSAIL)

更重要的是,该系统将允许机器人从一堆相似的物体中挑选出特定的物体。

金沙澳门官网网址cow 5

在细讲这篇论文之前,先来给大家隆重介绍一下这个研究团队——均来自MIT CSAIL,一作是MIT CSAIL博士、曾经的北大学神李昀烛,二作是即将在CMU担任助理教授、曾经的清华学神朱俊彦。

根据研究人员所说,不论是硬的物体(如帽子)还是软的物体(如毛绒玩具),DON 都只需要20分钟就可以完成学习。DON 可以识别各种各样的物品,包括适度变形的物品以及质感非常轻薄的物品。

“许多操纵方法无法让机器人在不同的方向上识别出物体的特定部分,”Manuelli在研究中写道,“例如,现有的算法无法通过手柄抓住马克杯,特别是当马克杯朝着不同的方向时。”

▲运行流程

金沙澳门官网网址cow 6

此外,DON 并不会分辨物体的颜色和纹理,这使得它在使用 RGB 或深度数据上更有优势。因为只要一点轻微变形,颜色和纹理就会改变,不具备“可抓取”的特性。

该系统依赖于拥有RGB深度相机组合的RGB-D传感器。并且,这个系统可以进行自我训练——如果你想让系统识别棕色的靴子,你只需把机器人放在一个有棕色靴子的房间里,然后这个系统将自动循环启动,获取用于生成坐标点的参考照片,然后根据所看到的内容进行自我训练。整个过程不到一个小时。

数据集中参考照片有助于对环境的详细信息进行编码,从而使机器学习模型能够自我改进。在这个研究中,他们在库卡机器人手臂上安装了一个触觉式凝胶视觉传感器,这个传感器由麻省理工学院的另一个小组设计,可以将当前的图像与参考图像进行比较,以确定触摸的位置和比例。 二、这个系统可以帮助机器人进行自我学习

李昀烛

“在工厂里,机器人通常需要十分复杂的部件才可以工作,”Manuelli 说,“但是像 DON 这样的系统就能省去这些复杂部件。只需拍一张照片,就能掌握和操纵物体。”

金沙澳门官网网址cow 7

“通过观察这个场景,我们的模型可以想象到触摸到一个平坦的表面或锋利的边缘的感觉。”CSAIL博士生 Yun Zhu Li说。

李昀烛是CSAIL的二年级博士生,他的研究领域是计算机视觉、机器学习和机器人技术,尤其是基于深度学习的机器人动力学建模和多模态感知。他本科毕业于北京大学,本科期间参加北京大学和斯坦福大学的多个实验室研究,并以第一作者身份发表多篇计算机视觉和机器学习顶级会议论文。

金沙澳门官网网址cow 8

“在工厂中,机器人通常需要复杂的零件才能可靠地工作,”Manuelli写道,“但像这样一个能够理解物体方向的系统,只需拍张照片,就能相应地把握和调整物体。”

“在黑暗中进行接触的时候,仅从触觉上,我们的人工智能模型就可以预测与环境的交互作用,把视觉和触觉这两种感觉结合在一起就可以强化机器人的能力,减少我们在处理和抓取物体的任务中可能需要的数据。”

金沙澳门官网网址cow 9

DON正在抓取一只杯子(图片来源:Tom Buehler / MIT CSAIL)

这项技术仍然处于起步阶段,Manuelli希望在不断完善后,能够应用到家庭的日常机器中,帮助人们更好地生活。

金沙澳门官网网址cow 10

朱俊彦

团队认为 DON 可以应用在工业环境中,例如用作仓库机器人。同时,团队希望开发一个更有能力的版本,让机器人可以对物体进行“更深入的理解”。

金沙澳门官网网址cow,【更多人工智能资讯欢迎关注微信公众号“AI锐见”(Rebuild_ai)】返回搜狐,查看更多

▲模型从触觉生成视觉的过程

朱俊彦目前是CSAIL的一名博士后研究员,他将于2020年秋季回到CMU担任助理教授。朱俊彦主要从事计算机视觉、计算机图形和机器学习的研究。他毕业于加州大学伯克利分校,2012 年获得清华大学计算机科学系的工学学士学位,在 CMU 和 UC Berkeley 经过 5 年学习后,于 2017 年获得 UC Berkeley 电气工程与计算机科学系的博士学位。(参见:陈天奇、朱俊彦、金驰加盟CMU、普林斯顿)

研究人员写道:“我们认为,DON 是一种新颖的物体表现形式,可以衍生出使许多全新的机器人操作方法。”

责任编辑:

研究人员注意到,当前的数据集只有在受控环境中交互的例子,但是其中一些细节,比如物体的颜色和柔软度,仍然难以被系统推断出来。

李昀烛和朱俊彦曾经合作多次,最近最近爆火的MIT十美元“灭霸”手套也是二人合作完成的。这次又强强联合,会出怎样的精品呢?接下来看看这项新研究。

在这个领域,国内也有很多公司在做类似的事,例如梅卡曼德、阿丘、库柏特等等。这些公司都在瞄准工业智能化市场,为工业机器人赋予视觉与触觉双重感知能力。返回搜狐,查看更多

不过,他们说,他们的方法可以在生产环境中为集成人类机器人无缝衔接地打下基础,尤其是在缺少视觉数据的任务上。比如:当灯熄灭或工人必须盲目地接触容器时。

这项研究做了什么?

责任编辑:

对于这一项研究,加州大学伯克利分校的博士后研究员安德鲁·欧文斯说:“在视觉和触摸信号之间进行转换方面,这是第一种非常令人信服的方法。像这样的方法对机器人学习很有用。”

研究团队使用KUKA机器人手臂并添加了一个名为GelSight的特殊触觉传感器,该传感器之前由Edward Adelson领导的另一个麻省理工学院小组设计。

他还表示:有些问题对于机器人来说是很难的,比如:你可以问这个机器人“如果我选择通过握住杯子把手提起这个杯子,我的握法会有多好?这是一个非常具有挑战性的问题,因为信号非常不同,这个模型已经能够证明它是非常有效的。”

金沙澳门官网网址cow 11

图1.数据采集装置:他们使用一个装备了GelSight传感器的机器人手臂来收集触觉数据,并使用网络摄像头来捕捉对象交互场景的视频。凝胶接触物体的图示。交叉模式预测:在收集到的视觉触觉对的基础上,他们为几个任务训练了交叉模式预测网络:通过视觉学习感知:从相应的视觉输入和参考图像预测触摸信号;通过触摸来学习看:通过触摸预测视觉。预测的触摸位置和ground truth位置中的黄色箭头标记)具有相似的感觉。

GelSight是一块透明的合成橡胶板,其一面涂有油漆,含有微小的金属斑点。在另一侧,安装摄像头。该团队使用网络摄像头记录了近12000个被触摸的200件物品的视频,包括工具、家用产品、织物等。

金沙澳门官网网址cow 12

图2.物品集。这里他们展示了训练和测试中使用的物品集,包含了食品、工具、厨房用品、织物和文具等各种各样的物品。

然后,研究人员将这些视频分解为静态帧并编制了“VisGel”,这是一个包含超过300万个视觉/触觉配对图像的数据集。这些参考图像随后帮助机器人对物品和环境的细节进行编码。

“ 通过观察场景,我们的模型可以想象触摸平坦表面或锋利边缘的感觉,” 李昀烛说:“ 仅通过触摸,我们的模型可以单纯从触觉中预测与环境的相互作用。将这两种感官结合在一起,可以增强机器人的能力并减少我们在涉及操纵和抓取物体的任务时可能需要的数据。”

金沙澳门官网网址cow 13视觉和触觉演示" style="width:60%;margin:1rem auto">

金沙澳门官网网址cow 14

金沙澳门官网网址cow 15

{"type":1,"value":"现在,机器人只能识别受控环境中的物体。然而,一些细节,如物体的颜色和柔软度,对于新的AI系统得出结论仍然是个挑战。尽管如此,研究人员希望这种新方法能够为制造环境中的“人-机器人”无缝结合铺平道路,尤其是在缺乏视觉数据的任务中。

该团队新AI系统的下一步是通过收集更多非结构化区域中的数据或使用MIT新设计的传感器手套来构建更大的数据集,以便机器人可以在更多样化的环境中工作。

“这是第一种可以令人信服地在视觉和触摸信号之间进行转换的方法,”加州大学伯克利分校的博士后Andrew Owens说:“ 像这样的方法有可能对机器人技术非常有用,你需要回答诸如'这个物体是硬还是软?'之类的问题,或者'如果我通过杯柄举起这个杯子,我的握力有多好?' 这是一个非常具有挑战性的问题,因为信号是如此不同,而且这个模型已经证明了它的强大能力。”

该论文会在加利福尼亚州长滩举行的CVPR 上发表,接下来和大家分享一下这篇论文。

使用跨模态预测方法

研究人员提出了一种从触觉预测视觉的跨模态预测方法,反之亦然。首先,他们将触摸的规模和位置合并到他们的模型中。然后,使用数据再平衡机制来增加结果的多样性。最后,通过从附近的输入帧中提取时间信息,进一步提高了结果的时间一致性和准确性。

金沙澳门官网网址cow 16

图3.跨模态预测模型概述:视觉触摸模式。

图3显示了一个示例输入输出组合,其中网络将一系列视觉图像和相应的参考作为输入,并将触觉预测合成为输出。同样的框架也可以应用于触摸视觉。

实验介绍

研究人员使用VisGel数据集对视觉和触觉之间的跨模态预测任务的方法进行了评估。他们报告了评估预测不同方面的多个指标。

对于视觉触觉预测,测量

使用AMT的感知现实性:结果是否真实,

接触时刻:模型能否预测GelSight传感器是否与物体接触,

标记物的变形:模型是否能够跟踪膜的变形。

对于触摸视觉方向,他们使用

通过AMT的视觉真实性和

触摸感来评估他们的模型:预测的触摸位置是否与ground truth位置具有相似的感觉。他们还将有关完整参考指标的评估纳入补充资料,并向所有基线提供参考图像,因为它们对于处理比例差异至关重要。

金沙澳门官网网址cow 17

图4.使用参考图像。使用/不使用参考图像的方法的定性结果。他们用参考图像训练的模型产生了更具视觉吸引力的图像。

金沙澳门官网网址cow 18

图5.跨模态预测结果示例。显示了他们的模型和基线的视觉触摸预测的两个例子。显示触摸视觉方向。 在这两种情况下,他们的结果看起来既真实又在视觉上类似于ground truth 目标图像。在中,他们的模型在没有ground truth 位置标注的情况下进行训练,可以准确地预测触摸位置,与完全监督的预测方法相当。

金沙澳门官网网址cow 19

图6.Vision2Touch定量结果。上图:检测触摸了物体表面的错误。使用时间提示可以显着提高性能或他们的模型。下图:根据图像还原触觉点位置的失真错误情况。他们的方法仍然有效。

金沙澳门官网网址cow 20

图7.Vision2Touch检测接触时刻。显示了标记随时间的变形,由所有黑色标记的平均移动决定。较高的变形意味着物体与较大的力接触。上图:三种典型案例,其中所有方法都可以推断出接触时刻,没有时间线索的方法无法捕捉接触时刻,没有时间线索的方法会产生错位结果。下图:我们展示了案例中的几个视觉和触摸框架。 我们的模型具有时间线索可以更准确地预测GelSight的变形。标记的运动为红色显示以获得更好的可视化效果。

金沙澳门官网网址cow 21

表2.Vision2Touch AMT “真实vs虚假”测试。与pix2pix和基线相比,他们的方法可以合成更逼真的触觉信号,既适用于已知物品,也适用于未知物品。

金沙澳门官网网址cow 22

表3. Touch2Vision“感觉相似vs感觉不同”测试。他们的自我监督方法明显优于基线。其精度可与用ground truth 标注训练的完全监督预测方法相媲美。

金沙澳门官网网址cow 23

表4. Touch2Vision AMT“真实vs虚假”测试。 尽管pix2pix在看不见的对象中获得了最高分,但由于mode collapse,它总是产生相同的图像。

讨论

在这项研究中,研究团队提出用条件对抗网络在视觉和触觉之间建立联系。在与世界互动时,人类严重依赖于两种感官模式。他们的模型可以为已知对象和未知对象提供有希望的跨模态预测结果。在未来,视觉-触觉交叉模式连接可以帮助下游视觉和机器人应用,例如在弱光环境中的物体识别和抓取,以及物理场景理解。

参考链接

{"type":2,"value":"

编辑:智能科技 本文来源:金沙澳门官网网址cow:作者李昀烛,有了这项新

关键词: