一个人观看视频,显示开放的东西 - 门,书,窗帘,盛开的花朵,打呵欠的狗 - 很容易理解每个剪辑中描绘的相同类型的动作。
“计算机模型很难找到这些东西。人类如何毫不费力地做到这一点?“麻省理工学院--Watson AI实验室的首席研究员,IBM研究院的一名工作人员Dan Gutfreund问道。“我们处理信息,因为它发生在空间和时间。我们怎么教电脑模型呢?“
这是MIT-IBM Watson AI实验室正在进行的一个新项目背后的重大问题,该实验室是人工智能前沿研究的合作项目。该实验室于去年秋天启动,将麻省理工学院和IBM研究人员联系在一起,研究人工智能算法,人工智能在行业中的应用,人工智能的物理特性,以及利用人工智能促进共享繁荣的方法。
该在时间数据集的时刻是由实验室资助与AI算法的项目之一。它将Gutfreund与麻省理工学院计算机科学与人工智能实验室的首席研究科学家Aude Oliva配对,作为该项目的主要研究人员。时间的瞬间建立在100万个注释的动态事件视频的集合之上,在三秒钟内展开。Gutfreund和Oliva,也是MIT-IBM Watson AI实验室的麻省理工学院执行主任,正在使用这些片段来解决AI的下一个重要步骤:教授机器以识别行动。
研究人员说,我们的目标是提供深度学习算法,覆盖视觉和听觉瞬间的生态系统,使模型能够学习不一定以监督方式教授的信息,并推广到新的情境和任务。
“随着我们的成长,我们四处看看,我们看到人和物体在移动,我们听到人和物体发出的声音。我们有很多视觉和听觉经验。人工智能系统需要以相同的方式学习并获得视频和动态信息,“奥利瓦说。
对于数据集中的每个操作类别,例如烹饪,运行或打开,有超过2,000个视频。短片使计算机模型能够更好地学习特定动作和事件的意义多样性。
“这个数据集可以作为开发人工智能模型的新挑战,可以扩展到人类日常处理的复杂程度和抽象推理水平,”奥利瓦补充道,描述了所涉及的因素。事件可以包括人,物,动物和自然。它们可能在时间上是对称的 - 例如,打开意味着以相反的顺序关闭。它们可以是暂时的或持续的。
Oliva和Gutfreund以及来自麻省理工学院和IBM的其他研究人员每周会面一周,以解决技术问题,例如如何选择注释的动作类别,在哪里找到视频,以及如何组合一个广泛的阵列因此AI系统无偏见地学习。该团队还开发了机器学习模型,然后用于扩展数据收集。“我们的关系很好,因为我们有同样的热情和相同的目标,”奥利瓦说。
实验室的一个关键目标是开发人工智能系统,超越专业任务,解决更复杂的问题,并从强大而持续的学习中受益。“我们正在寻求新的算法,不仅可以在可用时利用大数据,还可以从有限的数据中学习,以增强人类智能,”IBM Research首席运营官Sophie V. Vandebroek说道。
除了配合每个组织独特的技术和科学优势外,IBM还为麻省理工学院的研究人员带来了大量资源,这是由于其在未来10年内投入的2.4亿美元人工智能投资,致力于MIT-IBM Watson AI实验室。奥利瓦表示,MIT-IBM对人工智能的兴趣正在证明是有益的。
“IBM有兴趣开发基于视觉的人工智能系统的新思路。我提出了一个项目,我们构建数据集来为世界提供模型。在此级别之前没有做过。这是一项新奇的事业。现在我们已经达到了100万视频人工智能培训视频的里程碑,人们可以访问我们的网站,下载数据集和我们的深度学习计算机模型,这些模型已被教授识别行动。
Moments in Time数据集的第一个版本是捕获视觉和听觉短事件的最大的人类注释视频数据集之一,所有这些都被标记为339个不同类别中的动作或活动标签,其中包括各种常见动词。研究人员打算生成更多具有各种抽象级别的数据集,作为开发学习算法的踏脚石,可以在事物之间建立类比,想象和综合新事件,并解释场景。
换句话说,他们刚刚开始,Gutfreund说。“我们希望Moments in Time数据集能够让模型更好地理解视频中的动作和动态。”
免责声明:本文由用户上传,如有侵权请联系删除!