(图片来源:密歇根大学官网)
据外媒报道,在进行探测“极度虚假”视频的项目中,密歇根大学(University of Michigan)的工程师研发出一种软件,可利用视频片段提高计算机追踪物体的能力,而且计算机的物体追踪能力平均提高了11%。该软件名为BubbleNets,可为人类选择出最好的视频帧,以便进行人工注射。除了能够帮助训练算法识别出被篡改的视频片段,该软件还能够提升无人驾驶汽车、无人机、监控和家庭机器人等新兴领域内的计算机视觉能力。
目前分析视频片段的软件都需要依靠人工在视频中标记物体,如标记人、动物和车辆。随后,“视频物体分割”算法将通过视频,跟踪此类物体的边界。
如今的先进“深度学习”程序需要人类只标出单个视频帧,而通常呈现给人类的视频帧都是视频的第一帧,在很少的情况下,该视频帧会是最佳选择。但是截至目前,也没有自动化的方法选出更好的视频帧。
因此,当美国国防部研究计划局(DARPA)要求能够自动选出更好的视频帧,密歇根大学研究团队对此表示很怀疑,认为无法实现,因为该软件都不知道人们需要跟踪的是什么,怎么能够推荐视频帧呢?
但是,依靠深度学习技术,密歇根大学研究人员发现无需选择出最佳的已经有注释的视频帧,算法就可以做到这一点。他们所面临的挑战是创造足够多的“训练”数据,让算法能够从大量的例子中得出自己的结论。
研究人员研究了60个视频,此类视频中每一帧都已经有注释。如果研究人员提问:“每个视频中哪一帧的注释最好”,他们只会得到60个训练数据。相反,利用“BubbleNets”软件,研究人员可以一次比较两个视频帧,该软件可以预测,如果选择某一帧进行人工注释,可以让视频分割处理软件更贴近物体的边界,从而可为他们提供近74.5万对视频帧,以训练该算法。
很难确切地说明BubbleNets在已经有注释的视频帧中在寻找什么,但是测试显示该软件更喜欢的视频帧是:
1、不是特别靠近视频开头或结尾的视频帧;
2、看起来与视频中其他帧相似的视频帧;
3、显示了物体清晰图像的视频帧。
目前,BubbleNets已经应用于DARPA的多大学媒体取证项目,DARPA为了识别虚假的宣传视频,需要在经过篡改的视频上训练其自己的算法。BubbleNets可帮助其他软件自动从视频上删除物体,以创建培训数据。
但是,BubbleNets也可用于其他机器人和计算机视觉任务。例如,未来的家居机器人需要了解房子的布局和物品,该机器人需要能够向主人展示一系列包含未注释物体的视频帧。
无人驾驶汽车和无人机等配备的计算机视觉算法必须在无人工输入的情况下运行,在此类情况下,该软件会从视频片段中筛选出不认识的物体,然后当该软件发现有问题的视频片段时,可为人类选择最佳视频帧,以帮助解释问题。