上海地铁的平面广告,一年四季都在变换,手机广告一直是主角之一。2017年的手机广告,逆光、夜景拍照成为诉求的焦点,像素的高低之争慢慢隐退。
手机配上摄像头后,在最近十几年的时间里,摄像头的像素从30万到100万、200万、500万到1000万,直至有超过2000万像素的摄像手机的出现;摄影功能日渐强悍的手机首先让傻瓜相机销声匿迹,而家用数码相机的市场也被日渐蚕食,岌岌可危。
像素越高,手机功能越强大,但是在手机像素越过2000万门槛之后,各大手机厂商比拼像素量级的游戏玩不下去了。
在美国工作多年的资深视频处理专家单记章告诉第一财经记者,单个像素的尺寸从2004年的5.6微米,越做越小,现在已经达到1微米的极限,在手机有限的物理空间里,靠扩充像素提高图像质量基本上走到了尽头。
摄像头在硬件上碰到天花板后,要让竞争持续下去,视频技术公司开始在软件和视频数据处理优化上为手机公司找到产品新的卖点。
摄像头新旧事
摄像头的运用最早是在电脑上。现任黑芝麻智能科技有限公司(下称“黑芝麻”)CEO的单记章经历了摄像头从电脑运用到手机的完整周期。
“当年,我们的产品上市了,从卖得不错到无人问津,不过短短几个月的时间。”回忆起17年前在硅谷的工作经历,单记章很是感慨。
彼时,单记章所在的Omnivision(豪威科技)正在尝试将摄像头放入电脑中,以供消费者拍照并分享。
电脑摄像头市场却没有预期的火热。单记章告诉第一财经记者,PC端摄像头遭到冷落,主要是因为当时的网速太慢,照片无法传出去、无法分享。“所以我们考虑转战移动端。虽然速度也不快,但至少(手机)是能传出去的。”
2000年9月,日本手机制造商夏普发布了世界上第一款带有摄像头的手机J—SH04。而Omnivision正是这款手机的供应商之一,虽然那时的摄像头仅有11万像素而已。
此后,市场逐渐被打开。单记章对比了当时的出货数据,“之前的市场上,我们的出货量只有1k+1k;后来就变成了一天3kk,一年相当于十亿颗。”(编者注:1k为一千,1k+1k是两千,1kk是一百万)据介绍,Omnivision曾在全球图像传感器市场占有高达40%的份额。
市场研究机构IDC最新预计,2017年,全球智能手机的出货量将达到15亿部,到2021年,预计将增长至17亿部。
每一部智能手机基本上都有几个摄像头,仅仅手机对摄像头数据处理的需求,就是一个无比庞大的市场,单记章选择离开Omnivision,而当年的中学同学刘卫红离开一家世界500强企业,选择与他一起创业,图像市场的巨大前景是至关重要的一个考虑因素。
摄像头背后的图像传感器与应用处理市场,并不仅仅是局限于手机领域。随着人工智能产业的发展,从图像的获取、传导到计算、理解、反馈,再到应用层面的仓储物流、智能驾驶,围绕在摄像头身前身后的生意模式正逐渐走来。
所谓的图像感知,是人工智能的一个重要细分领域,是计算机对图像进行处理、分析和理解,来感知并识别不同的目标。
第一财经记者梳理发现,在前端捕捉深度信息,后端处理并理解复杂数据,最后反馈从而进行决策,成为图像感知产业活动中的一个循环。
正是在这样一个循环流程中,诞生了大量初创企业,它们以自己掌握的硬件或算法为核心,提供软件或软硬一体化的产品,以期撬动产业金矿。
平安证券发布的《人工智能图像识别专题报告》显示,截至2016年初,在所有AI领域的企业中,聚焦于图像感知的公司数量总计有185家,仅次于最火的机器学习。而其截至2016年初的累计融资总额更是超过了11亿美元。
和单记章一样,敏锐的企业家们小心翼翼地打量着这个庞大的市场,试图从各个垂直领域切入,寻找着更进一步的可能。
从捕捉到理解
刷脸支付、机场自助通关、物流自动分拣、无人驾驶等都是图像感知技术快速普及的一个缩影。在这样场景的背后,是越加成熟的技术和越发准确的识别率。
据第一财经记者了解,在ImageNet比赛的图像识别中,对象分类项目的准确率已经从2010年的72%提升到了2016年的97%。那么,如此之高的准确率是如何实现的呢?
无论是深度摄像头、AI芯片,还是基础算法、神经网络,在图像感知产业链上,一切都是为了两个目的而服务的:更好地在前端捕捉深度信息,以及更准确地在后端处理并理解数据。
“如果前面获取的图像坏了,或者糊了,那后方如何针对图像进行分析呢?”单记章问道。
的确,在图像捕捉的过程中极容易受到外界的干扰与影响,较上述物流领域更为复杂的情况比比皆是,比如自动驾驶:需要应对山洞内外的不同光信号强度、车身抖动甚至极端的雾霾及雨雪天气。“晚上很暗,雨飞来飞去、雨刷刮来刮去,这个时候怎么看清楚;大太阳照在摄像头上,人眼都看不见,这个时候又如何判断。这些都是图像捕捉中的难点。”单记章表示。
此时,就需要加强数据的预处理,其目的就是加强有用的信息,改善图像质量,便于对图像进行后期的处理分析。单记章透露,悬挂的摄像头容易来回晃动,他们曾做过一个防抖的优化方案,不仅增强了画质,还提高了设备的使用寿命。
另一方面,相比前者捕捉图像需要应对各种突发因素,后者的处理分析看似更加简单。但往往这种情况下的计算更为复杂。
单记章告诉记者,刷脸技术用人工智能、神经网络来做,识别率都能达到99%以上,很难出错。但是很多技术无法抵御蓄意的攻击,比如让机器判断是真人、照片还是视频或者模型。这时候,如何实现生物特征的判断非常重要。
比如,当开车遇到前方有物体时,在判断该物体的车道、速度、方向等因素之外,还需要判断这是个路桩,还是辆车,或者是个人。“复杂环境下,需要对场景进行理解,是人是车结果一定是不一样的。”单记章称。
超越硬件
“如何应对不断上涨的计算量是图像处理中最难的部分之一。”图漾科技副总经理徐韬向记者透露,960P的深度摄像头如果想要更进一步做成1080P的话,换一个基础摄像头其实并不难,但精度的提高将导致计算量的大幅上涨,把握如此之高的计算量才是难点。
事实上,在图像感知领域,硬件的难以突破由来已久,即便是在整个人工智能的发展历程中,硬件的计算能力不足始终是制约其发展的瓶颈之一。可可资本合伙人李笙凯在接受第一财经记者采访时表示,虽然深度学习和GPU的利用对视觉硬件的处理计算能力有很大的提高,但怎么进一步提高到可用的程度,市场上还始终没有明确的解决方案。
单记章对此表示认同,他认为这是一个系统工程,一方面要提高硬件的计算能力,提高算法的适应能力,同时也需要有创新的整体解决方案。他以不同时间开车为例,“在傍晚时太阳平射过来,摄像头需要减少光强和炫光,而晚上又需要尽可能接受最多的光,还要解决对面大灯的照射问题,这里就需要结合光学、摄像头和图像处理技术,在此基础上采用机器学习的方法,才能从系统的角度更有效地解决端的计算能力不足的问题”。
另一方面,单记章认为,现阶段的很多硬件在物理上已经达到极限,难以升级,比如图像传感器。“由于载体本身的大小限制,摄像头需要做得很小,这就导致传感器的感光点也越做越小。有人研发还在做0.9微米,但这个性能已经很差了。靠这些东西提高也会有一定的空间,但是真的非常难。”
“图像感知技术正处于发展阶段,还有很长的路要走,比如软件算法也还需要5~10年甚至20年的积累突破。”李笙凯对记者表示。他认为,行业的技术壁垒和应用壁垒一直都存在,市场的完全爆发还需要两到三年的时间。
不过,也正是因为存在这样巨大的发展空间,潜力才得以凸显,可能才得以孕育。这些在行业中耕耘多年的从业者,他们拥有最专业的眼光和最敏锐的嗅觉,有心证明他们的坚持并非一场豪赌。
是不是豪赌无从得知,但正如李笙凯对当下的判断:优化已有的技术,以满足市场的刚性需求,是这个行业最困难的痛点,亦是最敞亮的通道。