不久之前,人们还常说,计算机视觉的辨别能力尚不如一岁大的孩子。如今看来,这句话要改写了。计算机不仅能和大多数成年人一样识别图片中的物体,在马路上驾驶汽车的安全性还高过16 岁的青少年。更神奇的是,如今的计算机不再是被动按照指令识别和驾驶,而是像自然界的生命由数百万年前开始进化那样,自主地从经验中学习。是数据的井喷促成了这一技术进步。如果说数据是新时代的石油,那么学习算法就是从中提取信息的炼油厂;信息积累成知识;知识深化成理解;理解演变为智慧。欢迎来到深度学习的新世界。
深度学习是机器学习的一个分支,它根植于数学、计算机科学和神经科学。深度网络从数据中学习,就像婴儿了解周围世界那样,从睁开眼睛开始,慢慢获得驾驭新环境所需的技能。深度学习的起源可以追溯到20 世纪50 年代人工智能的诞生。关于如何构建人工智能。
当时存在两种不同的观点:一种观点主张基于逻辑和计算机程序,曾主宰人工智能的研究和应用数十年;另一种观点则主张直接从数据中学习,经历了更长时间的摸索才逐渐成熟。
20 世纪,计算机技术还不够成熟,而且按照现在的标准,数据存储成本十分高昂,用逻辑程序来解决问题更加高效。熟练的程序员需要为每个不同的问题编写不同的程序,问题越大,相应的程序也就越复杂。如今,计算机能力日趋强大,数据资源也变得庞大且丰富,使用学习算法解决问题比以前更快、更准确,也更高效。此外,同样的学习算法还能用来解决许多不同的难题,这远比为每个问题编写不同的程序更加节省人力。
汽车新生态:无人驾驶将全面走入人们生活
在2005 年美国国防部高级研究计划局( 以下简称DARPA)举办的自动驾驶挑战赛中,一辆由斯坦福大学塞巴斯蒂安·特隆(Sebastian Thrun)实验室开发的自动驾驶汽车Stanley最终赢得了200万美元现金大奖。团队利用了机器学习技术教它如何自主地在加利福尼亚州的沙漠中穿行。132 英里的赛道中有若干狭窄的隧道和急转弯,还包括啤酒瓶道(Beer Bottle Pass),这是一段蜿蜒曲折的山路,两侧分别是碎石遍布的陡坡和断壁。特隆并没有遵循传统的AI 方法,即通过编写计算机程序来应付各种偶发事件,而是在沙漠中驾驶Stanley,让汽车根据视觉和距离传感器的感应输入,学习如何像人一样驾驶。
特隆后来参与创立了高科技项目重点实验室Google X,并开始了进一步研究自动驾驶汽车技术的计划。谷歌的自动驾驶汽车自此开始,在旧金山湾区累积了350 万英里的车程。优步(Uber)已经在匹兹堡投放了一批自动驾驶汽车。苹果也步入自动驾驶领域,以扩大其操作系统控制的产品范围,并希望能够再现它在手机市场上的辉煌。汽车制造商们亲眼看见一个100 年来从未改变的行业在他们眼前发生了转型,也开始奋起直追。通用汽车公司以10 亿美元的价格并购了开发无人驾驶技术的硅谷创业公司Cruise Automation,并在2017 年投入了额外的6 亿美元用于研发。2017年,英特尔以153 亿美元的价格收购了Mobileye,它是一家专门为自动驾驶汽车研发传感器和计算机视觉的公司。在价值数万亿美元的交通运输领域,参与的各方都下了极高的赌注。
自动驾驶汽车不久将扰乱数百万卡车司机和出租车司机的生计。最终,如果一辆自动驾驶汽车能够在一分钟内出现,将你安全带到目的地且无须停车,在城市拥有汽车就显得不那么必要了。今天,汽车行驶时间平均仅占4%,这意味着它其余96% 的时间都需要停放在某个地方。由于自动驾驶汽车可以在城市外围维修和停放,城市中被大量停车场占用的空间得以被重新高效利用。城市规划者已经开始考虑让停车场变成公园了。街边的停车道可以成为真正的自行车道。其他汽车相关行业也将受到影响,包括汽车保险业和修理厂。超速和停车罚单将不复存在。由醉驾和疲劳驾驶导致的交通事故死亡人数也会相应减少。通勤浪费的时间也将被节省下来做其他事情。根据2014年的美国人口普查数据,1.39 亿上班族人均单日通勤时间达到了52分钟,全年总计296 亿小时。这惊人的340 万年的时间本可以在人生中得到更好的利用。自动驾驶汽车会使公路通行能力翻两番。而且,一旦大规模投入使用,没有方向盘、可以自己开回家的自动驾驶汽车还会让大规模汽车盗窃行为销声匿迹。虽然目前自动驾驶汽车仍面临很多监管和法律层面的障碍,但这一技术一旦开始普及,我们就将迎来一个崭新的世界。可以预见的是,卡车大概会在10 年内率先实现自动驾驶,出租车要花上15 年,而15 到25 年后,客运无人车将全面走入人们的生活。
汽车在人类社会中的标志性地位将以我们无法想象的方式发生变化,一种新的汽车生态也将应运而生。正如100 多年前汽车的出现创造了许多新的行业和就业机会,围绕着自动驾驶汽车的发展,也出现了一个快速增长的生态系统。从谷歌独立出来的自动驾驶公司Waymo,8年来已经投入了10亿美元,并在加州中部山谷搭建了一个秘密测试场所。该场所位于一个占地91 英亩的仿造小镇,其中还设计了骑自行车的“演员”和假的汽车事故。其目的是扩大训练数据集以包含特殊和不常见的情况(也叫边缘情况)。公路上罕见的驾驶事件经常会导致事故。自动驾驶汽车的不同之处就在于,当一辆汽车遇到罕见事件时,相应的学习体验会被传递给所有其他自动驾驶汽车,这是一种集体智能。其他自动驾驶汽车公司也在建造许多类似的测试设施。这些举措创造了以前并不存在的新工作机会,以及用于汽车导航的传感器和激光器的新供应链。
自然语言翻译:从语言到句子的飞跃
如今,谷歌在超过100 种服务中使用了深度学习,包括街景视图(Street View)、收件箱智能回复(Inbox Smart Reply)和语音搜索。几年前,谷歌的工程师意识到他们需要将这些计算密集型应用扩展到云端。他们开始着手设计一种用于深度学习的专用芯片,并巧妙地设计了可以插入数据中心机架中的硬盘插槽的电路板。谷歌的张量处理单元(TPU)现在已配置在遍布全球的服务器上,让深度学习应用程序的性能得到了大幅改进。
深度学习快速改变格局的一个例子是它对语言翻译的影响。语言翻译是人工智能的一只圣杯,因为它依赖于理解句子的能力。谷歌最近推出了基于深度学习的最新版谷歌翻译(Google Translate),代表了自然语言翻译质量的重大飞跃。几乎一夜之间,语言翻译就从零散杂乱的拼凑短语,升级到了语意完整的句子。之前的计算机方法搜索的是可以被一并翻译的词汇组合,但深度学习会在整个句子中寻找词汇之间的依赖关系。
下一步工作是训练更大规模的深度学习网络,针对段落来提高句子间的连贯性。文字背后都有悠久的文化历史。俄裔作家和英文小说家,《洛丽塔》一书的作者弗拉基米尔·纳博科夫(Vladimir Nabokov)曾经得出结论,在不同语言之间翻译诗歌是不可能的。他将亚历山大·普希金(Aleksandr Pushkin)的诗体小说《叶甫盖尼·奥涅金》(Eugene Onegin)直译成了英文,并对这些诗文的文化背景做了解释性脚注,以此论证他的观点。或许谷歌翻译终有一天能够通过整合莎士比亚的所有诗歌来翻译他的作品。
语音识别:实时跨文化交流不再遥远
人工智能的另一只圣杯是语音识别。不久之前,计算机的独立语音识别应用领域还很有限,如机票预订。而如今,限制已不复存在。2012 年,一名来自多伦多大学的实习生在微软研究院(Microsoft Research)的一个夏季研究项目中,让微软的语音识别系统性能得到了显著的提升。2016 年,微软的一个团队宣布,他们开发的一个拥有120 层的深度学习网络已经在多人语音识别基准测试中达到了与人类相当的水平。
这一突破性成果将在之后的几年逐渐影响我们的社会,计算机键盘会被自然语言接口取代。随着数字助手,如亚马逊的Alexa、苹果的Siri 以及微软的Cortana 先后进入千家万户,这种取代已经在发生了。就如随着个人电脑的普及,打字机退出了历史舞台,有一天电脑键盘也将成为博物馆的展品。
当语音识别和语言翻译结合到一起时,实时的跨文化交流将有可能实现。《星际迷航》中那种万能翻译机将触手可及。为什么计算机语音识别和语言翻译达到人类的水平要花这么久的时间?难道计算机的各种认知能力同时进入瓶颈期仅仅是巧合吗?其实所有这些突破都源于大数据的出现。
AI 医疗:医学诊断将更加准确
l 深入皮肤
随着机器学习的成熟并被应用于可获取大数据的许多其他问题,服务行业和其相关职业也将发生转变。基于数百万患者病情记录的医学诊断将变得更加准确。最近的一项研究将深度学习运用到了囊括超过2000 种不同疾病的13 万张皮肤病学图像中,这个医学数据库是以前的10 倍大。该研究的网络被训练用于诊断“测试集”(test set,它从未见过的新图像集)中的各种疾病。它在新图像上的诊断表现与21 位皮肤科专家的结论基本一致,甚至在某些情况下还要更准确。在不久的将来,任何一个拥有智能手机的人都可以拍下疑似皮肤病变的照片,并立即进行诊断——而现在要完成同样的过程,我们需要先去看医生,耐心等待病变被专家筛查出来,然后再支付一大笔账单。这一进步将大大扩大皮肤病护理的范围,提升护理质量。如果个体可以很快得到专家诊断,他们会在皮肤病的早期阶段,也就是更容易治疗的时候就开始就医。借助深度学习,所有的医生都将更准确地诊断罕见的皮肤病。
l 深入癌症
如果专家在转移性乳腺癌的淋巴结活检切片图像上判断错误,就有可能导致致命的后果。这是一种深度学习擅长的模式识别问题。实际上,一个经过大量结论清晰的切片数据训练出来的深度学习网络能达到0.925 的准确度,还不错,但还不及人类专家在同一测试集上达到的0.966。然而,把深度学习与人类专家的预测结合起来,准确度达到了0.995,几近完美。由于深度学习网络和人类专家查看相同
的数据的方式不同,二者相结合的效果比单独预测要好。这样一来,更多的生命得以被挽救。这表明在未来,人类与机器将是合作而非竞争的关系。
l 深入睡眠
如果你有严重的睡眠问题(70% 的人一生中都会遇到这个问题),你要等待几个月才能见到你的医生(除非问题十分紧急),然后你会被转到一个睡眠诊所。在那里,你需要在身上接几十个能在你入睡时记录你的脑电图(EEG)和肌肉活动的电极,接受彻夜观察。每个晚上,你会先进入慢波睡眠,然后定期进入快速眼动(REM)睡眠,在此期间,你会做梦,但是失眠、睡眠呼吸暂停综合征、不宁腿综合征以及许多其他睡眠障碍会干扰这种睡眠模式。如果你在家里就很难入睡,那么在一张陌生的床上,全身接满了让人不安的医疗设备进入睡眠状态,绝对算得上真正的挑战。睡眠专家会查看你的脑电图记录,以30 秒为单位标记睡眠阶段,一段8 小时的睡眠要花几个小时才能标记完。而最终你会得到一份有关睡眠模式异常情况的报告,以及一份2000 美元的账单。
依据1968 年由安东尼·雷希特施芬(Anthony Rechtshaffen)和艾伦·卡莱斯(Alan Kales)设计的系统,睡眠专家将接受寻找表征不同睡眠阶段特征迹象的培训。但是由于这些特征常常不明确,也不一致,只有75% 的情况下专家们能在数据解读上达成一致。相比之下,我实验室之前的一名研究生菲利普·洛(Philip Low)使用无监督机器学习,花了不到一分钟的计算机运算时间,以3 秒的时间分辨率自动检测睡眠阶段,和87%的人类专家达成了一致的结论。此外,这种方式只需要在头部的单个位置做记录,用不到那些触点和接线,也节省了大量佩戴和摘除的时间。2007 年,我们创立了一家公司Neurovigil,想将这项技术引入睡眠诊所,但诊所对此没有表现出多大兴趣,因为靠人力标注能产生更多的现金流。实际上,依据保险号向患者开具账单,会让诊所没有动机采用更廉价的程序。Neurovigil 在大型制药公司发现了另一个市场,这些公司在开展临床试验,需要测试他们的药物对睡眠模式的影响。这项技术目前正在进入长期护理设施市场,帮助解决在老年人中更普遍的进行性睡眠问题。
睡眠诊所模式是存在缺陷的,因为在这样的限制条件下不能可靠地诊断出健康问题:每个人的生理基数都不同,而偏离这个基数的信息最重要。Neurovigil 已经有了一个小型设备iBrain,它可以在家里记录你的脑电图信息,将数据传到网上并分析数据的长期趋势和异常情况。这可以帮助医生及早发现健康问题,在恶化前及时干预并阻止慢性疾病的发展。其他很多疾病的治疗也将受益于持续监测,如1 型糖尿病,血糖水平可以被监测并通过胰岛素进行调节。使用能够连续记录数据的廉价传感器正在对其他慢性疾病的诊断和治疗产生重大影响。
从Neurovigil 的发展过程中可以看出:
第一,即便拥有更好更廉价的技术,也不代表能轻易地将其转化为有市场价值,甚至更优质的新产品或服务;
第二,当现有产品在市场中的地位根深蒂固,就会进一步开发出深入应用的二级市场,可以让新技术产生更直接的影响,并争取时间来改进,提升竞争力。太阳能和许多其他新兴产业的技术就是这样进入市场的。从长远来看,已被证实具有优势的睡眠监测和新技术将会覆盖到家中的患者,并最终融入医疗实践。