如果一名医生告知要进行手术,人们肯定首先希望了解为什么——即便对方不具备任何专业的医学知识,医生明确解释诊断理由仍然极其必要。而人工智能也一样。
众所周知,神经网络是出了名的难理解——计算机虽然能够提出一项解决方案,但却无法就产生的结论做出解释。现在,来自Google Brain团队的一名研究科学家Been Kim,正在开发一套“人类翻译器”,希望构建能够向任何人做出解释的AI软件。
约十年前,人工智能背后的神经网络技术开始快速发展,影响了从电子邮件到药物发明等各个领域,同时表现出越来越强大的学习与数据模式识别能力。然而,这种力量本身还带来了一种不容忽视的警告:一方面,现代深度学习网络自主学会如何驾驶汽车以及发现保险欺诈活动具备极高复杂性,同时,也导致其内部运作方式几乎无法被理解——没错,就连AI专家也无法破解个中奥秘。因此,如果我们通过训练神经网络来识别可能存在肝癌、精神分裂症等疾病风险的患者(例如2015年纽约西奈山医院开发的「Deep Patient」深度病患系统),那么结果就是,我们根本无法准确辨别神经网络实际关注的是数据中的哪些特征。这种“知识”全面分布在神经网络的各个层,其中每一层都存在数百甚至成千上万个连接。
随着越来越多行业试图通过人工智能技术实现自身决策,这种类似于“黑匣子”的问题已经不再是一种技术层面的偏执,而成为实实在在的基础性缺陷。美国国防部高级研究计划局(简称DARPA)的“XAI”项目(即可解释AI)正在积极研究这个问题,这意味着,可解释性已经由机器学习的边缘化研究转化为新的探索核心。Kim指出,“人工智能正处于发展的关键时刻,人类正在试图弄清这项技术是否真能为我们带来助益。如果我们无法解决这个可解释性问题,我们将不会继续推进这项技术,甚至有可能将其放弃。”
Kim和谷歌Brain团队的同事们刚刚开发出一套名为“概念激活矢量测试(Testing with Concept Activation Vectors,简称TCAV)”的系统,她将其描述为一种“人类翻译器”,允许用户向黑匣子AI询问某些特定高级概念,从而了解神经网络的推理过程。举例来说,如果机器学习系统经过训练学会了如何发现图像当中的斑马,那么人们就可以利用TCASV来确定这套系统在做出决策时会赋予“条纹”这一概念怎样的权重。
TCAV系统最初是在一套经过训练、拥有图像识别能力的机器学习模型上进行测试的,不过这套系统同时也适用于训练为文本识别以及对某类数据进行可视化处理的模型——例如EEG波形。Kim解释称,“这是一套通用而简单的系统,你可以将其接入多种不同的模型当中。”
我们与Kim谈到了可解释性的具体含义、其用途以及重要意义所在。以下为经过编辑与提炼的访谈内容。
问:您的职业生涯一直专注于机器学习的“可解释性”。但是,可解释性究竟意味着什么呢?
Been Kim:可解释性拥有两大分支。第一大分支是对科学的可解释性:如果你将神经网络视为研究对象,那么就可以通过科学实验以真正理解关于模型的一切细节——例如其如何做出反应,诸如此类。
可解释性的第二大分支,也就是我一直主要关注的方向——对负责任人工智能的解释能力。我们不需要了解模型中的所有细节,但必须通过理解来确定我们能够以安全的方式使用这种工具,这也正是我们设定的目标。
问:那么您要如何对一套不完全了解其运作方式的系统建立信心?
Been Kim:这里我想打个比方。假设我的后院有一棵树,我想把它砍掉,让院子看起来清爽一点。我可能拥有一把能够搞定这项工作的链锯。目前,我还不完全了解链锯的工作原理,但产品手册上提到:“请注意以下事项,以防用户削到手指。”因此根据这本手册的说明,我更倾向于使用电钮而非手锯,因为虽然后者上手难度更低,但我可能得花上5个小时才能完成砍树任务。
也就是说,你能够理解“砍树”是什么意思;如此一来,即使你并不很明白链锯的工作原理,也能够利用它实现这一目标。
没错,可解释性中第二大分支的目标就是:我们是否能够充分理解一种工具,从而以安全的方式加以使用?我们可以将确定有效的人类知识反映到工具当中,进而建立起这种理解。
问:那么,“反映人类知识”的方式是如何让黑匣子AI这类系统具备可理解性的?
Been Kim:下面我想列举另一个例子。如果医生使用机器学习模型进行癌症诊断,那么医生本人肯定希望确保模型当中不存在那些来自我们不希望使用的数据的某些随机相关性。要保障这样的要求,一种可行的方法就是,确定机器学习模型正在以与人类医生类似的方式执行诊断流程。换句话说,也就是将医生自己的诊断知识反映在这套机器学习模型当中。
因此,如果医生们会研究细胞样本以诊断癌症,他们可能会在样本当中寻找一种被称为“融合腺体”的东西。此外,他们可能也会考虑到患者的年龄,以及患者过去是否拥有过化疗经历等等。这些因素正是医生在尝试诊断癌症时所关心的因素或者概念。如果我们能够证明机器学习模型也在关注这些因素,那么该模型的可理解性将显著提升,因为其确实反映出与医生相符的人类知识运用行为。
问:那么,TCAV的起效方式是否也正是如此——即揭示机器学习模型正在使用哪些高级概念来做出决策?
Been Kim:没错。首先我要说明一点,可解释性方法只是解释了神经网络在“输入特征”方面做出的实际操作。可能我说得还不够确切。如果你拥有图像,那么其中的每一个像素都属于输入特征。事实上,Yann LeCun(深度学习的早期先驱,Facebook公司AI研究主管)已经表示,他坚信这些模型具备可解释性。因为我们可以查看神经网络中的每一个节点,并查看每一项输入特征的数值。这些输入特征对于计算机来说是很好的素材,但人类却无法从中直接看出具体意义。毕竟计算机的思维方式类似于“哦,快看,像素数量在100到200之间,RGB值是0,2与0.3。”相比之下,人类会选择完全不同的概念沟通方式,例如“这是一张小狗的图片,而且这只狗的毛非常蓬松。”
问:那么,TCAV是如何在输入特征与概念之间进行这种转换的?
Been Kim:让我们回到医生的例子,医生还是使用机器学习模型,而这套模型已经完成训练从而通过对细胞样本图像的分类诊断潜在癌症。作为医生,你可能希望了解在对癌症做出主动预测时,机器学习模型对于“融合腺体”的具体重视程度。首先,你会收集一些图像——比如说20张图像,其中包含有融合腺体部分。现在,你会将这些带有标记的示例插入到模型当中。
接下来,TCAV在内部会进行一项所谓“敏感度测试。当我们添加这些包含融合腺体的标记图像时,癌症阳性预测的可能性增加了多少?你可以将结果输出为0到1之间的数字。就是这样,这一结果就是您得到的TCAV分数。如果概率增加,则意味着融合腺体对于机器学习模型而言确实是一项重要的概念。反之,如果概率没有增加,则代表模型没有将其视为一项重要概念。
问:“概念”是一种模糊的表达。是否存在某些不适用于TCAV的场景?
Been Kim:如果我们无法使用(数据集)载体中的某些子集来表达自己的概念,那么这套判断系统就没办法起效。如果您的机器学习模型是以图像为基础进行训练的,那么这一概念必须拥有视觉层面的可表达性。举例来说,我们可以想象要如何以视觉方式表达“爱情”这一概念。这真的是一项很困难的任务。
我们也认真验证了这一概念。我们拥有一个统计测试程序,如果某个概念矢量对于模型的影响与随机矢量相同,那么其就会拒绝该概念矢量。如果你提交的概念没有通过测试,那么TCAV会说:“我不知道。这个概念看起来似乎对于模型没什么重要影响。”
问:TCAV的主要作用是在AI当中建立信任,而非真正理解AI模型,是吗?
Been Kim:对,接下来我会解释其中的原因,因为建立信任与理解模型确实存在着重要的区别。
我们从认知科学与心理学的反复研究当中认识到,人类非常容易上当受骗。这意味着,欺骗一个人对某些东西产生信任实际非常容易。但机器学习的可解释性目标恰恰与此相反,它会告诉我们对系统的使用是否安全。换言之,这是在揭示一种真相。所以,我觉得“信任”这个词用在这里并不准确。
问:也就是说,可解释性的核心在于揭示AI推理当中存在的潜在缺陷?
Been Kim:没错,就是这么回事。
问:那么它是如何揭露这些缺陷的?
Been Kim:你可以利用TCAV向经过训练的模型询问一些非相关概念。我们还是以使用AI工具进行癌症诊断的医生为例子,医生可能会突然想到,“看起来机器倾向于把蓝色色彩比例较高的图像视为癌症高发指标。我们认为不应该通过这种方式的考虑问题。”因此,如果他们发现“蓝色”这一输入特征确实拥有更高的TCAV分数,就代表着他们在诊断机器学习模型当中找到了一个问题。
问:TCAV的设计初衷在于处理那些不具备可解释性的现有AI系统。那么,为什么不从开发之初就实现系统的可解释性,而要继续构建这些无法解释的黑匣子型AI?
Been Kim:可解释性研究的一大分支,侧重于构建出能够反映人类推理方式的固有可解释模型。但我的看法是:现在人们已经在几乎各个领域构建起AI模型,这些成果也已经被用于种种重要目标——它们在设计之初并没有考虑到可解释性这项要求。这是事实,我们无法回避。我们在谷歌也拥有大量这样的模型!您当然可以说,“可解释性非常重要,我们应该构建新的模型来取代目前正在使用的原有模型。”道理虽然没错,但可行性真的不太高。
因此,面对这样的情况我们该做些什么?我们仍然需要想办法顺利度过目前的关键时刻,即判断人工智能技术到底能否给我们带来助益。出于这样的考量,我才倾向于使用“训练后”解释方法。如果您拥有一套由他人提供的模型,而且已经无法对模型本身做出改变,那么该如何对其行为生成解释,从而确保整个使用过程安全而可靠?这正是TCAV系统的核心意义所在。
问:TCAV允许人们向AI发问,借此了解某些特定概念在决策过程中的重要性水平。然而,如果我们不清楚该如何发问——如何我们希望AI系统能够自我解释,又该怎样实现?
Been Kim:我们目前正在构建新的方案,旨在自动为模型使用者发现概念。我们将其称为DTCAV,也就是“发现TCAV”。但实际上,我认为让人类进入整个循环,从而实现机器与人之间的对话才是实现可解释性的关键。
对于大多数高风险应用场景而言,相关领域的专家已经拥有了自己关注的一整套概念清单。我们在谷歌Brain团队的医疗应用当中已经一次又一次意识到这种状况的真实性。实际上,使用者并不需要从他处获取这些相关概念——他们已经拥有重要的概念储备,并希望把自己的关注点提交给模型。我们与一位治疗糖尿病视网膜病变(一种眼科疾病)的医生一同工作,当我们向她介绍TCAV系统的时候,她感到非常兴奋。因为她自己已经拥有大量关于这套模型诊断方法的假设,现在她能够借助这套系统测试这些猜想是否正确。这实际上代表着一种巨大的优势,也是一种强调以用户为中心的机器学习协作方式。
问:您坚信如果无法实现可解释性,人类最终也许会放弃人工智能技术。但考虑到人工智能如此强大,您真的认为人类会因此将这一切扔进垃圾堆吗?
Been Kim:是的,我坚信这一点。实际上,专家系统就曾经经历过同样的情况。上世纪八十年代,我们认为专家系统能够以远低于人类操作人员的成本高效执行某些任务。但是现在,还有谁在使用专家系统?完全没有。而且在那之后,我们开始进入AI技术的寒冬。
就目前来看,彻底放弃的可能性不大,因为人工智能已经成为宣传炒作与投资押注的重要领域。但从长远角度来看,我认为人类最终也许会做出这样的决定。可能是出于对可靠性证明缺失的担忧甚至恐惧,人类将认定人工智能技术并不适合我们。是的,确实存在这种可能性。