研究人员对AI的诊断有多少信心?

原标题:“6秒读心”是什么黑科技?

原创 FRENCH 神经现实 来自专辑深度 | Deep-diving
自杀干预的新手段
2016年,辛辛那提市校园内青少年的自杀率激增,儿童福利院的行为健康主管黛比·金瑞奇(Debbie Gingrich)眼见事态恶化,但原因不明。自杀是美国青年的第二大死因,过去15年辛辛那提市的自杀率基本保持稳定,如今却出现剧增,令人担忧。到了2017年1月,增长的趋势仍在继续。
据报道,一名8岁男童在被校园霸凌后自杀,不久之后,另有6名学生也选择结束了他们的生命。家长和学校都心急如焚,当地医疗部门迫切需要一种手段,以找出自杀风险最高的孩子。金瑞奇说:“检查是否骨折,拍个X光就能知道,但在心理健康领域却缺乏有效的工具,每个人都想知道,为了挽救生命,我们能做些什么?”
作为解决方案之一,辛辛那提市各级学校决定尝试一项实验性的人工智能技术。据称,该技术能检测人类语言中是否隐藏有自杀倾向。该机器学习算法的开发者约翰·佩斯蒂安(John Pestian)是辛辛那提市儿童医院医学中心(Cincinnati Children’s Hospital Medical Center)的生物医学信息学与精神病学教授。该算法将细致筛查患者录音并分析信号组合,其中有些是人类无法察觉的,如:音调的细微变化,或词语和音节之间的纳秒级延迟。
该算法的训练集来自于自杀遗言以及近期曾自杀未遂的患者录音。在2016年的一次研究中,佩斯蒂安的团队用379位患者的录音来测试 。第一组患者在过去24小时中曾尝试自杀;第二组患者根据精神鉴定被确诊患有精神疾病,但从未试图自杀;第三组录音的患者均不具有以上两种特征。单是通过扫描录音的内容,佩斯蒂安的算法就能够以85%的准确率将患者正确分类。
2019年春季,佩斯蒂安的算法在几所辛辛那提学校首次测试。在第一阶段,辅导员使用常规手段对学生进行心理健康评估,并同时使用定制的手机APP录音。研究人员想知道声音分析的结果是否与精神病学调查和专家意见一致。
结果算法表现良好,于秋季在20所学校中推行,并记录了上千名学生的访谈。研究人员希望这项技术能够发挥引导作用,让有需要的学生去做进一步的精神病学评估,以阻止悲剧发生。只要能挽救生命,这项技术就是有价值的。
在计算精神病学(computational psychiatry)的新兴领域中,语音分析是一项很有前景的前沿技术,将人工智能工具应用于心理健康领域。用高性能计算机对大量数据进行分类,研究人员对认知、行为和脑功能的模式进行深入分析,以帮助他们理解和检测精神疾病。
在语音方面,原本只有训练有素的精神病学家才能识别某些语言和声音模式,这些程序不仅能自动检测,还能捕捉到一些人耳无法感知的声学线索。尤其是哈佛大学、麻省理工学院、哥伦比亚大学和斯坦福大学的科学家们开发的算法,目前已经能够做到,仅使用短短一分钟的语音(经本人同意收集),就初步筛查出是否患有创伤后应激障碍、抑郁症、精神分裂、精神病和双相障碍。经检验,这些自动分析算法与专业精神病学家的意见达到了70%-100%的吻合度。
心理健康危机在美国蔓延,自杀率达到二战以来的新高点,加上精神病学领域人才稀缺,人们对人工智能寄予厚望。美国国防部正持续资助AI工具的研究,用于检测创伤后应激障碍。比如用于分析战场归来士兵的精神状况,以判断该士兵是否适合重新遣调。
硅谷也正在大力投资,例如,2019年早些时候,谷歌入伙特雷弗项目(The Trevor Project)——为LGBTQ青少年群体做自杀干预的非营利组织。该项目将使用谷歌专利技术,来检测分析声音和文字中的人类情感,分析患者可能的自杀风险,向学校辅导员发出预警。
谷歌参与的特雷弗项目

来源:thetrevorproject.org
从智能手机和社交媒体上收集而来的,来自真实世界的大量数据(也许有一天像亚马逊的Alexa或Google Home这样的语音助手也能成为采集源),正在帮助科学家们研发临床工具,这些工具将有希望以远程无创的方式扫描精神疾病,且成本低廉。
“不用活检,甚至不用抽血,只要给他们录音就行了。”查尔斯·R·马玛(Charles R. Marmar)说道,他是纽约大学医学院的精神病学系主任,专门研究创伤后应激障碍。
新技术带来方便,也带来一系列问题,既有临床方面的,也有道德上的。该由谁来收集这些数据,又该让谁来分析?研究人员对AI的诊断有多少信心?如果机器对一个人的心理健康给出了错误评估,又该怎么做才能避免危险的后果?
心理健康的诊断难题
美国每年在心理健康服务上的花费超过2010亿美元,是所有疾病治疗中开销最大的一个类目,但依然供不应求。美国半数以上的区县没有社区福利工作者、心理学家或精神病学家。心理健康不像其他医学领域,没法用血检或生物标记来加快诊断,还是主要依赖专家一对一的谈话和观察,非常耗时。
即使这样,心理健康诊断的准确性也还远远不够。严重精神疾病是根据《精神疾病诊断与统计手册》(Diagnostic and Statistical Manual of Mental Disorders)来分类的,但不同疾病的诊断标准之间存在着相当大的重叠。
例如,焦虑症的症状“注意力集中困难和精力水平改变”,也可指向双相障碍、创伤后应激障碍或抑郁症。根据2018年发表在《美国医学会杂志-精神病学》(JAMA Psychiatry)上的一项研究,至少有一半的患者收到过不止一种精神病学诊断,有时需要花费数年才能确定哪个是正确的。
2013年,就在《精神疾病诊断与统计手册》第五版出版前夕,美国国立精神卫生研究院(National Institute of Mental Health,或称NIMH)院长托马斯·英赛尔(Thomas Insel)对这本参考书感到十分失望,甚至在NIMH网站的院长博客上公开声明,此手册“缺乏科学逻辑”、“精神疾病患者需要更科学的诊断标准”。
英赛尔倡导将研究重点从《精神疾病诊断与统计手册》的疾病分类上转移——少关注症状,多关注引起疾病的原因,英赛尔称这是实现“精确诊疗”的第一步。NIMH的一个研究组开始制定新的心理健康疾病分类系统,该分类系统的标准之一便是语言。
英赛尔认为,自然语言处理结合了数据科学和语言学,也许在心理健康领域会成为具有颠覆性的生物标记,为心智的状态提供客观的衡量标准。英赛尔目前是Mindstrong健康技术公司的董事长,该公司通过手机交互数据来衡量心理健康。他们认为,通过信息技术引领心理健康诊断和治疗,很有前景。他说:“在今后的十年里,使用AI工具对语言进行分类可能会改变心理健康领域,该工具为社区健康工作者和急诊室内科医生提供的协助几乎相当于一名资深的临床医生。”
将语言作为诊断依据的历史,和精神病学领域本身一样久远。众所周知,西格蒙德·弗洛伊德就曾受口误的启发,他相信口误可以揭示一些潜意识的欲望。20世纪初,瑞士心理学家尤金·布洛勒和他当时的助理卡尔·荣格倡导使用字词联想(word association),这是精神分析中观察性和实验性检测方法最早的应用之一。反应的延迟或字词联想的不和谐可能暗示着心理冲突,可以帮助诊断。
二战之后,除了语言内容,研究人员还开始关注语音中的声学内容或语音本身隐含的意义。例如,NASA也开始为宇航员录制语音采样,结合其他测量标准,来分析他们的压力水平;而20世纪90年代,美国国防部也开始测试使用声音分析来测谎,以取代饱受诟病的测谎仪。
如今,精神病学家经相关训练,在同患者面谈时会寻找语音特征:反常的健谈可能暗示双相障碍的轻度躁狂发作;音高降低和语速变慢可能暗示重度抑郁;语句含义或句子之间出现不和谐的中断可能暗示精神分裂。
通过测量语言来量化精神疾病,始于20世纪80年代,当时马里兰大学的精神病学家沃尔特·温特劳布(Walter Weintraub)开始人工统计谈话和医学面谈中的词语。
温特劳布注意到,患者谈话中出现“我”(I, me)这个词的比例增加,便和抑郁症高度相关。十年后,美国社会心理学家詹姆斯·彭尼贝克(James Pennebaker)开发了一款软件,能对词语进行计数并将其归类到80多个语言学分类中——例如,表达洞察力或消极情绪的词语分类。语言偏向其中某些分类,则与心理健康问题有关。
对心理疾病声学特征的分析则始于2000年左右,当时范德比尔特大学和耶鲁大学的一个团队发现,语音“能量”(voice power)的波动比其他特征更适合作为抑郁症和自杀倾向的指标。
近年来,AI技术的进步,改变了人们对语音的理解。如今机器能够对海量数据进行分类,分析出人类发现不了的模式。
健康技术公司NeuroLex Diagnostics致力于开发语音分析工具以帮助初级护理医生诊断精神分裂症,据其CEO及创始人吉姆·薛沃贝尔(Jim Schwoebel)说,过去十年里,手机录音技术有所改善,还出现了自动文字转录功能,在该领域起到关键作用,使大规模的精密研究首次成为可能。
过去几年中,科学家持续改善分析工具,有时候会根据从社交媒体中提取的大量样本数据来设计研究,而不仅限于实验室内的小范围人群。
例如,宾夕法尼亚大学的世界福祉计划(World Well-Being Project)和纽约长岛石溪大学的研究人员正持续从社交媒体收集文字语言样本。最近,他们发表了一项研究,展示了其中一个AI项目是如何训练的——经683名用户同意,将他们的脸书翻了个底朝天。其中有114名用户的医疗记录显示他们曾有过抑郁症的诊断。该AI项目可以做到早于临床医生三个月预测出病情。
人们公开分享想法和情感,形成巨大的数据库,再用上计算机的算力进行筛选、寻找语言模式:互联网已成为一座语言实验室。
AI语音分析具有哪些优势?
但随着计算机学会检测,连训练有素的精神病学家也无法捕捉的声音变化,AI真正能够有所突破的领域,还是在于说话的声音。例如,在美国国防部资助的一项研究中,一支来自纽约大学兰格恩医学中心(Langone Medical Center)的研究队伍正在和非营利研究机构斯坦福国际研究院(SRI International)合作,后者曾负责开发苹果的语音助手Siri。2019年春季,这支合作队伍发表了研究结果,表明他们的程序分辨出了声音中极其细微的特征,可用于诊断创伤后应激障碍,并达到了89%的准确度。
“讲话”这一行为,比其他任何人类活动都要用到更多的运动神经纤维——把信息传递到肌肉和腺体的神经。讲话涉及到的喉部、口面部和呼吸系统的肌肉多达一百多块,产生神经学上的复杂行为,从而引起微妙的声音变化。
斯坦福国际研究院的工程师从人类声音中分离出了40,526项特征,并让他们的程序分析了129名伊拉克战争和阿富汗战争老兵半小时的语音采样。另一支由纽约大学精神病学家查尔斯·马玛(Charles Marmar)领导的研究队伍,能够分辨18种所有人都有、但创伤后应激障碍患者与众不同的声音特征。
特征包括:音高范围更窄(高音低音较少)、慎重的清晰发音更少、韵律更为单调,以及由喉部肌肉紧张或唇舌相触所引起的声音变化。
马玛说:“我们认为,这18种特征可能是高度焦虑的表现,但并非如此。这些特征表现为语音单调、语速慢、语流稳定、音调较平、相对没有活力。换句话说就是,无精打采、无调性、无感情。”马玛认为,原因也许是参加研究的老兵已离开战区5—8年,在这么长的窗口期里,他们要面对长期的压力,还有酗酒等其他问题,可能导致他们将情感麻木作为一种防御机制。
马玛的团队现准备再做一次分析,这次使用的样本包括男性和女性、退伍军人和非退伍军人。如果AI表现依然良好,他们计划使用该程序测试一种创伤后应激障碍新药,通过研究一组退伍军人接受治疗前后的声音品质,来判断该新药的有效性。
AI的另一项复杂且关键的任务,是预测未来的心理健康事件,例如精神病发作——可能表现为妄想和语无伦次。有证据表明,心理疾病越早发现和治疗,预后越好。因此,预测能力将格外有价值。
吉利尔莫·塞奇(Guillermo Cecchi)是纽约IBM的计算机生物学家,他负责的实验室是该领域的领跑者。塞奇和他的团队正在开发一款能自动分析语音的手机应用。据2018年发表的一项研究,他的算法仅使用面谈中收录的几分钟语音,就能识别出哪些人在接下来的两年半时间里会患上精神病。它的准确率达79%,另外两项研究也验证了它的可靠性。该计算机模型的表现也超越了其他一些记录大脑活动的先进扫描技术,例如神经成像和脑电图。
塞奇说:“语言是观测心理活动的最好窗口之一,曾经主要依靠训练有素的精神病学家或神经学家所特有的经验来判断,如今我们可以使用机器学习技术和AI技术来量化。”他设想,这样的工具作为“心灵的听诊器”,在每一位精神病学家、神经学家和社区福利工作者的办公室里随处可见,存在于每一位患者的口袋里。
人声分析,其结果可靠吗?
但这仅是前期的努力,要达到广泛的应用,仍存在一些障碍。其中之一便是缺少优质训练数据,用来训练当前阶段AI的声音样本量仍然相对较少。即使是目前最严谨的模型,其学习数据最多也就来自区区数百位经专业诊断的精神病患者。出于医疗隐私的考虑,要收集更多的样本并在研究人员当中共享,可能存在困难——隐私问题制约着医疗AI项目的方方面面。
波士顿贝斯以色列女执事医学中心(Beth Israel Deaconess Medical Center)数字化精神病学部门主管约翰·托罗斯(John Torous)说道:“这些试验性项目向我们展示了声音分析的可行性,可谓令人振奋,但这仅仅只是开端,因为我们还无法获取到足够临床有效的可用数据,我们需要的数据量至少要达到人口学级别。”大部分研究人员认为,AI项目获取到的样本数量需要达到数万,才能确保算法的有效性。
样本数量过少,带来的最大问题之一,就是当遇到一种没有经过充分训练的语音模式——例如一种亚文化语言,AI可能会表现不佳。例如,苹果的语音助手Siri,在处理苏格兰用户的问题和指令时,至今仍有些吃力。IBM的塞奇注意到,研究参与者大部分都来自相似的社会经济和语言学群体,现有的AI算法经过这样的训练,识别出的声学线索,也许并不适用于其他群体。塞奇说:“声音的时间结构,以及韵律,我们研究的这些特点在不同文化中都有所差异。”
但与道德问题比起来,这些困难也许都是小巫见大巫。众所周知,人们担心AI可能反映出人类的偏见。AI的学习数据来自于人类精神病学家,它做出的诊断,也许准确度与人类别无二致。但我们都知道,当前的心理健康领域存在着种族歧视。例如,同样的症状,比起白人患者,非裔美国人更可能被诊断为精神分裂,而不太可能被诊断为心境障碍。因此,AI可能会直接采用这些错误结论,并造成更大规模的误诊。
解决方法之一,是提高AI模型的“可解释度”(explainability)。机器学习算法通常被看作是“黑箱”模型,只呈现结果,完全不告诉研究者机器是如何得到最终答案的。美国海军人工智能研究中心与DARPA和IBM合作,正协同开发新的AI,能够解释它是如何得出结论的。
其他团队正在开发另一种AI,能够有效呈现预测中包含的不确定性。在医师给出临床意见时,“高解释度”的信息能告诉医师AI的预测有多少参考价值。塞奇说:“AI的可解释度十分重要,不断调试‘高解释度’的AI,才能明晰AI的结论从何而来。”