(JY编译)科技巨头Open AI宣称,他们的开源语音转文字工具Whisper由人工智能驱动,并且其性能在稳健性和准确性上接近人类的水平。
但是,Whisper存在一个重大缺陷︰据受访的十几位软体工程师、开发人员和学术研究人员表示,它有时会错误地产生不存在的文本。这种现象在行业中被称为「幻觉」(hallucinations),可能会导致产生带有种族主义倾向的评论、暴力言论或不存在的医疗建议等敏感内容。
由于Whisper被广泛应用于全球多个行业,包括翻译访谈、生成消费技术产品中的文本以及视频字幕的制作,其错误或虚构内容的生成可导致严重的误解和信息错误传播。专家认为这种情况需要关注和解决,以避免可能的负面影响。
他们表示,更令人担忧的是,尽管Open AI警告称该工具不应在「高风险领域」中使用,但医疗中心却匆忙采用基于Whisper的工具来转录患者与医生的咨询对话。
问题的严重程度难以确定,但研究人员和工程师表示,他们在工作中经常遇到Whisper的「幻觉」。例如,密西根大学的一位研究人员在对公共会议进行研究时发现,在他开始尝试改进模型之前,他所检查的每10份音讯转录中就有8份存在「幻觉」。
另一位机器学习工程师指出,在他分析的100多个小时的Whisper转录中,他最初发现了大约一半的「幻觉」。第三位开发人员说,在他用Whisper产生的26,000个转录中,几乎每一个都有「幻觉」。
即使在音质清晰且时间较短的音讯样本中,Whisper转录工具产生错误内容的问题仍然存在。计算机科学家的一项最新研究发现,在他们检查的13,000多个清晰音讯样本中,发现了187个「幻觉」。
研究人员表示,这种情况若持续存在,将在全球累积产生大量不准确的转录。
去年还是拜登政府的白宫科学和技术政策办公室的负责人阿隆德拉·纳尔逊(Alondra Nelson)认为,这种技术工具的错误在医院等关键环境中,会造成「非常严重的后果」。
新泽西州普林斯顿高等研究所教授尼尔森说︰「没有人希望被误诊。医疗技术应用应该有更高的准确性和可靠性标准。」
Whisper也被用于为聋人和听力障碍者制作隐藏式字幕——这一人群特别容易受到错误转录的影响。高立德大学(Gallaudet University)技术获取计划的负责人、失聪人士克里斯蒂安·沃格勒(Christian Vogler)表示,这是因为他们特别依赖字幕来理解视频内容,但无法通过听觉来验证信息的准确性。
专家呼吁Open AI解决问题
Whisper软体在生成文字时经常出现「幻觉」的问题,导致一些专家、倡导者和Open AI的前员工呼吁政府对人工智能进行更严格的监管。他们表示,为了防止这种技术问题带来的潜在风险,Open AI至少应采取措施解决此技术缺陷。
旧金山的研究工程师威廉桑德斯(William Saunders)说︰「如果Open AI愿意把解决『幻觉』问题作为优先事项,这似乎是可以解决的。」他今年2月因对Open AI的发展方向感到担忧而辞职。同时,他指出了一个关键问题,即如果Open AI在没有彻底解决这一缺陷的情况下就推广其技术,「人们对这项技术的功能过于乐观,从而在多个系统中广泛应用,那就有问题了。」
一位Open AI发言人表示,该公司一直在寻找解决方案,并对研究人员的发现表示感谢,同时补充说,这些回馈融入他们的产品更新和改进中。
通常,开发者预期转录工具可能会有拼字或其他类型的错误,这些是常见的技术缺陷。然而,根据工程师和研究人员观察,Whisper在产生错误内容方面,尤其是产生与原始音讯不符的完全虚构文字方面,出现的频率远超其他同类工具。
Whisper幻觉
Whisper不仅整合到Open AI旗舰聊天机器人ChatGPT的一些版本中,也内建在甲骨文和微软的云端运算平台中,这些平台为全球数千家公司提供服务。此外,Whisper的功能不限于转录,还包括将文字翻译成多种语言的能力。
光是上个月,开源人工智能平台HuggingFace最近一个版本的Whisper就被下载了420多万次。该平台的机器学习工程师桑吉特甘地(Sanchit Gandhi)表示,Whisper是最受欢迎的开源语音辨识模型,从呼叫中心到语音助理都内建了它。
康乃尔大学的艾莉森·科内克(Allison Koenecke)教授和弗吉尼亚大学的莫娜·斯隆(Mona Sloane)教授分析了他们从卡内基梅隆大学(Carnegie Mellon University)主的研究资料库TalkBank中获得的数千个简短音讯片段。她们发现了一个关键问题,有接近40%的语音辨识技术产生的错误转录可能会对使用者造成负面影响。
她们揭示的一个例子中,某人在表达中略显犹豫说︰「他,那个男孩,打算,我也不太清楚,拿起雨伞。」但转录软体添加了完全不相关且极具误导性的内容︰「他拿了一大块十字架,一小块碎片……我肯定他没有恐怖刀,所以他杀了很多人。」
在另一段录音中,原始录音中的发言人仅仅描述了「另外两个女孩和一位女士」三个人的存在,没有提到任何有关种族的信息。然而,Whisper编造了有关这些人种族的描述︰另外两个女孩和一位女士,嗯,是黑人。在第三个转录中,Whisper编造了一个不存在的药物,名为「超活性抗生素」。
软体开发人员指出,这些错误通常发生在录音中有停顿、背景噪音或音乐时。可能在这些情况下,语音辨识演算法难以准确区分和解析正在说话的内容,从而导致错误地填补或编造信息以尝试使转录连贯。
Open AI在其线上揭露中建议,不要在「决策相关的环境中」使用Whisper,因转录错误导致的信息失真都可能引发严重后果。
转录医生预约信息
Open AI明确警告了Whisper在决策相关环境中的潜在风险,但医院和医疗中心仍在使用这类技术。他们这样做的主要目的是为了提高效率,减少医生和医疗人员在手写记录或电子报告编写上的时间。
包括明尼苏达州的曼卡托诊所(Mankato Clinic)和洛杉矶儿童医院在内的30,000多名临床医生和40个医疗系统,已经开始使用由Nabla开发的基于Whisper的工具。Nabla在法国和美国都设有办事处。
Nabla的首席技术官马丁·莱森(Martin R人工智能son)说,为确保工具能有效服务于医疗领域,对其进行了针对医学领域的专业语言的调整和优化,以转录和总结病人的互动。
公司官员表示,他们意识到Whisper可能产生「幻觉」,并正在解决这一问题。
莱森指出,由于「资料安全原因」,Nabla的工具在转录完成后删除原始音频,因此无法将人工智能生成的转录与原始录音进行比较。
Nabla公司称,该工具已用于转录约700万次就诊记录。
前Open AI工程师桑德斯认为,如果在没有确保转录内容的准确性的情况下删除原始录音,会导致误诊或其他医疗错误。原始录音的保留可以作为一种安全措施,使医生在必要时能够回溯和核实转录的内容。
Nabla公司表示,目前的转录模型无法做到完美无缺,因此需要医疗专业人员对人工智能产生的转录笔记进行审查和修改,但这种后期编辑的做法可能会改变。
隐私问题
因为患者和医生之间的对话具有高度的隐私性,这限制了外部监督和评估人工智能转录效果的可能性。
加州的一位立法者丽贝卡·鲍尔-卡汉(Rebecca Bauer-Kahan)说,今年早些时候,她带着自己的一名孩子去看医生,并拒绝签署医疗网络提供的表格,该表格寻求她的许可以与包括微软Azure在内的供应商共享咨询音频,而微软Azure是Open AI最大的投资者运营的云端运算系统。鲍尔-卡汉直言,她不希望与科技公司分享如此私密的医疗对话。
在加州议会中代表旧金山郊区部分地区的民主党人鲍尔-卡汉说︰「该表格明确指出营利性公司有权获得这些音频。我当时的反应是『绝对不行』。」
盈利性企业可能会如何使用这些敏感信息,包括但不限于广告目的或其他商业利益,这可能会危害到病患的隐私安全。此类问题在当今社会日益成为焦点,特别是随着数据驱动的商业模式在全球范围内不断扩展。
John Muir医疗系统发言人本·德鲁(Ben Drew)强调,他们的操作和资料处理遵循适用的州和联邦隐私法律,确保病患信息的保密性和安全性。
图:Openai whisper截图