(JY編譯)科技巨頭Open AI宣稱,他們的開源語音轉文字工具Whisper由人工智能驅動,並且其性能在穩健性和準確性上接近人類的水平。
但是,Whisper存在一個重大缺陷︰據受訪的十幾位軟體工程師、開發人員和學術研究人員表示,它有時會錯誤地產生不存在的文本。這種現象在行業中被稱為「幻覺」(hallucinations),可能會導致產生帶有種族主義傾向的評論、暴力言論或不存在的醫療建議等敏感內容。
由於Whisper被廣泛應用於全球多個行業,包括翻譯訪談、生成消費技術產品中的文本以及視頻字幕的製作,其錯誤或虛構內容的生成可導致嚴重的誤解和信息錯誤傳播。專家認為這種情況需要關注和解決,以避免可能的負面影響。
他們表示,更令人擔憂的是,儘管Open AI警告稱該工具不應在「高風險領域」中使用,但醫療中心卻匆忙採用基於Whisper的工具來轉錄患者與醫生的諮詢對話。
問題的嚴重程度難以確定,但研究人員和工程師表示,他們在工作中經常遇到Whisper的「幻覺」。例如,密西根大學的一位研究人員在對公共會議進行研究時發現,在他開始嘗試改進模型之前,他所檢查的每10份音訊轉錄中就有8份存在「幻覺」。
另一位機器學習工程師指出,在他分析的100多個小時的Whisper轉錄中,他最初發現了大約一半的「幻覺」。第三位開發人員說,在他用Whisper產生的26,000個轉錄中,幾乎每一個都有「幻覺」。
即使在音質清晰且時間較短的音訊樣本中,Whisper轉錄工具產生錯誤內容的問題仍然存在。計算機科學家的一項最新研究發現,在他們檢查的13,000多個清晰音訊樣本中,發現了187個「幻覺」。
研究人員表示,這種情況若持續存在,將在全球累積產生大量不準確的轉錄。
去年還是拜登政府的白宮科學和技術政策辦公室的負責人阿隆德拉·納爾遜(Alondra Nelson)認為,這種技術工具的錯誤在醫院等關鍵環境中,會造成「非常嚴重的後果」。
新澤西州普林斯頓高等研究所教授尼爾森說︰「沒有人希望被誤診。醫療技術應用應該有更高的準確性和可靠性標準。」
Whisper也被用於為聾人和聽力障礙者製作隱藏式字幕——這一人群特別容易受到錯誤轉錄的影響。高立德大學(Gallaudet University)技術獲取計劃的負責人、失聰人士克里斯蒂安·沃格勒(Christian Vogler)表示,這是因為他們特別依賴字幕來理解視頻內容,但無法通過聽覺來驗證信息的準確性。
專家呼籲Open AI解決問題
Whisper軟體在生成文字時經常出現「幻覺」的問題,導致一些專家、倡導者和Open AI的前員工呼籲政府對人工智能進行更嚴格的監管。他們表示,為了防止這種技術問題帶來的潛在風險,Open AI至少應採取措施解決此技術缺陷。
舊金山的研究工程師威廉桑德斯(William Saunders)說︰「如果Open AI願意把解決『幻覺』問題作為優先事項,這似乎是可以解決的。」他今年2月因對Open AI的發展方向感到擔憂而辭職。同時,他指出了一個關鍵問題,即如果Open AI在沒有徹底解決這一缺陷的情況下就推廣其技術,「人們對這項技術的功能過於樂觀,從而在多個系統中廣泛應用,那就有問題了。」
一位Open AI發言人表示,該公司一直在尋找解決方案,並對研究人員的發現表示感謝,同時補充說,這些回饋融入他們的產品更新和改進中。
通常,開發者預期轉錄工具可能會有拼字或其他類型的錯誤,這些是常見的技術缺陷。然而,根據工程師和研究人員觀察,Whisper在產生錯誤內容方面,尤其是產生與原始音訊不符的完全虛構文字方面,出現的頻率遠超其他同類工具。
Whisper幻覺
Whisper不僅整合到Open AI旗艦聊天機器人ChatGPT的一些版本中,也內建在甲骨文和微軟的雲端運算平台中,這些平台為全球數千家公司提供服務。此外,Whisper的功能不限於轉錄,還包括將文字翻譯成多種語言的能力。
光是上個月,開源人工智能平台HuggingFace最近一個版本的Whisper就被下載了420多萬次。該平台的機器學習工程師桑吉特甘地(Sanchit Gandhi)表示,Whisper是最受歡迎的開源語音辨識模型,從呼叫中心到語音助理都內建了它。
康乃爾大學的艾莉森·科內克(Allison Koenecke)教授和弗吉尼亞大學的莫娜·斯隆(Mona Sloane)教授分析了他們從卡內基梅隆大學(Carnegie Mellon University)主的研究資料庫TalkBank中獲得的數千個簡短音訊片段。她們發現了一個關鍵問題,有接近40%的語音辨識技術產生的錯誤轉錄可能會對使用者造成負面影響。
她們揭示的一個例子中,某人在表達中略顯猶豫說︰「他,那個男孩,打算,我也不太清楚,拿起雨傘。」但轉錄軟體添加了完全不相關且極具誤導性的內容︰「他拿了一大塊十字架,一小塊碎片……我肯定他沒有恐怖刀,所以他殺了很多人。」
在另一段錄音中,原始錄音中的發言人僅僅描述了「另外兩個女孩和一位女士」三個人的存在,沒有提到任何有關種族的信息。然而,Whisper編造了有關這些人種族的描述︰另外兩個女孩和一位女士,嗯,是黑人。在第三個轉錄中,Whisper編造了一個不存在的藥物,名為「超活性抗生素」。
軟體開發人員指出,這些錯誤通常發生在錄音中有停頓、背景噪音或音樂時。可能在這些情況下,語音辨識演算法難以準確區分和解析正在說話的內容,從而導致錯誤地填補或編造信息以嘗試使轉錄連貫。
Open AI在其線上揭露中建議,不要在「決策相關的環境中」使用Whisper,因轉錄錯誤導致的信息失真都可能引發嚴重後果。
轉錄醫生預約信息
Open AI明確警告了Whisper在決策相關環境中的潛在風險,但醫院和醫療中心仍在使用這類技術。他們這樣做的主要目的是為了提高效率,減少醫生和醫療人員在手寫記錄或電子報告編寫上的時間。
包括明尼蘇達州的曼卡托診所(Mankato Clinic)和洛杉磯兒童醫院在內的30,000多名臨床醫生和40個醫療系統,已經開始使用由Nabla開發的基於Whisper的工具。Nabla在法國和美國都設有辦事處。
Nabla的首席技術官馬丁·萊森(Martin R人工智能son)說,為確保工具能有效服務於醫療領域,對其進行了針對醫學領域的專業語言的調整和優化,以轉錄和總結病人的互動。
公司官員表示,他們意識到Whisper可能產生「幻覺」,並正在解決這一問題。
萊森指出,由於「資料安全原因」,Nabla的工具在轉錄完成後刪除原始音頻,因此無法將人工智能生成的轉錄與原始錄音進行比較。
Nabla公司稱,該工具已用於轉錄約700萬次就診記錄。
前Open AI工程師桑德斯認為,如果在沒有確保轉錄內容的準確性的情況下刪除原始錄音,會導致誤診或其他醫療錯誤。原始錄音的保留可以作為一種安全措施,使醫生在必要時能夠回溯和核實轉錄的內容。
Nabla公司表示,目前的轉錄模型無法做到完美無缺,因此需要醫療專業人員對人工智能產生的轉錄筆記進行審查和修改,但這種後期編輯的做法可能會改變。
隱私問題
因為患者和醫生之間的對話具有高度的隱私性,這限制了外部監督和評估人工智能轉錄效果的可能性。
加州的一位立法者麗貝卡·鮑爾-卡漢(Rebecca Bauer-Kahan)說,今年早些時候,她帶著自己的一名孩子去看醫生,並拒絕簽署醫療網絡提供的表格,該表格尋求她的許可以與包括微軟Azure在內的供應商共享諮詢音頻,而微軟Azure是Open AI最大的投資者運營的雲端運算系統。鮑爾-卡漢直言,她不希望與科技公司分享如此私密的醫療對話。
在加州議會中代表舊金山郊區部分地區的民主黨人鮑爾-卡漢說︰「該表格明確指出營利性公司有權獲得這些音頻。我當時的反應是『絕對不行』。」
盈利性企業可能會如何使用這些敏感信息,包括但不限於廣告目的或其他商業利益,這可能會危害到病患的隱私安全。此類問題在當今社會日益成為焦點,特別是隨著數據驅動的商業模式在全球範圍內不斷擴展。
John Muir醫療系統發言人本·德魯(Ben Drew)強調,他們的操作和資料處理遵循適用的州和聯邦隱私法律,確保病患信息的保密性和安全性。
圖:Openai whisper截圖