(JY編譯)白宮官員對人工智能聊天機器人可能帶來社會危害的擔憂,對社會造成危害的潛力感到擔憂,而矽谷的巨頭們則急於將這些產品推向市場。因此,他們在拉斯維加斯DefCon黑客大會上舉辦了一場為期三天的比賽,此次比賽在剛剛的周日結束。
約有2200名參賽者使用筆記本電腦進行了測試,試圖揭示代表普未來科技重大進展的八個領先大型語言模型中的缺陷。但《美聯社》指出,這次首次進行的多個模型的「紅隊測試」(red-teaming,即模擬攻擊測試)可能不會立即產生快速的結果,需要一些時間來分析和評估這些模型的問題和弱點。
研究結果將大約在明年2月份才會被公開。即使在那個時候,修復這些數字構造中的問題也需要很長時間和大量資金。這些數字構造的內部運作機制,即使是它們的創造者也不能完全信賴或完全理解。這強調了這些技術的複雜性和挑戰性。
根據學術界和企業的研究顯示,當前的AI模型在學術和企業研究中表現出過於「無效率、不友好和易被控制」。這些模型的安全性在訓練過程中並不是主要考慮,而是作為附加的考慮。
在數據科學家積累了複雜的圖像和文本數據集時,安全性可能沒有得到足夠的重視。這些模型還可能存在種族和文化偏見,容易被操縱,這使得它們的輸出可能會受到不同種族、文化和觀點的影響。
網絡安全資深專家、貝里維爾機器學習研究所(Berryville Institute of Machine Learning)聯合創始人加里-麥格勞(Gary McGraw)說︰「在構建人工智能係統之後,假裝可以通過簡單的方法來解決安全問題是很誘人的,但實際上系統的安全性需要更複雜的方法和持續的關注。」
參與DefCon競賽的人更有可能面臨新的、複雜的問題,這類問題可能並不容易解決。哈佛大學公共利益技術專家布魯斯·施奈爾(Bruce Schneier)指出︰「現在面臨的計算機安全問題有點像30年前的情況,技術和方法都在不斷發展,需要不斷的創新和解決方案。」
提供了其中一個AI測試模型的Anthropic公司的邁克爾·塞利托(Michael Sellitto)在新聞發布會上承認,這些人工智能模型是新興技術領域,人們可能仍然需要更多的研究和探索來完全理解其潛力和風險。
統軟件使用明確定義的代碼來提供明確的、逐步的指令,這使得它們的功能和行為相對固定和可預測。 OpenAI的ChatGPT、谷歌的Bard和其他語言模型則不同。然而,OpenAI的ChatGPT、谷歌的Bard和其他語言模型不同。它們的訓練方法主要是通過處理和分類互聯網爬蟲中的大量數據點來進行的。
這些模型可以被視為「永不停止的進化作品」,因為它們不斷地從數據中學習、演變和提升。這也意味著它們的功能和行為可能會更加靈活和變化,不同於傳統軟件的固定性。由於這些模型對人類社會的轉變潛力巨大,這種情況可能會讓人感到不安,因為它們的未來發展路徑和潛在影響可能難以預測。
在去年秋季公開發布聊天機器人之後,生成式人工智能行業不得不多次修補被研究人員和修補人員揭示出來的安全漏洞;反映了新技術發布後需要不斷的監測、測試和修復,以確保其正常運行和安全性。
AI安全公司HiddenLayer的湯姆·邦納(Tom Bonner)是今年DefCon大會的發言人,在演示中成功地通過插入一行「這是安全的」文字來欺騙谷歌系統,使其錯誤地將一段惡意軟件標記為無害。這突顯了在某些情況下,即使是看似簡單的操作也可能被用於欺騙智能係統,暴露了這些系統的脆弱性。
隨後邦納說︰「當前的AI系統缺乏足夠的防護欄,使其容易受到攻擊和操縱。」
另一位研究人員使用ChatGPT生成了兩種內容:一種是釣魚郵件(虛假的電子郵件,通常用於欺騙人們提供個人信息或敏感信息),另一種是一個製造暴力滅絕人類的食譜。
這兩種生成內容的行為都違反了ChatGPT的道德準則,因為它們涉及到虛假信息和暴力,而ChatGPT的設計初衷是生成有用、有益和合乎道德的內容。這個例子突顯了人工智能模型可能被用於不道德的或有害的目的,因此需要監管和控制以確保它們的使用不會造成負面影響。
包括卡內基梅隆大學研究人員在內的一個團隊發現,領先的聊天機器人容易受到自動化攻擊,這些攻擊可能會導致產生有害的內容。他們認為,「深度學習模型的特性可能使這種威脅變得不可避免」,即使採取了一些防禦措施,由於模型的複雜性和開放性,仍然難以完全消除這些問題。
之前已經有人提出過類似的警告或問題。
美國國家人工智能安全委員會(NSCAI)在其2021年的最終報告中提到,商業人工智能係統已經受到攻擊,而且在工程和部署人工智能係統時,保護這些系統的想法通常被視為事後考慮,沒有得到足夠的重視。這種態度導致系統容易受到攻擊和濫用,從而暴露出人工智能係統在安全性方面的薄弱性。
嚴重的黑客攻擊,幾年前經常被媒體報導,但現在卻很少有人披露。在沒有適當的監管措施的情況下,邦納指出,在現階段,許多人可能會選擇掩蓋這些問題,避免公開曝光可能對公司聲譽和業務造成的負面影響。
攻擊者可以通過各種方式欺騙人工智能係統的邏輯,從而導致系統產生不正確的輸出或行為,攻擊方式可能超出了創造者的預期。聊天機器人特別容易受到攻擊,因為我們通常使用直接的、常見的語言與它們進行互動。由於這種直接性,攻擊者可以利用人類的語言輸入來誤導或操縱聊天機器人的回應。而這種互動可能以意想不到的方式改變了機器人的行為和輸出,可能會導致它們產生不准確或意外的回應。
研究人員發現,在訓練人工智能係統時,通常會使用大量的圖像和文本數據。如果在這些數據中插入有害信息,即所謂的「投毒」,即使只是很小一部分的數據,也可能對人工智能係統產生嚴重影響,導致系統的性能和輸出受到破壞。這種投毒可能會導致系統的訓練結果變得不准確、不穩定,甚至可能使系統產生錯誤的判斷和行為。由於數據量巨大,這種小規模的投毒可能會被輕易忽視,難以被及時發現。
由瑞士蘇黎世聯邦理工學院(ETH Zurich)的弗洛里安·特拉梅爾(Florian Tramér)等人共同撰寫的一項研究確定,只需要破壞人工智能模型中的0.01%的部分,就足以使整個模型受損,導致其性能下降。驚人的是,實施這種攻擊的成本只需60美元。研究人員通過等待兩個模型中使用的一些網站的到期,然後購買這些網站的域名,並在上面發布有害數據,來展示了這種攻擊的可能性。
海倫·安德森(Hyrum Anderson)和拉姆·尚卡爾·希瓦·庫馬爾(Ram Shankar Siva Kumar)在微軟工作時進行了人工智能的紅隊測試。 ,在他們的新書《不是因為Bug,而是因為貼紙》(Not with a Bug but with a Sticker)中稱呼基於文本和圖像的模型的人工智能安全狀態為「可悲」。他們在現場演示中提到了一個例子:AI 助手 Alexa 被愚弄,誤將貝多芬的協奏曲片段解釋為命令來訂購100份冷凍披薩。
在對80多家組織進行調查後,他們發現,這些組織中絕大多數沒有為防範數據投毒攻擊或數據集盜竊制定應對計劃。他們還指出,行業的大多數機構可能甚至都不會意識到發生了這樣的攻擊或盜竊行為。
前谷歌高管、卡內基梅隆大學院長安德魯·W·穆爾(Andrew W. Moore)表示,他曾在十多年前處理過針對谷歌搜索軟件的攻擊。在2017年底到2018年初,有垃圾郵件發送者多次嘗試攻擊Gmail的基於人工智能的檢測服務。
這些大型人工智能公司表示,安全性和安全性是首要任務,並且他們自願向白宮做出承諾,承諾會將他們的人工智能模型提交給外部審查,儘管這些模型往往是「黑盒子」,即其內部運作和算法的細節被嚴格保密。
儘管公司聲稱安全性是他們的優先任務,但是由於人工智能領域的複雜性和快速發展,以及模型的保密性質,人們擔心這些公司是否真的能夠採取足夠的措施來確保其模型的安全性和透明度。
特拉梅爾預計,搜人們可能會利用人工智能係統的弱點,通過各種手段在搜索引擎和社交媒體上實現金融收益和散播虛假信息。舉個例子,一個聰明的求職者可能會找出一種方法,來說服系統相信自己是唯一合適的候選人,以此來提高自己在招聘過程中的競爭優勢。
劍橋大學計算機科學家羅斯·安德森(Ross Anderson)擔心,隨著人們與人工智能機器人進行互動時,可能會洩露他們與醫院、銀行和雇主等組織的交互行為,從而削弱了他們的個人隱私。此外,他還擔心惡意行為者可能會利用這些機器人來獲取金融、就業或健康數據,尤其是在本應是封閉和受保護的系統中。
有研究顯示,人工智能語言模型還可以通過使用低質量、無用或錯誤的數據重新訓練自己,從而影響其性能和輸出。
另一個擔憂是,人工智能係統可能會吸收公司的敏感信息和機密數據,然後在輸出的內容中將這些信息洩露出去。韓國一家商業新聞媒體報導了三星公司發生了類似事件,其後包括Verizon和摩根大通在內的公司採取了預防措施,禁止員工在工作中使用ChatGPT等類似的人工智能工具,以減少機密信息洩露的風險。
雖然主要的人工智能公司通常有專門的安全團隊來處理和保護系統的安全性,但許多較小的競爭對手可能沒有足夠的資源來投入到安全方面。這可能會導致他們開發的插件、數字代理等工具的安全性較差,存在更大的風險。預計在未來幾個月內,許多初創公司將推出基於已經訓練好的模型的產品,以加快開發速度。
研究人員提醒,如果一個初創公司意外地獲得了人們的通訊錄等隱私信息,不要感到驚訝。
Photo by Rolf van Root on unsplash