圖:加州大學(xué)伯克利分校研究人員發(fā)布的《人人皆為舞王》論文和視頻,展示了深度學(xué)習(xí)算法將專業(yè)舞者的動(dòng)作轉(zhuǎn)移到業(yè)余愛好者身上的場景
在俄羅斯小說家維克多·佩雷溫(Victor Pelevin)的網(wǎng)絡(luò)科幻小說《智人》(Homo Zapiens)中,名叫巴比倫·塔塔斯基(Babylen Tatarsky)的詩人被大學(xué)老友招募,前往莫斯科擔(dān)任廣告撰稿人。憑借其在文字方面的聰明天賦,塔塔斯基迅速爬上了公司高層,他在那里發(fā)現(xiàn),當(dāng)時(shí)有很多事情實(shí)際上都是虛擬模擬的結(jié)果。而隨著越來越復(fù)雜的深度偽造(Deepfake)應(yīng)用出現(xiàn),讓人不禁覺得佩雷溫的設(shè)想似乎正在慢慢變成現(xiàn)實(shí)。
在深度偽造領(lǐng)域,或者研究人員所謂的“合成媒體”領(lǐng)域,大部分注意力都集中在可能對現(xiàn)實(shí)造成嚴(yán)重破壞的換臉以及其他深度學(xué)習(xí)算法帶來的危害上,例如模仿某人的寫作風(fēng)格和聲音。但是合成媒體技術(shù)的另一個(gè)分支正取得快速進(jìn)步,即人體深度偽造。
2018年8月,美國加州大學(xué)伯克利分校的研究人員發(fā)布了名為《人人皆為舞王》(Everybody Dance Now)的論文和視頻,展示了深度學(xué)習(xí)算法如何將專業(yè)舞者的動(dòng)作轉(zhuǎn)移到業(yè)余愛好者身上的場景。雖然這種技術(shù)依然處于早期階段,但它表明機(jī)器學(xué)習(xí)研究人員正在應(yīng)對更困難的任務(wù),即創(chuàng)建全身深度偽造視頻。
同樣在2018年,由德國海德堡大學(xué)圖像處理合作實(shí)驗(yàn)室(HCI)和科學(xué)計(jì)算跨學(xué)科中心(IWR)的計(jì)算機(jī)視覺教授比約恩·奧默爾(Bj?rn Ommer)博士領(lǐng)導(dǎo)的研究小組,發(fā)表了一篇關(guān)于教授機(jī)器以逼真形態(tài)渲染人類身體運(yùn)動(dòng)的論文。今年4月,日本人工智能(AI)公司Data Grid開發(fā)了一種AI應(yīng)用,它可以自動(dòng)生成不存在的人的全身模型,并可以將其應(yīng)用到時(shí)尚和服裝行業(yè)。
雖然很明顯,全身深度偽造技術(shù)具有有趣的商業(yè)應(yīng)用潛力,如在深度偽造舞蹈視頻或體育和生物醫(yī)學(xué)研究等領(lǐng)域,但在當(dāng)今社會中,惡意使用案例越來越令人擔(dān)憂。目前,全身深度偽造技術(shù)還不能完全愚弄人類的眼睛,但就像任何深度學(xué)習(xí)技術(shù)一樣,它正慢慢取得進(jìn)步。全身深度偽造還需要多久就能變得與現(xiàn)實(shí)無法區(qū)分?這可能只是時(shí)間問題。
合成整個(gè)人體
為了創(chuàng)造深度偽造視頻,計(jì)算機(jī)科學(xué)家需要使用生成性對抗網(wǎng)絡(luò)(GANS)。這是由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成的,分別是合成器或稱為生成網(wǎng)絡(luò),以及檢測器或稱鑒別網(wǎng)絡(luò),這些神經(jīng)網(wǎng)絡(luò)在精煉的反饋回路中工作,以創(chuàng)建逼真的合成圖像和視頻。合成器利用數(shù)據(jù)庫創(chuàng)建圖像,而后者從利用其他的數(shù)據(jù)庫,確定合成器給出的圖像是否準(zhǔn)確和可信。
第一次惡意使用深度偽造技術(shù)出現(xiàn)在Reddit上,像斯嘉麗·約翰遜(Scarlett Johansson)這樣的女演員的臉被換到色情演員身上。Fast.AI公司的雷切爾·托馬斯(Rachel Thomas)表示,當(dāng)前95%的深度偽造旨在用合成色情行為圖像騷擾某些人。他說:“這些深度偽造視頻中,有些并不一定使用了非常復(fù)雜的技術(shù)。但是,這種情況正逐漸發(fā)生改變。”
達(dá)特茅斯大學(xué)計(jì)算機(jī)科學(xué)系主席、專門研究打擊視頻偽造的圖像取證專家哈尼·法里德(Hany Farid)指出,深度偽造應(yīng)用Zao說明了這項(xiàng)技術(shù)在不到兩年的時(shí)間里發(fā)展的速度有多快。法里德說:“從Zao身上,我發(fā)現(xiàn)這種技術(shù)已經(jīng)變得非常好,并且抹掉了很多人工痕跡,比如電影版本中的臉部閃爍問題。雖然情況正在改善,但將其大規(guī)模運(yùn)行,下載給數(shù)百萬人,依然很難。這也正是深度偽造技術(shù)成熟的標(biāo)志。”
海德堡大學(xué)的奧默爾教授領(lǐng)導(dǎo)著一個(gè)研究和開發(fā)全身合成媒體的團(tuán)隊(duì)。與該領(lǐng)域的大多數(shù)研究人員一樣,該團(tuán)隊(duì)的總體目標(biāo)是理解圖像,并教授機(jī)器如何理解圖像和視頻。最終,他希望團(tuán)隊(duì)能夠更好地理解人類是如何理解圖像的。
合成面部和整個(gè)身體的過程之間存在著關(guān)鍵性差異。奧默爾說,對人臉合成已經(jīng)進(jìn)行了許多研究,這其中有幾個(gè)原因:首先,任何數(shù)碼相機(jī)或智能手機(jī)都有內(nèi)置的面部檢測技術(shù),這項(xiàng)技術(shù)可用于微笑檢測等任務(wù),或用于識別觀眾正在看的人的身份。這樣的用例可以產(chǎn)生收入,以支持更多的研究。但是,正如奧默爾所說,它們也導(dǎo)致了“大量的數(shù)據(jù)集組裝、數(shù)據(jù)整理和獲取面部圖像,這些都是深度學(xué)習(xí)研究的基礎(chǔ)。”
其次,也是奧默爾更感興趣的,雖然每個(gè)人的臉看起來都不同,但當(dāng)把臉與整個(gè)人體進(jìn)行比較時(shí),它的變化可能更小。奧默爾解釋稱:“這就是為何對臉部的研究已經(jīng)到了瓶頸階段的原因,與整個(gè)人體相比,臉部研究已經(jīng)十分透徹,但身體有更多的可變性,處理起來也更復(fù)雜。如果你在朝那個(gè)方向研究,你會學(xué)到更多的東西。”
奧默爾不確定何時(shí)完全合成的身體將具有他和研究人員想要的質(zhì)量。然而,從惡意深度偽造技術(shù)的日益成熟來看,奧默爾注意到,即使沒有深度學(xué)習(xí)計(jì)算機(jī)視覺智能、AI或其他技術(shù)創(chuàng)建的虛假圖像或視頻,人類非常容易受到欺騙。美國眾議院議長南希·佩洛西(Nancy Pelosi)放慢速度的視頻讓她看起來像是喝醉了酒。這段視頻向奧默爾表明,這種簡單扭曲的深度偽造技術(shù)即將出現(xiàn),并可能會被某些人所利用。
奧默爾說:“但是,如果你想讓它產(chǎn)生更大的吸引力,可能還需要幾年的時(shí)間,那時(shí)全身和其他深度偽造技術(shù)將變得更便宜,更普遍。研究社區(qū)本身已經(jīng)朝著這個(gè)方向前進(jìn),他們需要為我們看到的這種穩(wěn)定進(jìn)步負(fù)責(zé),算法很容易獲得,比如在Github上等等。所以,你可以從某些論文中找到可以下載的最新代碼,然后在沒有太多知識的情況下,應(yīng)用它即可。”
改變事實(shí)真相
并不是每個(gè)人都能創(chuàng)造出深度偽造行業(yè)的“重磅炸彈”。但是若給予更多的時(shí)間,金錢將不再是限制計(jì)算資源的問題,軟件的適用性也將變得更容易。法里德稱,有了全身深度偽造技術(shù),惡意的創(chuàng)作者將能夠使用深度偽造技術(shù)的典型靜態(tài)人物直接對著攝像頭講話,指示目標(biāo)去做他們永遠(yuǎn)不會去做的事情,或說他們不可能說的話。
隨著2017年深度偽造技術(shù)的崛起,調(diào)查記者、佛蘭芒廣播公司駐外記者湯姆·范德韋格(Tom Van De Weghe)開始研究合成媒體。2018年夏天,他開始在斯坦福大學(xué)建立研究獎(jiǎng)學(xué)金,以研究打擊惡意使用深度偽造技術(shù)的方法。他說:“受威脅最大的不是大人物,而是像你、我、女記者這樣的普通人,以及某種程度上的邊緣群體,他們可能成為或已經(jīng)成為深度偽造的受害者。”
兩周前,荷蘭新聞主播迪翁·斯塔克斯(Dionne Stax)的相關(guān)視頻被上傳到某非法網(wǎng)站并在互聯(lián)網(wǎng)上發(fā)布,她的臉被“深度偽造”到了一位色情女演員的身體上。雖然該非法網(wǎng)站迅速刪除了視頻,但范德韋格表示,斯塔克斯的聲譽(yù)已經(jīng)受到損害。
要想了解全身深度偽造技術(shù)的效果,范德韋格提到了2018年CNN駐白宮首席記者吉姆·阿科斯塔(Jim Acosta)的視頻。在Infowars的編輯保羅·約瑟夫·沃森(Paul Joseph Watson)上傳的一段視頻片段中,阿科斯塔似乎在猛推試圖拿走其麥克風(fēng)的白宮工作人員。
但由C-SPAN播放的原始視頻與沃森上傳的視頻內(nèi)容截然不同。沃森聲稱,他沒有篡改視頻片段,并將這種差異歸因于人為的“視頻壓縮”所致。但是,正如《獨(dú)立報(bào)》在編輯時(shí)間線中對視頻進(jìn)行并排分析中所展示的那樣,沃森的視頻與原始視頻相比缺失了幾幀。全身的深度偽造就像編輯視頻幀一樣,可以改變事件的真實(shí)性。
Deeptrace實(shí)驗(yàn)室成立于2018年,是一家網(wǎng)絡(luò)安全公司,它正在構(gòu)建基于計(jì)算機(jī)視覺和深度學(xué)習(xí)的工具,以分析和理解視頻,特別是那些可以被任何類型AI操縱或合成的視頻。公司創(chuàng)始人喬治·帕特里尼(Giorgio Patrini)曾是阿姆斯特丹大學(xué)三角洲實(shí)驗(yàn)室(Delta Lab)深度學(xué)習(xí)的博士后研究員。他說,幾年前他開始研究防止或防范未來對合成媒體濫用的技術(shù)。
帕特里尼相信,惡意的深度偽造視頻由合成的全身、面部和音頻組成,很快就會被用來攻擊記者和政客。他指著一段深度偽造的色情視頻稱,視頻中印度記者拉娜·阿尤布(Rana Ayyub)的臉被換到了一名色情女演員的身體上,這是一場造謠運(yùn)動(dòng)的一部分,目的是詆毀她的調(diào)查性報(bào)道。
《華爾街日報(bào)》最近報(bào)道稱,一家英國能源公司的首席執(zhí)行官被騙將24.3萬美元資金轉(zhuǎn)到了匈牙利供應(yīng)商的賬戶上。這位高管說,他以為自己是在老板對話,后者似乎已經(jīng)批準(zhǔn)了這筆交易。現(xiàn)在,這位首席執(zhí)行官認(rèn)為,他是一場音頻深度偽造騙局的受害者。法里德認(rèn)為,其他欺詐性的深度偽造犯罪出現(xiàn)只是時(shí)間問題,可能包括全身深度偽造。
法里德說:“我可以制作一段杰夫·貝索斯(Jeff Bezos)的深度偽造視頻,他說亞馬遜的股票正在下跌,想想做空亞馬遜股票可以賺到多少錢。當(dāng)你控制住它傳播的時(shí)候,損害已經(jīng)造成了。”
法里德認(rèn)為,社交媒體和深度偽造技術(shù)的結(jié)合,無論是面部還是全身偽造,都很容易造成嚴(yán)重破壞。社交媒體公司在很大程度上不能或不愿意審查他們的平臺和內(nèi)容,所以深度偽造內(nèi)容可能會像野火一樣傳播。他說:“當(dāng)你將創(chuàng)造深度偽造內(nèi)容的能力與在全球范圍內(nèi)分發(fā)和消費(fèi)它們的能力結(jié)合起來時(shí),這會造成巨大影響。”
正如隱私學(xué)者丹妮爾·西特龍(Danielle Citron)所指出的那樣,當(dāng)深度偽造視頻被揭穿時(shí),它可以向那些購買謊言的人暗示,這樣做是值得的。西特龍稱其為“騙子的紅利”。法里德認(rèn)為,全身深度偽造技術(shù)的進(jìn)步將使這種邪惡深度偽造的整體問題變得更糟。這項(xiàng)技術(shù)發(fā)展迅速,它受到大學(xué)研究“人人皆為舞王”以及諸如Zao等深度偽造應(yīng)用貨幣化的推動(dòng)。
法里德說:“一旦你能偽造全部人體都工作,就不會滿足再模仿面部了,你可以模擬人們不同場景下發(fā)生的活動(dòng)。這樣的場景即將成為現(xiàn)實(shí)嗎?可能不會在近期出現(xiàn)。但最終,在一兩年內(nèi),人們將能夠?qū)崿F(xiàn)全身深度偽造,而且它將具有令人難以置信的強(qiáng)大功能。”
行業(yè)反應(yīng)
目前,在科技行業(yè)中還沒有找到根除深度偽造的共識方法,許多不同的技術(shù)正在研究和測試中。例如,范德韋格的研究團(tuán)隊(duì)創(chuàng)造了各種探索深度偽造視頻方法的內(nèi)部挑戰(zhàn)。一個(gè)團(tuán)隊(duì)調(diào)查鏡頭的數(shù)字水印,以識別深度偽造內(nèi)容。另一個(gè)團(tuán)隊(duì)使用區(qū)塊鏈技術(shù)來建立信任,這是它的優(yōu)勢之一。還有一個(gè)團(tuán)隊(duì)通過使用最初創(chuàng)偽造視頻的相同深度學(xué)習(xí)技術(shù)來識別它們。
范德韋格表示:“有些斯坦福大學(xué)的輟學(xué)生創(chuàng)造了AI神探夏洛克,這是一種深度偽造視頻自動(dòng)檢測工具。他們?nèi)恿四承┚矸e模型,然后在視頻中尋找異常。這是一種被其他深度偽造探測器使用的程序,比如Deeptrace實(shí)驗(yàn)室。他們使用名為FaceForensics+的數(shù)據(jù)集,然后對其進(jìn)行測試。這種技術(shù)的識別準(zhǔn)確率高達(dá)97%,而且更擅長識別換臉。”
Deeptrace實(shí)驗(yàn)室基于API的監(jiān)控系統(tǒng)可以看到深度偽造視頻的創(chuàng)建、上傳和共享。自2018年成立以來,該公司已經(jīng)在互聯(lián)網(wǎng)上發(fā)現(xiàn)了超過1.4萬個(gè)假視頻。Deeptrace實(shí)驗(yàn)室的系統(tǒng)收集的信息可以告知公司及其客戶,偽造者正在制造什么樣的深度假視頻,假視頻來自哪里,他們正在使用什么算法,以及這些工具的可訪問性如何。
帕特里尼說,他的研究小組發(fā)現(xiàn),95%的深度偽造視頻是色情類別中的換臉,其中大多數(shù)是名人被換臉。到目前為止,Deeptrace實(shí)驗(yàn)室還沒有看到任何全身合成技術(shù)出現(xiàn)。帕特里尼指出:“你不能用一個(gè)算法或想法來總結(jié)這些問題的解決方案,這需要構(gòu)建幾個(gè)可以告訴你關(guān)于合成媒體整體不同信息的工具。”
范德韋格認(rèn)為,探測深度偽造技術(shù)的下一件大事將是“軟”生物特征簽名。每個(gè)人都有自己獨(dú)特的面部特征,比如揚(yáng)起的眉毛、嘴唇的動(dòng)作以及手部動(dòng)作等,這些都是獨(dú)一無二的。加州大學(xué)伯克利分校的研究員舒迪·阿加瓦爾(Shruti Agarwal)使用這類軟生物識別模型,來確定這種面部抽搐是否是為視頻人工創(chuàng)建的。
阿加瓦爾今年6月接受采訪時(shí)表示:“基本想法是,我們可以為一些人建立軟生物識別模型,然后當(dāng)視頻開始瘋傳時(shí),我們可以分析它們,努力確定它們是否是真實(shí)的。”
盡管阿加瓦爾的模型不是完全可靠,因?yàn)椴煌闆r下的人們可能使用不同的面部抽搐,但范德韋格認(rèn)為,公司可以在未來提供用于身份驗(yàn)證目的軟生物特征簽名。這樣的簽名可以是眾所周知的眼睛掃描或全身掃描。他說:“我認(rèn)為這是未來技術(shù)前進(jìn)的方向:與學(xué)者和大型科技公司合作創(chuàng)建更大的數(shù)據(jù)集。作為新聞編輯部,我們應(yīng)該嘗試培訓(xùn)人員,并建立關(guān)于深度偽造視頻的媒體素養(yǎng)。”
最近,F(xiàn)acebook和微軟正與大學(xué)合作推出“深度偽造視頻探測挑戰(zhàn)賽”。另一項(xiàng)值得注意的努力是美國國防高級研究計(jì)劃局(DARPA)的項(xiàng)目,即通過語義取證來解決深度偽造問題,該機(jī)構(gòu)尋找算法錯(cuò)誤,例如在深度偽造視頻中發(fā)現(xiàn)某個(gè)人佩戴的耳環(huán)不匹配。2018年9月,AI基金會籌集了1000萬美元資金,用于創(chuàng)建一個(gè)工具,通過機(jī)器學(xué)習(xí)和人類版主識別深層偽造和其他惡意內(nèi)容。
為何深度偽造難監(jiān)管
Fast.AI的托馬斯說:“在短期內(nèi),推廣虛假信息和其他有毒、煽動(dòng)性內(nèi)容對主要平臺來說是有利可圖的,所以我們的激勵(lì)機(jī)制完全不一致。我不認(rèn)為這些平臺應(yīng)該對它們托管的內(nèi)容負(fù)責(zé),但我確實(shí)認(rèn)為它們應(yīng)該對它們積極宣傳的內(nèi)容負(fù)責(zé)。例如,YouTube向那些甚至沒有尋找的人推薦了160億次亞歷克斯·瓊斯(Alex Jones)的視頻。”
Deeptrace實(shí)驗(yàn)室的帕特里尼說,對合成媒體的監(jiān)管可能證明是復(fù)雜的。但是,他相信某些現(xiàn)行的法律,比如那些涵蓋誹謗和版權(quán)的法律,可以用來監(jiān)管惡意的深度偽造行為。帕特里尼說,阻止深度偽造的全面法律將會被誤導(dǎo)。相反,他認(rèn)為應(yīng)該支持造福社會的合成媒體應(yīng)用,同時(shí)資助研究開發(fā)工具來檢測深度偽造內(nèi)容,并鼓勵(lì)初創(chuàng)企業(yè)和其他公司也這樣做。
帕特里尼說:“我們還可以告訴大眾,這項(xiàng)技術(shù)已經(jīng)存在,我們需要重新訓(xùn)練我們的耳朵和眼睛,不要相信我們在互聯(lián)網(wǎng)上看到和聽到的一切。我們需要為人和社會接種‘疫苗’,而不是在兩年內(nèi)修復(fù)東西,因?yàn)闉E用這項(xiàng)技術(shù)可能會引發(fā)許多災(zāi)難性或有爭議的事情。”
奧默爾稱:“我們都看到了圖像理解的應(yīng)用及其潛在的好處,但這涉及非常重要的責(zé)任問題,誰將為此承擔(dān)責(zé)任?公司很可能為了股東的利益著想也需要明確自己的責(zé)任。但是,我們都知道他們到目前為止是如何處理這一責(zé)任的。這是個(gè)非常棘手的問題,它們只是希望深度偽造視頻自然而然地消失,但這顯然是不現(xiàn)實(shí)的。”(選自:Fastcompany 作者:DJ Pangburn 編譯:網(wǎng)易智能 參與:小小)