人工智能(AI)技術(shù)的進(jìn)步,讓一切的合成變得簡(jiǎn)單和輕易。近年來(lái),利用深度學(xué)習(xí)、虛擬現(xiàn)實(shí)等生成合成類算法制作圖像、音頻、視頻、虛擬場(chǎng)景等信息的深度合成技術(shù),已在多個(gè)領(lǐng)域大量應(yīng)用,伴隨著不斷涌現(xiàn)的使用需求,深度合成內(nèi)容數(shù)量和關(guān)注度呈現(xiàn)快速增長(zhǎng)態(tài)勢(shì)。
在深度合成快速發(fā)展的同時(shí),挑戰(zhàn)也隨之而來(lái)。深度合成技術(shù)的日益精湛,導(dǎo)致合成的音頻、視頻等偽造內(nèi)容越來(lái)越能以假亂真,并由此帶來(lái)一系列關(guān)于安全的風(fēng)險(xiǎn)。在這樣的背景下,除了立法進(jìn)行監(jiān)管,以技術(shù)規(guī)制技術(shù)成為深度合成的必然。問(wèn)題是,技術(shù)該怎么規(guī)制技術(shù)?深度合成和檢測(cè)的“貓鼠游戲”的下一步又會(huì)是什么?
(資料圖片)
深度合成和新的風(fēng)險(xiǎn)
深度合成技術(shù)是人工智能發(fā)展到一定階段的產(chǎn)物,源于人工智能系統(tǒng)生成對(duì)抗網(wǎng)絡(luò)(GAN)的進(jìn)步。
GAN由生成器和識(shí)別器兩個(gè)相互競(jìng)爭(zhēng)的系統(tǒng)組成。建立GAN的第一步是識(shí)別所需的輸出,并為生成器創(chuàng)建一個(gè)培訓(xùn)數(shù)據(jù)集。一旦生成器開始創(chuàng)建可接受的輸出內(nèi)容,就可以將視頻剪輯提供給識(shí)別器進(jìn)行鑒別;如果鑒別出視頻是假的,就會(huì)告訴生成器在創(chuàng)建下一個(gè)視頻時(shí)需要修正的地方。
根據(jù)每次的“對(duì)抗”結(jié)果,生成器會(huì)調(diào)整其制作時(shí)使用到的參數(shù),直到鑒別器無(wú)法辨別生成作品和真跡,以此將現(xiàn)有圖像和視頻組合并疊加到源圖像上,終于生成合成視頻。典型的“深度合成”主要包括人臉替換、人臉再現(xiàn)、人臉合成以及語(yǔ)音合成四種形式。
深度合成真正走紅其實(shí)是一場(chǎng)意外。2017年,美國(guó)新聞網(wǎng)站 Reddit的一個(gè)名為“deepfakes”的用戶上傳了經(jīng)過(guò)數(shù)字化篡改的色情視頻,即這些視頻中的成人演員的臉被替換成了電影明星的臉。此后,Reddit網(wǎng)站就成為了分享虛假色情視頻的一個(gè)陣地。盡管后來(lái) Reddit網(wǎng)站上的 deepfake 論壇因?yàn)槌涑庵罅亢铣傻纳橐曨l而被關(guān)閉,但deepfake背后的人工智能技術(shù)卻引起了技術(shù)社區(qū)的廣泛興趣,開源方法和工具性的應(yīng)用不斷涌現(xiàn),比如,F(xiàn)akeAPP、face2face等。
今天, 隨著技術(shù)進(jìn)步,深度合成在影視制作、廣告營(yíng)銷、社交娛樂(lè)等領(lǐng)域應(yīng)用不斷豐富,包括AI合成主播、虛擬偶像、修復(fù)歷史老照片等。與此同時(shí),越來(lái)越多的企業(yè)機(jī)構(gòu)利用深度合成技術(shù)提供面向公眾的產(chǎn)品和服務(wù):支持風(fēng)格定制的特效視頻制作軟件;語(yǔ)音方向衍生出語(yǔ)音導(dǎo)航、有聲讀物等應(yīng)用;文本合成在新聞報(bào)道、聊天問(wèn)答等方面使用廣泛。
可以預(yù)見,未來(lái),隨著自動(dòng)數(shù)據(jù)生成、全身合成、3D塑型等技術(shù)的逐漸成型,一個(gè)新的人類生存場(chǎng)景將以深度合成技術(shù)為基石展開。不過(guò),深度合成在激發(fā)了新內(nèi)容創(chuàng)造力的同時(shí),也帶來(lái)了新的威脅。
一方面,隨著深度合成內(nèi)容的制作門檻大大降低,不法分子就可輕易偽造音頻、視頻,實(shí)施詐騙、勒索等違法行為。這從這兩年的社會(huì)新聞就可見一斑。
近兩年來(lái),在浙江、安徽、江蘇等地,多名盜取個(gè)人信息的犯罪嫌疑人被公安部門抓獲。犯罪嫌疑人作案流程極為雷同:先是非法獲取他人照片或有償收購(gòu)他人聲音等“物料”,然后利用人工智能技術(shù)將照片“活化”、合成動(dòng)態(tài)視頻,之后或直接騙過(guò)社交平臺(tái)、支付寶賬戶的人臉核驗(yàn)機(jī)制,進(jìn)行非法獲利。
另一方面,深度合成內(nèi)容模糊了真實(shí)和虛假的邊界,將對(duì)社會(huì)信任、媒體信任產(chǎn)生巨大的影響。虛假內(nèi)容的高難度甄別影響了事實(shí)核查的有效性,在社會(huì)重大事件或政治事件節(jié)點(diǎn)上,深度合成技術(shù)可能被用于操作輿論意見,借助社交媒體,使虛假信息短時(shí)間內(nèi)引發(fā)產(chǎn)生病毒式擴(kuò)散,激化社會(huì)矛盾。
深度合成的泛濫進(jìn)一步增加侵犯肖像權(quán)和隱私權(quán)的可能,沒人愿意自己的臉龐出現(xiàn)在莫名其妙的視頻當(dāng)中。深度偽造技術(shù)的最初就是被應(yīng)用于色情行業(yè),如今,這一應(yīng)用對(duì)肖像權(quán)和隱私的侵害隨著深度偽造向著廉價(jià)造假轉(zhuǎn)化仍然在放大。于是,借助一些低價(jià)乃至免費(fèi)的軟件,消費(fèi)者無(wú)需專業(yè)知識(shí)和技術(shù)能力,即可通過(guò)終端實(shí)現(xiàn)調(diào)整速度、攝像頭效果、更換背景、實(shí)現(xiàn)換臉等操作。
技術(shù)怎么規(guī)制技術(shù)?
深度合成帶來(lái)的負(fù)面風(fēng)險(xiǎn)不斷加劇,如何有效甄別深度合成內(nèi)容就成了關(guān)鍵。
過(guò)去,生物特征測(cè)試被認(rèn)為是深度合成內(nèi)容的重要技術(shù),但實(shí)際上,眨眼測(cè)試等根據(jù)生物特征進(jìn)行鑒別的方式,是非常低效、不可靠的,只能階段性地起作用,而且隨著深度合成技術(shù)的發(fā)展進(jìn)化,生物特征測(cè)試越來(lái)越難以發(fā)揮作用。相反,深度合成內(nèi)容的檢測(cè)識(shí)別,需要基于AI的鑒別技術(shù),來(lái)實(shí)現(xiàn)對(duì)深度合成內(nèi)容的自動(dòng)化檢測(cè)。
但是,學(xué)術(shù)和商業(yè)界的防偽開發(fā)項(xiàng)目多針對(duì)特定產(chǎn)品而非通用的音頻或視頻,即需要針對(duì)每一種新興的視頻內(nèi)容篡改技術(shù)都訓(xùn)練一個(gè)對(duì)應(yīng)的鑒別網(wǎng)絡(luò),還沒有通用性的視頻鑒別網(wǎng)絡(luò)。簡(jiǎn)單來(lái)說(shuō),隨著深度合成技術(shù)的進(jìn)化,雖然學(xué)界和業(yè)界已在大量投入和支持鑒別技術(shù)的開發(fā),但目前的鑒別網(wǎng)絡(luò)多針對(duì)特定的深度合成方法,尚沒有通用的鑒別網(wǎng)絡(luò),因此AI檢測(cè)工具需要隨時(shí)更新。
正如 Photo DNA(識(shí)別和屏蔽兒童色情圖片的技術(shù))技術(shù)開發(fā)者、達(dá)特茅斯學(xué)院教授 Hany Farid 所說(shuō),我們距離能夠確切地識(shí)別深度合成內(nèi)容的鑒別技術(shù)還有幾十年的路要走。這意味著,在深度合成技術(shù)上,如果想要用技術(shù)來(lái)規(guī)制技術(shù)風(fēng)險(xiǎn),還需要加大對(duì)通用且高效鑒偽技術(shù)的研發(fā)投入和支持力度。比如,美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)目前有兩個(gè)項(xiàng)目致力于深度合成內(nèi)容的檢測(cè)鑒別——媒體鑒定(Media Forensics)和語(yǔ)義鑒定(Semantic Forensics)。
其中,媒體鑒定項(xiàng)目計(jì)劃開發(fā)一個(gè)算法平臺(tái),自動(dòng)評(píng)估照片和視頻的完整性,并向分析師提供有關(guān)假冒內(nèi)容是如何生成的信息。語(yǔ)義鑒定平臺(tái)試圖開發(fā)一種媒體信息的自動(dòng)識(shí)別方法,檢測(cè)并識(shí)別不尋常的信息或面部特征。無(wú)論是媒體鑒定還是語(yǔ)義鑒定,兩者都是為了提高識(shí)別和對(duì)抗虛假信息的能力。
除了開發(fā)通用的鑒別技術(shù)外,用技術(shù)規(guī)制技術(shù)的另一方面,就是開發(fā)深度合成的溯源技術(shù)。實(shí)際上,一直以來(lái),人們都有試圖通過(guò)技術(shù)手段遏制深度造假的泛濫。2019年,斯坦福大學(xué)研究員Tom Van de Weghe聯(lián)合計(jì)算機(jī)、新聞等行業(yè)的專家,成立了深度造假研究小組,以提升公眾對(duì)這一現(xiàn)象的認(rèn)知度,設(shè)計(jì)深度造假的識(shí)別應(yīng)對(duì)方案。
然而,技術(shù)發(fā)展速度往往高于破解速度。隨著鑒別器在識(shí)別假視頻方面做得越來(lái)越好,生成器在創(chuàng)建假視頻方面也做得越來(lái)越好。理論上,只要給GAN當(dāng)前掌握的所有鑒別技術(shù),它就能通過(guò)學(xué)習(xí)進(jìn)行自我進(jìn)化,規(guī)避鑒別監(jiān)測(cè)。攻擊會(huì)被防御反擊,反過(guò)來(lái)又被更復(fù)雜的攻擊所抵消。
這使得深度合成技術(shù)的檢測(cè)與反檢測(cè)逐漸演變成一場(chǎng)貓捉老鼠的技術(shù)競(jìng)賽,深度合成技術(shù)正在快速更新以逃避檢測(cè)工具的識(shí)別。因此,還需要從內(nèi)容源頭上區(qū)分真實(shí)內(nèi)容與合成內(nèi)容,確認(rèn)內(nèi)容的來(lái)源包括制作者、制作的地點(diǎn)等。
有一種設(shè)想是提供一種標(biāo)記方法,要求用戶在特定位置標(biāo)識(shí)內(nèi)容的原始來(lái)源或注明內(nèi)容是否已經(jīng)過(guò)編輯。但是標(biāo)記和分類的前提是用戶或平臺(tái)能夠確定特定內(nèi)容是否真實(shí),而運(yùn)用區(qū)塊鏈技術(shù)進(jìn)行內(nèi)容識(shí)別被認(rèn)為是一種有效的解決方案。
目前市場(chǎng)上一些語(yǔ)音合成和視頻合成設(shè)備的制造商已經(jīng)使用各種時(shí)間戳工具,在由特定設(shè)備創(chuàng)建的圖像和視頻上添加數(shù)字水印或數(shù)字簽名,用來(lái)記錄圖像或視頻是在何時(shí)何地拍攝的,用的什么設(shè)備等信息,這些可以用來(lái)檢測(cè)某個(gè)文件是否隨著時(shí)間的推移而被修改。
“貓鼠游戲”的下一步是什么?
科技進(jìn)步,不僅在于技術(shù)的進(jìn)步,還應(yīng)展現(xiàn)人類駕馭技術(shù)的進(jìn)步和智慧,顯然,想要發(fā)揮深度合成技術(shù)的最大效益,就必須與深度合成進(jìn)行一場(chǎng)持續(xù)的攻守。
一方面,仍要持續(xù)發(fā)展深度合成技術(shù),而不能“一刀切”地禁止,這將會(huì)阻礙正向應(yīng)用與創(chuàng)新。顯然,隨著人工智能時(shí)代的到來(lái),下一代媒體將由人工智能驅(qū)動(dòng),人工智能可能給數(shù)字內(nèi)容領(lǐng)域帶來(lái)重塑。其中,可以實(shí)現(xiàn)換臉、人臉合成、語(yǔ)音合成、視頻生成甚至數(shù)字虛擬人等諸多應(yīng)用形式的深度合成技術(shù),作為人工智能發(fā)展到一定階段的產(chǎn)物,正在進(jìn)入商業(yè)化階段。
短期內(nèi),深度合成技術(shù)已經(jīng)作用于影視、娛樂(lè)和社交等諸多領(lǐng)域,它們或是被用于升級(jí)傳統(tǒng)的音視頻處理或后期技術(shù),帶來(lái)更好的影音體驗(yàn);或是被用來(lái)進(jìn)一步打破語(yǔ)言障礙,優(yōu)化社交體驗(yàn)。中長(zhǎng)期來(lái)看,深度合成技術(shù)還可以基于其深度仿真的特征,超越時(shí)空限制,加深我們與虛擬世界的交互,也可以基于其合成性,創(chuàng)造一些超越真實(shí)世界的素材。尤其是元宇宙概念的流行,更是為深度合成技術(shù)提供了更加寬廣的應(yīng)用場(chǎng)景。
另一方面,面對(duì)深度合成衍生出的安全問(wèn)題,除了要從源頭上解決,利用技術(shù)創(chuàng)新、技術(shù)對(duì)抗等方式,持續(xù)提升和迭代檢測(cè)技術(shù)的能力外,還需要通過(guò)政府與社會(huì)組織參與、協(xié)同治理。
在我國(guó),2019年以來(lái)陸續(xù)出臺(tái)《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》等法規(guī),對(duì)生成合成類內(nèi)容等提出了不同程度的監(jiān)管要求。新公布的《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》進(jìn)一步提出,深度合成服務(wù)提供者深度合成服務(wù)時(shí),應(yīng)當(dāng)使用顯著方式對(duì)深度合成信息內(nèi)容進(jìn)行標(biāo)識(shí)。
此外,美國(guó)從聯(lián)邦和州層面進(jìn)行了專門立法,歐盟將深度合成納入《通用數(shù)據(jù)保護(hù)條例(GDPR)》等現(xiàn)有法律框架規(guī)制。德國(guó)、新加坡、英國(guó)、韓國(guó)等國(guó)家,均有適用于深度合成技術(shù)相關(guān)犯罪案件審理的法律法規(guī)。
不過(guò),雖然目前各國(guó)都在積極探尋有效治理機(jī)制,但由于深度合成往往基于公開照片的生成,這令其很難真正被發(fā)現(xiàn)。而一旦被發(fā)現(xiàn),誰(shuí)又有權(quán)利刪除數(shù)據(jù)?違法者或侵權(quán)者的數(shù)據(jù)是否擁有同樣的權(quán)利?此外,當(dāng)平臺(tái)發(fā)現(xiàn)疑似深度偽造視頻時(shí),它是否能簡(jiǎn)單刪除以規(guī)避責(zé)任,這種行為又是否會(huì)阻礙傳播自由?
本質(zhì)上來(lái)看,深度合成的問(wèn)題就是透明度不足。因此,從各個(gè)層面提高公眾對(duì)深度合成技術(shù)的認(rèn)知尤為重要,只有將門檻降低到所有受眾能夠在共同框架下認(rèn)識(shí)、理解這個(gè)問(wèn)題的時(shí)候,深度合成技術(shù)才能健康良性發(fā)展。
說(shuō)到底,如何最大限度地實(shí)現(xiàn)深度合成技術(shù)的社會(huì)效益和商業(yè)效應(yīng),依然是一場(chǎng)持續(xù)的攻守。“貓鼠游戲”還會(huì)進(jìn)行下去,在反復(fù)的博弈中,人們也將進(jìn)入一個(gè)機(jī)遇與挑戰(zhàn)并存的深度合成的新階段。
關(guān)鍵詞: 安全風(fēng)險(xiǎn)