時(shí)間是最神奇的濾鏡。不久前,迪士尼公司發(fā)布了一個(gè)專用于影視制作的年齡調(diào)整算法 ,可以讓演員變得更年輕或更年老。這種算法可以讓年老的演員扮演年輕人,反之,也可以讓年輕演員扮演自己老年時(shí)。這樣的效果雖然并不足以用于漫威電影,但它也是換臉技術(shù)邁出的新一步。
今天,隨著人工智能(AI)的飛速發(fā)展,AI深度合成技術(shù)門檻正在降低,AI換臉技術(shù)逐漸深入大眾生活,出現(xiàn)在各種各樣的影視作品和生活場(chǎng)景中,當(dāng)然,這為我們帶來(lái)了更好的影音體驗(yàn)——不過(guò),當(dāng)相貌可以美顏,年齡可以加減,背景可以綠幕時(shí),如何辨別我們所看到的真和假也是一個(gè)難題。
(資料圖片)
“返老還童”大法
在過(guò)去的幾年里,在電影制作和廣告中使用數(shù)字老化或減齡人類角色的情況急劇增加,比如在《愛(ài)爾蘭人》(The Irishman)中讓羅伯特-德尼羅(Robert De Niro)顯得更年輕,或是在抗擊瘧疾的廣告活動(dòng)中讓大衛(wèi)-貝克漢姆看起來(lái)衰老,都需要用到Re-Age技術(shù)。一般來(lái)說(shuō),有兩種不同的方法常用于CG數(shù)字re-age。
第一種,就是沿用傳統(tǒng)的三維面部建模pieline,對(duì)一個(gè)完整的三維re-age面部裝備進(jìn)行建模、動(dòng)畫和渲染,以取代場(chǎng)景中的原始肖像。這種方法需要在re-age前制作一個(gè)完整的三維面部裝備來(lái)輔助操作,由于其復(fù)雜性并且所需時(shí)間過(guò)長(zhǎng),通常只會(huì)應(yīng)用在那些頂級(jí)流量的明星演員上或是有特寫的鏡頭。
第二種,則是遵循一個(gè)純粹的二維照片的工作流程,對(duì)拍攝完成后的視頻中每一幀進(jìn)行編輯合成,改變演員的年齡。雖然這種方法所提供的整體控制不如完全的三維方法,但與三維方法相比,這種方法極其簡(jiǎn)單易用,也不需要提前對(duì)演員進(jìn)行面部掃描并制作面部裝備。因此,二維數(shù)字re-age在業(yè)內(nèi)逐漸受到關(guān)注,并被用于一些大片的制作中,如《蟻人》中的邁克爾-道格拉斯和《驚奇隊(duì)長(zhǎng)》中的塞繆爾-杰克遜的re-age。
另外,盡管re-age的二維工作流程是比較直觀且簡(jiǎn)便的,但其仍然需要專業(yè)人員逐幀對(duì)表演視頻進(jìn)行手動(dòng)編輯。過(guò)去的技術(shù)大多依托2D繪畫工作流,通常需要一幀一幀的手工操作,即使是熟練的特效設(shè)計(jì)師也需要幾天時(shí)間才能完成。除了耗時(shí)之外,目前市面上針對(duì)面部圖像進(jìn)行自動(dòng)老化處理的人工智能技術(shù)還未成熟,大多數(shù)都難以達(dá)到在業(yè)內(nèi)被實(shí)際使用的程度,因?yàn)樗鼈兺ǔ?huì)出現(xiàn)面部特征丟失、分辨率損害以及后續(xù)視頻幀不穩(wěn)定的結(jié)果。比如,在使演員變老時(shí),每一幀都必須整合預(yù)期的耳朵和鼻子的增長(zhǎng),肌肉張力的喪失和面部皮膚的下垂,動(dòng)態(tài)皺紋的增加,甚至皮膚色素和血流的變化。
當(dāng)然,不管是三維面部建模,還是遵循二維照片的工作流程,其制作過(guò)程都耗時(shí)費(fèi)力。尤其是在手機(jī)視頻上看到的小缺陷,比如表情和嘴部動(dòng)作不協(xié)調(diào),在大銀幕上會(huì)被放大數(shù)倍,產(chǎn)生嚴(yán)重的違和感,如果非要應(yīng)用于電影,也需要大量手動(dòng)的微調(diào)才能確保高質(zhì)量,但價(jià)格卻令令影視公司望而生畏:高端的視覺(jué)效果通常每分鐘要花上數(shù)百萬(wàn)美元
而近日,迪士尼在網(wǎng)絡(luò)走紅的堪稱“返老還童”的算法卻有可能幫人們解決成本高企的問(wèn)題。迪士尼的“返老還童算法”被稱為FRAN,與過(guò)去的模型相比,FRAN的優(yōu)勢(shì)是顯而易見(jiàn)的。
過(guò)往模型在改變年齡的過(guò)程中往往都聚焦在人臉身上,會(huì)忽略掉人像后面的背景,比如DLFS直接就扣掉了背景圖。并且?guī)c幀之間的過(guò)渡也不是很流暢。而FRAN可以精確地保留演員的外觀,即使在頭部動(dòng)作幅度很大時(shí)或光線變化的情況下也能如此。除此之外,F(xiàn)RAN的靈活性也更強(qiáng),可以任意調(diào)節(jié)想要的年齡。FRAN還允許后期人員對(duì)生成的視頻進(jìn)行二次調(diào)整,使整個(gè)視頻更加自然。
簡(jiǎn)單來(lái)說(shuō),F(xiàn)RAN能夠使用數(shù)據(jù)信息來(lái)預(yù)測(cè)真人演員面部的哪些區(qū)域會(huì)老化,以及如何將皺紋和下巴疊加到既有視頻片段上,或者從既有畫面的人物臉上刪除皺紋。有了FRAN,未來(lái),影視作品中或許就不再需要靠化妝師改變演員年齡視覺(jué)效果。不過(guò),F(xiàn)RAN仍有一些局限性,F(xiàn)RAN可能不適合進(jìn)行重大的年齡改變,例如從很小的年齡開(kāi)始重新變老,并且當(dāng)演員變老時(shí),頭皮頭發(fā)的變灰效果不會(huì)反映出來(lái),因?yàn)檫@些圍觀數(shù)據(jù)還沒(méi)有被收入訓(xùn)練出FRAN的數(shù)據(jù)庫(kù)中。
真真假假的世界?
迪士尼宣稱FRAN是第一個(gè)針對(duì)視頻人臉的年齡處理技術(shù),具有實(shí)用性、全自動(dòng)、可操作性。在論文中,迪士尼研究工作室解釋FRAN是一個(gè)神經(jīng)網(wǎng)絡(luò),它使用一個(gè)大型數(shù)據(jù)庫(kù)進(jìn)行圖像處理,該數(shù)據(jù)庫(kù)已包含隨機(jī)合成的屬于不同年齡段的成組面孔,不需要找到數(shù)千張不同年齡段真實(shí)人物的圖像,然后進(jìn)行更一步的照明和背景合成。
具體來(lái)看,根據(jù)迪士尼發(fā)布的相關(guān)論文,其中第一個(gè)關(guān)鍵思路是解決收集訓(xùn)練數(shù)據(jù)的問(wèn)題,以便在較長(zhǎng)的時(shí)間跨度下讓模型學(xué)習(xí)到如何搭建人臉。但對(duì)于真實(shí)場(chǎng)景中存在的大量人物來(lái)說(shuō),這是一項(xiàng)幾乎不可能完成的任務(wù)。因此,研究人員使用了 StyleGAN2隨機(jī)生成了大量的年齡在18歲至85歲之間的人工合成人臉,有了這樣一個(gè)數(shù)據(jù)集,就可以用于模型訓(xùn)練。
論文中的第二個(gè)關(guān)鍵思路就是神經(jīng)網(wǎng)絡(luò)架構(gòu)的搭建。FRAN采用的是U-Net架構(gòu)。在生成的過(guò)程中,F(xiàn)RAN會(huì)預(yù)測(cè)面部的哪些像素點(diǎn)會(huì)隨著年齡的增長(zhǎng)而改變,比如增加或去除皺紋,然后這些結(jié)果會(huì)作為額外的視覺(jué)信息通道覆蓋在原來(lái)的臉上。在這個(gè)過(guò)程中,還可以選擇使用預(yù)先訓(xùn)練好的人臉?lè)指罹W(wǎng)絡(luò):BiSeNetV2,并設(shè)置局部的輸入和輸出年齡值,來(lái)限制皮膚區(qū)域的再老化,使生成的效果更好。
可以說(shuō),FRAN的出現(xiàn)為影視制作減輕了塑造跨年齡角色的負(fù)擔(dān)。不僅免去傳統(tǒng)換臉技術(shù)的長(zhǎng)耗時(shí)和高花費(fèi),也減少了妝造刻畫年齡的經(jīng)濟(jì)成本。接下來(lái),只要演員演技在線,便能自然地在屏幕上演繹人物、
FRAN的意義是不言自明的。一方面,以FRAN為代表的算法可用來(lái)升級(jí)音視頻剪輯技術(shù),為影視制作中的特效呈現(xiàn)更好的效果,減輕視頻編輯人員的工作壓力;另一方面還可以減少因?yàn)檠輪T、拍攝場(chǎng)景的局限,拓展電影的創(chuàng)作空間,衍生出更多改編作品。未來(lái),這一類技術(shù)顯然還將更深入地嵌進(jìn)我們的生活。
不過(guò),隨著AI換臉日益逼真,技術(shù)門檻越來(lái)越低,雖然也帶給影視內(nèi)容應(yīng)用更高效率、更低制作成本等好處,但隨之而來(lái)的造假、欺詐等問(wèn)題,真假混淆使得人們卻愈發(fā)缺失安全感。
畢竟,當(dāng)開(kāi)源軟件涌現(xiàn)時(shí),我們開(kāi)發(fā)技術(shù)獲取成本大大降低,并且能夠被不具備專業(yè)知識(shí)的普通人利用并輕易制作。制造這樣的視頻并不需要很高的技巧,機(jī)器學(xué)習(xí)算法與面部映射軟件相結(jié)合,偽造內(nèi)容來(lái)劫持一個(gè)人的聲音、面孔和身體等身份信息變得廉價(jià)而容易,普通大眾一鍵便可制造想要的視頻。
但是,當(dāng)相貌可以美顏,年齡可以加減,背景可以綠幕時(shí),我們又如何來(lái)辨別所見(jiàn)世界的真假?實(shí)際上,自從攝影術(shù)、視頻、射線掃描技術(shù)出現(xiàn)以來(lái),視覺(jué)文本的客觀性就在法律、新聞以及其他社會(huì)領(lǐng)域被慢慢建立起來(lái),成為真相的存在,或者說(shuō),是建構(gòu)真相的最有力證據(jù)。
然而,就像ChatGPT越來(lái)越具有類人性一樣,當(dāng)我們?cè)絹?lái)越分辨不清我們的對(duì)面是機(jī)器還是人類時(shí),越來(lái)越難以辨別我們所瀏覽的視頻真假時(shí),我們?cè)?jīng)對(duì)“眼見(jiàn)為實(shí)”的相信也將受到極大的挑戰(zhàn)。
事實(shí)上,在FRAN這類算法快速發(fā)展時(shí),人們也試圖通過(guò)技術(shù)手段規(guī)范這項(xiàng)技術(shù)的使用。比如,2019年,斯坦福大學(xué)研究員Tom Van de Weghe聯(lián)合計(jì)算機(jī)、新聞等行業(yè)的專家,成立了相關(guān)的研究小組,以提升公眾對(duì)這一現(xiàn)象的認(rèn)知度,設(shè)計(jì)深度合成的識(shí)別應(yīng)對(duì)方案。然而,技術(shù)發(fā)展速度往往高于破解速度。隨著鑒別器在識(shí)別假視頻方面做得越來(lái)越好,生成器在創(chuàng)建假視頻方面也做得越來(lái)越好。
然而,迄今為止,幾乎所有關(guān)于技術(shù)的立法都滯后于技術(shù)的發(fā)展,技術(shù)演進(jìn)的加快是必然的趨勢(shì),但如何回應(yīng)技術(shù)演進(jìn)中誕生的問(wèn)題,也是身處于日新月異時(shí)代的我們需要思考的事情。(本文首發(fā)鈦媒體APP)
關(guān)鍵詞: