當(dāng)前位置：科技 >

每日短訊：迪士尼的AI換臉術(shù)，創(chuàng)造了什么新問題？

文章來源：鈦媒體APP　發(fā)布時(shí)間： 2023-03-20 12:00:41　責(zé)任編輯：cfenews.com

+|-

時(shí)間是最神奇的濾鏡。不久前，迪士尼公司發(fā)布了一個(gè)專用于影視制作的年齡調(diào)整算法，可以讓演員變得更年輕或更年老。這種算法可以讓年老的演員扮演年輕人，反之，也可以讓年輕演員扮演自己老年時(shí)。這樣的效果雖然并不足以用于漫威電影，但它也是換臉技術(shù)邁出的新一步。

今天，隨著人工智能（AI）的飛速發(fā)展，AI深度合成技術(shù)門檻正在降低，AI換臉技術(shù)逐漸深入大眾生活，出現(xiàn)在各種各樣的影視作品和生活場(chǎng)景中，當(dāng)然，這為我們帶來了更好的影音體驗(yàn)——不過，當(dāng)相貌可以美顏，年齡可以加減，背景可以綠幕時(shí)，如何辨別我們所看到的真和假也是一個(gè)難題。

(資料圖片)

“返老還童”大法

在過去的幾年里，在電影制作和廣告中使用數(shù)字老化或減齡人類角色的情況急劇增加，比如在《愛爾蘭人》（The Irishman）中讓羅伯特-德尼羅（Robert De Niro）顯得更年輕，或是在抗擊瘧疾的廣告活動(dòng)中讓大衛(wèi)-貝克漢姆看起來衰老，都需要用到Re-Age技術(shù)。一般來說，有兩種不同的方法常用于CG數(shù)字re-age。

第一種，就是沿用傳統(tǒng)的三維面部建模pieline，對(duì)一個(gè)完整的三維re-age面部裝備進(jìn)行建模、動(dòng)畫和渲染，以取代場(chǎng)景中的原始肖像。這種方法需要在re-age前制作一個(gè)完整的三維面部裝備來輔助操作，由于其復(fù)雜性并且所需時(shí)間過長(zhǎng)，通常只會(huì)應(yīng)用在那些頂級(jí)流量的明星演員上或是有特寫的鏡頭。

第二種，則是遵循一個(gè)純粹的二維照片的工作流程，對(duì)拍攝完成后的視頻中每一幀進(jìn)行編輯合成，改變演員的年齡。雖然這種方法所提供的整體控制不如完全的三維方法，但與三維方法相比，這種方法極其簡(jiǎn)單易用，也不需要提前對(duì)演員進(jìn)行面部掃描并制作面部裝備。因此，二維數(shù)字re-age在業(yè)內(nèi)逐漸受到關(guān)注，并被用于一些大片的制作中，如《蟻人》中的邁克爾-道格拉斯和《驚奇隊(duì)長(zhǎng)》中的塞繆爾-杰克遜的re-age。

另外，盡管re-age的二維工作流程是比較直觀且簡(jiǎn)便的，但其仍然需要專業(yè)人員逐幀對(duì)表演視頻進(jìn)行手動(dòng)編輯。過去的技術(shù)大多依托2D繪畫工作流，通常需要一幀一幀的手工操作，即使是熟練的特效設(shè)計(jì)師也需要幾天時(shí)間才能完成。除了耗時(shí)之外，目前市面上針對(duì)面部圖像進(jìn)行自動(dòng)老化處理的人工智能技術(shù)還未成熟，大多數(shù)都難以達(dá)到在業(yè)內(nèi)被實(shí)際使用的程度，因?yàn)樗鼈兺ǔ?huì)出現(xiàn)面部特征丟失、分辨率損害以及后續(xù)視頻幀不穩(wěn)定的結(jié)果。比如，在使演員變老時(shí)，每一幀都必須整合預(yù)期的耳朵和鼻子的增長(zhǎng)，肌肉張力的喪失和面部皮膚的下垂，動(dòng)態(tài)皺紋的增加，甚至皮膚色素和血流的變化。

當(dāng)然，不管是三維面部建模，還是遵循二維照片的工作流程，其制作過程都耗時(shí)費(fèi)力。尤其是在手機(jī)視頻上看到的小缺陷，比如表情和嘴部動(dòng)作不協(xié)調(diào)，在大銀幕上會(huì)被放大數(shù)倍，產(chǎn)生嚴(yán)重的違和感，如果非要應(yīng)用于電影，也需要大量手動(dòng)的微調(diào)才能確保高質(zhì)量，但價(jià)格卻令令影視公司望而生畏：高端的視覺效果通常每分鐘要花上數(shù)百萬(wàn)美元

而近日，迪士尼在網(wǎng)絡(luò)走紅的堪稱“返老還童”的算法卻有可能幫人們解決成本高企的問題。迪士尼的“返老還童算法”被稱為FRAN，與過去的模型相比，FRAN的優(yōu)勢(shì)是顯而易見的。

過往模型在改變年齡的過程中往往都聚焦在人臉身上，會(huì)忽略掉人像后面的背景，比如DLFS直接就扣掉了背景圖。并且?guī)c幀之間的過渡也不是很流暢。而FRAN可以精確地保留演員的外觀，即使在頭部動(dòng)作幅度很大時(shí)或光線變化的情況下也能如此。除此之外，F(xiàn)RAN的靈活性也更強(qiáng)，可以任意調(diào)節(jié)想要的年齡。FRAN還允許后期人員對(duì)生成的視頻進(jìn)行二次調(diào)整，使整個(gè)視頻更加自然。

簡(jiǎn)單來說，F(xiàn)RAN能夠使用數(shù)據(jù)信息來預(yù)測(cè)真人演員面部的哪些區(qū)域會(huì)老化，以及如何將皺紋和下巴疊加到既有視頻片段上，或者從既有畫面的人物臉上刪除皺紋。有了FRAN，未來，影視作品中或許就不再需要靠化妝師改變演員年齡視覺效果。不過，F(xiàn)RAN仍有一些局限性，F(xiàn)RAN可能不適合進(jìn)行重大的年齡改變，例如從很小的年齡開始重新變老，并且當(dāng)演員變老時(shí)，頭皮頭發(fā)的變灰效果不會(huì)反映出來，因?yàn)檫@些圍觀數(shù)據(jù)還沒有被收入訓(xùn)練出FRAN的數(shù)據(jù)庫(kù)中。

真真假假的世界？

迪士尼宣稱FRAN是第一個(gè)針對(duì)視頻人臉的年齡處理技術(shù)，具有實(shí)用性、全自動(dòng)、可操作性。在論文中，迪士尼研究工作室解釋FRAN是一個(gè)神經(jīng)網(wǎng)絡(luò)，它使用一個(gè)大型數(shù)據(jù)庫(kù)進(jìn)行圖像處理，該數(shù)據(jù)庫(kù)已包含隨機(jī)合成的屬于不同年齡段的成組面孔，不需要找到數(shù)千張不同年齡段真實(shí)人物的圖像，然后進(jìn)行更一步的照明和背景合成。

具體來看，根據(jù)迪士尼發(fā)布的相關(guān)論文，其中第一個(gè)關(guān)鍵思路是解決收集訓(xùn)練數(shù)據(jù)的問題，以便在較長(zhǎng)的時(shí)間跨度下讓模型學(xué)習(xí)到如何搭建人臉。但對(duì)于真實(shí)場(chǎng)景中存在的大量人物來說，這是一項(xiàng)幾乎不可能完成的任務(wù)。因此，研究人員使用了 StyleGAN2隨機(jī)生成了大量的年齡在18歲至85歲之間的人工合成人臉，有了這樣一個(gè)數(shù)據(jù)集，就可以用于模型訓(xùn)練。

論文中的第二個(gè)關(guān)鍵思路就是神經(jīng)網(wǎng)絡(luò)架構(gòu)的搭建。FRAN采用的是U-Net架構(gòu)。在生成的過程中，F(xiàn)RAN會(huì)預(yù)測(cè)面部的哪些像素點(diǎn)會(huì)隨著年齡的增長(zhǎng)而改變，比如增加或去除皺紋，然后這些結(jié)果會(huì)作為額外的視覺信息通道覆蓋在原來的臉上。在這個(gè)過程中，還可以選擇使用預(yù)先訓(xùn)練好的人臉分割網(wǎng)絡(luò)：BiSeNetV2，并設(shè)置局部的輸入和輸出年齡值，來限制皮膚區(qū)域的再老化，使生成的效果更好。

可以說，FRAN的出現(xiàn)為影視制作減輕了塑造跨年齡角色的負(fù)擔(dān)。不僅免去傳統(tǒng)換臉技術(shù)的長(zhǎng)耗時(shí)和高花費(fèi)，也減少了妝造刻畫年齡的經(jīng)濟(jì)成本。接下來，只要演員演技在線，便能自然地在屏幕上演繹人物、

FRAN的意義是不言自明的。一方面，以FRAN為代表的算法可用來升級(jí)音視頻剪輯技術(shù)，為影視制作中的特效呈現(xiàn)更好的效果，減輕視頻編輯人員的工作壓力；另一方面還可以減少因?yàn)檠輪T、拍攝場(chǎng)景的局限，拓展電影的創(chuàng)作空間，衍生出更多改編作品。未來，這一類技術(shù)顯然還將更深入地嵌進(jìn)我們的生活。

不過，隨著AI換臉日益逼真，技術(shù)門檻越來越低，雖然也帶給影視內(nèi)容應(yīng)用更高效率、更低制作成本等好處，但隨之而來的造假、欺詐等問題，真假混淆使得人們卻愈發(fā)缺失安全感。

畢竟，當(dāng)開源軟件涌現(xiàn)時(shí)，我們開發(fā)技術(shù)獲取成本大大降低，并且能夠被不具備專業(yè)知識(shí)的普通人利用并輕易制作。制造這樣的視頻并不需要很高的技巧，機(jī)器學(xué)習(xí)算法與面部映射軟件相結(jié)合，偽造內(nèi)容來劫持一個(gè)人的聲音、面孔和身體等身份信息變得廉價(jià)而容易，普通大眾一鍵便可制造想要的視頻。

但是，當(dāng)相貌可以美顏，年齡可以加減，背景可以綠幕時(shí)，我們又如何來辨別所見世界的真假？實(shí)際上，自從攝影術(shù)、視頻、射線掃描技術(shù)出現(xiàn)以來，視覺文本的客觀性就在法律、新聞以及其他社會(huì)領(lǐng)域被慢慢建立起來，成為真相的存在，或者說，是建構(gòu)真相的最有力證據(jù)。

然而，就像ChatGPT越來越具有類人性一樣，當(dāng)我們?cè)絹碓椒直娌磺逦覀兊膶?duì)面是機(jī)器還是人類時(shí)，越來越難以辨別我們所瀏覽的視頻真假時(shí)，我們?cè)?jīng)對(duì)“眼見為實(shí)”的相信也將受到極大的挑戰(zhàn)。

事實(shí)上，在FRAN這類算法快速發(fā)展時(shí)，人們也試圖通過技術(shù)手段規(guī)范這項(xiàng)技術(shù)的使用。比如，2019年，斯坦福大學(xué)研究員Tom Van de Weghe聯(lián)合計(jì)算機(jī)、新聞等行業(yè)的專家，成立了相關(guān)的研究小組，以提升公眾對(duì)這一現(xiàn)象的認(rèn)知度，設(shè)計(jì)深度合成的識(shí)別應(yīng)對(duì)方案。然而，技術(shù)發(fā)展速度往往高于破解速度。隨著鑒別器在識(shí)別假視頻方面做得越來越好，生成器在創(chuàng)建假視頻方面也做得越來越好。

然而，迄今為止，幾乎所有關(guān)于技術(shù)的立法都滯后于技術(shù)的發(fā)展，技術(shù)演進(jìn)的加快是必然的趨勢(shì)，但如何回應(yīng)技術(shù)演進(jìn)中誕生的問題，也是身處于日新月異時(shí)代的我們需要思考的事情。（本文首發(fā)鈦媒體APP）

關(guān)鍵詞：

更多資訊>>