文/台中分校工程師王淳中
Deepfake泛指各種藉由Deep Learning達成的幾可亂真的假圖片、聲音或影片,如下圖所示,真實影片是左邊的Jennifer Lawrence,右邊則是將Steve Buscemi的臉移上去的結果。
(圖片取自:https://www.youtube.com/watch?v=iHv6Q9ychnA)
雖然這個技術也許能讓影片剪輯師或是電影產業加以利用,但近期也常被不當的使用,諸如將女星的臉移至不雅影片上,或是製造一些造謠用的假影片,也因此隨著這項技術的發展,開始有許多人研究如何偵測影片是否為Deepfake技術製作出的假影片。Deepfake的技術不斷的在進步,以前的一些畫質或是無法即時生成的限制都在慢慢地被研究者突破,雖然偵測假影片的技術也在不斷進步,但目前還是生成假影片這邊進展得比較快一點。總而言之,這項技術對於資訊安全或是藝術都扮演著重要的角色,相信是值得大家花時間關注的領域。
(圖片取自:https://github.com/shaoanlu/faceswap-GAN)
Deepfake主要使用了生成對抗網路(GAN)與自編碼器(Autoencoder)的技術與概念。首先,有一組編碼器模型(Encoder)需要從人臉中提取表情的特徵,另外一組解碼器(Decoder)則需要將表情特徵還原成某個人的人臉。在訓練階段時,會有另外一個分辨器(Discriminator)協助解碼器作訓練,分辨器則會盡量正確分辨真實的人臉與合成的人臉,而解碼器則會盡量產生出分辨器分不出來的合成人臉,因此兩者會互相對抗且逐漸變強。在訓練完成後我們就可以將一張新的人臉透過編碼器提取表情特徵,再透過解碼器還原成特定人的人臉。