揭秘AI繪畫(huà) 怎么把真人照片畫(huà)成二次元人物?

由網(wǎng)絡(luò) 分享時(shí)間：2023-12-31 06:55:32 收藏本文

有了AI,人人都可以是藝術(shù)家。AI繪畫(huà)的出現(xiàn),恰如瑞士藝術(shù)家保羅·克利所言:“藝術(shù)不是再現(xiàn)可見(jiàn),而是使不可見(jiàn)成為可見(jiàn)?！苯?jīng)過(guò)20年左右的發(fā)展,目前基于不同類型或者模態(tài)元素的AI繪畫(huà)發(fā)展情況不盡相同,發(fā)展最久的是“以圖生圖”,再到近期火爆的“文+圖”生圖。當(dāng)然,也有團(tuán)隊(duì)已經(jīng)研發(fā)出由語(yǔ)音生成圖像的技術(shù)。

上傳一張圖片,或者輸入一些簡(jiǎn)單的關(guān)鍵詞,系統(tǒng)就能自動(dòng)生成一張卡通圖像……最近一段時(shí)間,AI繪畫(huà)開(kāi)始在互聯(lián)網(wǎng)社交平臺(tái)走紅。

AI繪畫(huà),顧名思義就是利用人工智能進(jìn)行繪畫(huà),是人工智能生成內(nèi)容的典型應(yīng)用場(chǎng)景之一。其主要原理是收集大量已有作品,通過(guò)算法對(duì)其內(nèi)容和風(fēng)格特征進(jìn)行解析,最后再生成新的作品,所以算法是AI繪畫(huà)的核心。

當(dāng)前,“憑空”生成圖像的AI繪畫(huà),其實(shí)也會(huì)動(dòng)輒“翻車”:也許上一秒AI通過(guò)你的照片繪出的是一張充滿藝術(shù)感的二次元畫(huà)像,下一秒你的寵物貓、狗則可能被畫(huà)成可愛(ài)少女或肌肉猛男。

事實(shí)上,AI繪畫(huà)早已火爆全球。第一張公開(kāi)展出的、由人工智能創(chuàng)作的繪畫(huà)作品《埃德蒙·貝拉米的肖像》曾于2018年在佳士得拍賣行以43.25萬(wàn)美元成交,那是一張由機(jī)器學(xué)習(xí)了從14世紀(jì)到20世紀(jì)的1.5萬(wàn)張肖像畫(huà)之后自動(dòng)生成的一張肖像畫(huà)作品。

AI繪畫(huà)是如何實(shí)現(xiàn)“憑空”生圖的?除了娛樂(lè)外,AI繪畫(huà)還有哪些潛在的應(yīng)用前景?

從“以圖生圖”到“語(yǔ)音生圖”

2022年,由人工智能創(chuàng)作的《太空歌劇院》一度火出圈。在美國(guó)科羅拉多州舉辦的新興數(shù)字藝術(shù)家競(jìng)賽中,《太空歌劇院》獲得“數(shù)字藝術(shù)/數(shù)字修飾照片”類別一等獎(jiǎng)。它的構(gòu)圖、配色以及畫(huà)面的細(xì)節(jié)堪稱精致。然而,這個(gè)作品的創(chuàng)作者不是藝術(shù)家,而是來(lái)自美國(guó)科羅拉多州的游戲設(shè)計(jì)師。

這位游戲設(shè)計(jì)師在一個(gè)名為“”的AI創(chuàng)作工具里,先輸入幾個(gè)關(guān)鍵詞,如光源、構(gòu)圖、氛圍等,得到了100幅作品,再進(jìn)行約80小時(shí)的修圖修飾,最終選出3幅作品,最后把圖像打印到畫(huà)布上。

通過(guò)簡(jiǎn)單交互式對(duì)話在短時(shí)間內(nèi)生成的“藝術(shù)”作品,讓人類藝術(shù)家展開(kāi)了一場(chǎng)關(guān)于“AI繪畫(huà)作品參賽是否屬于作弊”的爭(zhēng)論。這場(chǎng)聲勢(shì)浩大的爭(zhēng)論也令大眾直觀地意識(shí)到如今的AI繪畫(huà)水平已經(jīng)發(fā)展到了何種程度。

“人工智能在藝術(shù)方面的創(chuàng)作最早可以追溯到上個(gè)世紀(jì)末,當(dāng)時(shí)的人工智能繪畫(huà)技術(shù)叫作‘圖像的風(fēng)格化濾鏡’。”中國(guó)科學(xué)院自動(dòng)化研究所多模態(tài)人工智能系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室研究員董未名說(shuō),最初的AI繪畫(huà)方法比較簡(jiǎn)單,比如一張普通的照片,通過(guò)一些圖像處理的算法,把照片像素進(jìn)行幾何或者色彩上的變換,然后再調(diào)節(jié)不同參數(shù),就可以模擬出類似油畫(huà)或者水彩畫(huà)的風(fēng)格。

經(jīng)過(guò)20年左右的發(fā)展,目前基于不同類型或者模態(tài)元素的AI繪畫(huà)發(fā)展情況不盡相同,發(fā)展最久的是“以圖生圖”,再到近期火爆的“文+圖”生圖。當(dāng)然,也有團(tuán)隊(duì)已經(jīng)研發(fā)出由語(yǔ)音生成圖像的技術(shù)。

AI繪畫(huà)主要依靠三種技術(shù)模式實(shí)現(xiàn)

董未名介紹,目前AI繪畫(huà)主要借助圖像風(fēng)格遷移技術(shù)、圖文預(yù)訓(xùn)練模型和擴(kuò)散模型實(shí)現(xiàn)。

“圖像風(fēng)格遷移技術(shù)指的是圖像處理算法通過(guò)對(duì)輸入的真實(shí)圖像內(nèi)容特征和對(duì)參考的藝術(shù)圖像風(fēng)格特征的提取,實(shí)現(xiàn)真實(shí)圖像內(nèi)容特征和藝術(shù)圖像風(fēng)格特征的融合,從而生成新的藝術(shù)圖像。”董未名舉例,如果將美國(guó)舊金山藝術(shù)宮的外景照片和印象派創(chuàng)始人莫奈繪制的作品,通過(guò)圖像風(fēng)格遷移技術(shù)進(jìn)行融合,就能得到一張看起來(lái)像是由莫奈繪制的美國(guó)舊金山藝術(shù)宮的繪畫(huà)作品。最初的AI繪畫(huà)采用的正是這種技術(shù)。

不過(guò),在董未名看來(lái),圖像風(fēng)格遷移技術(shù)大多依賴的是生成式對(duì)抗網(wǎng)絡(luò)(GAN)算法,它最大的問(wèn)題是生成的繪畫(huà)作品藝術(shù)性不強(qiáng),筆觸和構(gòu)圖讓人覺(jué)得與真實(shí)的繪畫(huà)有差距,所以長(zhǎng)久以來(lái),AI繪畫(huà)一直“籍籍無(wú)名”。

當(dāng)圖像風(fēng)格遷移技術(shù)還在掙扎于輸出作品的審美問(wèn)題時(shí),圖文預(yù)訓(xùn)練模型的出現(xiàn),加速了AI繪畫(huà)的崛起。

“依托圖文預(yù)訓(xùn)練模型,只要輸入一句話或者上傳一幅風(fēng)格明顯的圖片,算法就能將圖像特征和文字特征‘對(duì)齊’。生成的繪畫(huà)作品的內(nèi)容特征和上傳圖片的內(nèi)容相似,藝術(shù)性也比圖像風(fēng)格遷移技術(shù)生成的圖片強(qiáng)很多?！倍疵e例,比如支撐圖文預(yù)訓(xùn)練模型的可對(duì)比語(yǔ)言—圖像預(yù)訓(xùn)練(CLIP)算法,就是利用圖文特征“對(duì)齊”的能力,再結(jié)合已有的生成模型,實(shí)現(xiàn)“以圖生圖”或者“圖+文”生圖。

不過(guò),董未名坦言,圖文預(yù)訓(xùn)練模型的推廣也存在一些爭(zhēng)議,有部分人認(rèn)為,該模型在訓(xùn)練前期,需要用大量的圖形處理器(GPU)進(jìn)行數(shù)據(jù)訓(xùn)練,耗電量大、成本很高,而該模型的應(yīng)用場(chǎng)景卻不夠清晰。但也有人認(rèn)為,也許該模型未來(lái)可以打造為通用的人工智能模型,用它完成更多的算法作業(yè),只是這還需要時(shí)間的驗(yàn)證。

誠(chéng)然沒(méi)有一項(xiàng)技術(shù)是完美的,這也為人類探究更先進(jìn)的技術(shù)提供了無(wú)限動(dòng)力。當(dāng)下最流行的擴(kuò)散模型便是其中之一。

“目前最新的AI繪畫(huà)技術(shù)采用的就是擴(kuò)散模型,這種模型可以把一個(gè)隨機(jī)采樣的噪聲輸入模型,然后嘗試通過(guò)去噪來(lái)生成圖像?！倍疵硎?擴(kuò)散模型也存在弱點(diǎn),由于模型對(duì)圖片內(nèi)容識(shí)別的能力不足,或者難以完全理解識(shí)別文字的意義,以及訓(xùn)練數(shù)據(jù)的偏差,有時(shí)便會(huì)生成“四不像”的作品。此外,擴(kuò)散模型生成圖片的速度比較慢,目前還達(dá)不到實(shí)時(shí)生成圖片。

互聯(lián)網(wǎng)治理、元宇宙或潛藏應(yīng)用前景

AI繪畫(huà)目前的應(yīng)用場(chǎng)景,更多聚焦于社交軟件。近期在國(guó)內(nèi)社交網(wǎng)絡(luò)“火出天際”的AI繪畫(huà)軟件主要集中在小程序及App。隨著AI繪畫(huà)小程序的火爆,短視頻平臺(tái)抖音也迅速上線了AI繪畫(huà)特效。同時(shí),此前騰訊上線了“QQ小世界AI畫(huà)匠”活動(dòng),百度也推出了首款A(yù)I藝術(shù)和創(chuàng)意輔助平臺(tái)“文心一格”。

有了AI,人人都可以是藝術(shù)家。AI繪畫(huà)的出現(xiàn),恰如瑞士藝術(shù)家保羅·克利所言:“藝術(shù)不是再現(xiàn)可見(jiàn),而是使不可見(jiàn)成為可見(jiàn)。”“AI現(xiàn)在已經(jīng)完美實(shí)現(xiàn)了這一目標(biāo),人們可以通過(guò)機(jī)器計(jì)算來(lái)繪制出很多現(xiàn)實(shí)中見(jiàn)不到的場(chǎng)景?！倍疵麜诚?不遠(yuǎn)的將來(lái),AI繪畫(huà)或許還將展現(xiàn)更豐富的應(yīng)用場(chǎng)景。

“現(xiàn)在網(wǎng)絡(luò)上充斥著很多不良內(nèi)容,這些內(nèi)容為了逃避監(jiān)管經(jīng)常以繪畫(huà)的形式出現(xiàn),而當(dāng)前很多內(nèi)容識(shí)別模型對(duì)真實(shí)圖片識(shí)別得很準(zhǔn)確,但缺乏不良內(nèi)容藝術(shù)作品的相關(guān)訓(xùn)練數(shù)據(jù),所以對(duì)不良內(nèi)容識(shí)別不準(zhǔn)確。也許可以用AI繪畫(huà)技術(shù),積累不良內(nèi)容藝術(shù)作品的數(shù)據(jù),并用以訓(xùn)練識(shí)別模型,以提升互聯(lián)網(wǎng)內(nèi)容的安全監(jiān)管能力和識(shí)別的準(zhǔn)確率?！倍疵ㄗh。

在董未名看來(lái),作為一種藝術(shù)呈現(xiàn)形式,AI繪畫(huà)也將在元宇宙、設(shè)計(jì)、文旅等行業(yè)催生新的商業(yè)模式。例如AI繪畫(huà)目前在AI輔助創(chuàng)作、短視頻、影視制作和元宇宙等方面都有布局,因?yàn)檫@些賽道都離不開(kāi)創(chuàng)意,AI繪畫(huà)可以幫助創(chuàng)作者通過(guò)簡(jiǎn)單的特征輸入,實(shí)現(xiàn)對(duì)其創(chuàng)意的預(yù)覽,甚至可以直接進(jìn)行創(chuàng)作。

不過(guò),董未名并不諱言,當(dāng)下AI繪畫(huà)仍然存在版權(quán)爭(zhēng)議問(wèn)題。AI繪畫(huà)的核心是模型,而訓(xùn)練模型需要使用大量圖像、文本數(shù)據(jù)。對(duì)于未經(jīng)授權(quán)的圖片,經(jīng)過(guò)運(yùn)算之后所生成的圖像版權(quán)歸屬尚難界定?！坝械漠?huà)家風(fēng)格特別明顯,如果用畫(huà)家的畫(huà)去訓(xùn)練算法模型生成作品,那最后的版權(quán)屬于誰(shuí)呢?”董未名提出的問(wèn)題,正是多數(shù)AI繪畫(huà)作品所面臨的現(xiàn)實(shí)問(wèn)題。

AI繪畫(huà)掀起了一場(chǎng)資本的群體狂歡,希望有一天它能走出“照貓畫(huà)虎”的尷尬,真正服務(wù)藝術(shù)創(chuàng)作、創(chuàng)造更多價(jià)值。