国产精品亚洲综合一区在线观看_久久天天躁夜夜躁狠狠苍井空_亚洲AV永久无码精品三区在线_久久夜色精品国产网站

論文插圖也能自動(dòng)生成了,用到了擴(kuò)散模型,

網(wǎng)絡(luò) 分享 時(shí)間: 收藏本文

論文插圖也能自動(dòng)生成了,用到了擴(kuò)散模型,

如果論文中的圖表不用繪制,對(duì)于研究者來說是不是一種便利呢?有人在這方面進(jìn)行了探索,利用文本描述生成論文圖表,結(jié)果還挺有模有樣的呢!

生成式 AI 已經(jīng)風(fēng)靡了人工智能社區(qū),無論是個(gè)人還是企業(yè),都開始熱衷于創(chuàng)建相關(guān)的模態(tài)轉(zhuǎn)換應(yīng)用,比如文生圖、文生視頻、文生音樂等等。

最近呢,來自 、 等科研機(jī)構(gòu)的幾位研究者嘗試基于文本描述生成論文中的圖表。為此,他們提出了一種 的新方法,相關(guān)論文還被 ICLR 2023 收錄為了 Tiny 。

生成論文的網(wǎng)站_自動(dòng)生成論文的網(wǎng)站_論文自動(dòng)生成器app

論文地址:

也許有人會(huì)問了,生成論文中的圖表有什么難的呢?這樣做對(duì)于科研又有哪些幫助呢?

科研圖表生成有助于以簡(jiǎn)潔易懂的方式傳播研究結(jié)果,而自動(dòng)生成圖表可以為研究者帶來很多優(yōu)勢(shì),比如節(jié)省時(shí)間和精力,不用花大力氣從頭開始設(shè)計(jì)圖表。此外設(shè)計(jì)出具有視覺吸引力且易理解的圖表能使更多的人訪問論文。

然而生成圖表也面臨一些挑戰(zhàn),它需要表示框、箭頭、文本等離散組件之間的復(fù)雜關(guān)系。與生成自然圖像不同,論文圖表中的概念可能有不同的表示形式,需要細(xì)粒度的理解,例如生成一個(gè)神經(jīng)網(wǎng)絡(luò)圖會(huì)涉及到高方差的不適定問題。

因此,本文研究者在一個(gè)論文圖表對(duì)數(shù)據(jù)集上訓(xùn)練了一個(gè)生成式模型,捕獲圖表組件與論文中對(duì)應(yīng)文本之間的關(guān)系。這就需要處理不同長(zhǎng)度和高技術(shù)性文本描述、不同圖表樣式、圖像長(zhǎng)寬比以及文本渲染字體、大小和方向問題。

在具體實(shí)現(xiàn)過程中,研究者受到了最近文本到圖像成果的啟發(fā),利用擴(kuò)散模型來生成圖表,提出了一種從文本描述生成科研圖表的潛在擴(kuò)散模型 ——。

這個(gè)擴(kuò)散模型有哪些獨(dú)到之處呢?我們接著往下看細(xì)節(jié)。

模型與方法

研究者從頭開始訓(xùn)練了一個(gè)潛在擴(kuò)散模型。

首先學(xué)習(xí)一個(gè)圖像自動(dòng)編碼器,用來將圖像映射為壓縮的潛在表示。圖像編碼器使用 KL 損失和 OCR 感知損失。調(diào)節(jié)所用的文本編碼器在該擴(kuò)散模型的訓(xùn)練中端到端進(jìn)行學(xué)習(xí)。下表 3 為圖像自動(dòng)編碼器架構(gòu)的詳細(xì)參數(shù)。

然后,該擴(kuò)散模型直接在潛在空間中進(jìn)行交互,執(zhí)行數(shù)據(jù)損壞的前向調(diào)度,同時(shí)學(xué)習(xí)利用時(shí)間和文本條件去噪 U-Net 來恢復(fù)該過程。

自動(dòng)生成論文的網(wǎng)站_生成論文的網(wǎng)站_論文自動(dòng)生成器app

至于數(shù)據(jù)集,研究者使用了 ,它由論文中的圖表文本對(duì)組成,包含了 81,194 個(gè)訓(xùn)練樣本和 21,259 個(gè)驗(yàn)證樣本。下圖 1 為 測(cè)試集中使用文本描述生成的圖表示例。

自動(dòng)生成論文的網(wǎng)站_生成論文的網(wǎng)站_論文自動(dòng)生成器app

模型細(xì)節(jié)

首先是圖像編碼器。第一階段,圖像自動(dòng)編碼器學(xué)習(xí)一個(gè)從像素空間到壓縮潛在表示的映射,使擴(kuò)散模型訓(xùn)練更快。圖像編碼器還需要學(xué)習(xí)將潛在圖像映射回像素空間,同時(shí)不丟失圖表重要細(xì)節(jié)(如文本渲染質(zhì)量)。

為此,研究者定義了一個(gè)具有瓶頸的卷積編解碼器,在因子 f=8 時(shí)對(duì)圖像進(jìn)行下采樣。編碼器經(jīng)過訓(xùn)練可以最小化具有高斯分布的 KL 損失、VGG 感知損失和 OCR 感知損失。

其次是文本編碼器。研究者發(fā)現(xiàn)通用文本編碼器不太適合生成圖表任務(wù)。因此他們定義了一個(gè)在擴(kuò)散過程中從頭開始訓(xùn)練的 Bert ,其中使用大小為 512 的嵌入通道,這也是調(diào)節(jié) U-Net 的跨注意力層的嵌入大小。研究者還探索了不同設(shè)置下(8、32 和 128)的 層數(shù)量的變化。

最后是潛在擴(kuò)散模型。下表 2 展示了 U-Net 的網(wǎng)絡(luò)架構(gòu)。研究者在感知上等效的圖像潛在表示中執(zhí)行擴(kuò)散過程,其中該圖像的輸入大小被壓縮到了 ,使擴(kuò)散模型更快。他們定義了 1,000 個(gè)擴(kuò)散步驟和線性噪聲調(diào)度。

生成論文的網(wǎng)站_自動(dòng)生成論文的網(wǎng)站_論文自動(dòng)生成器app

訓(xùn)練細(xì)節(jié)

為了訓(xùn)練圖像自動(dòng)編碼器,研究者使用了一個(gè) Adam 優(yōu)化器,它的有效批大小為 4 個(gè)樣本、學(xué)習(xí)率為 4.5e?6,期間使用了 4 個(gè) 12GB 的英偉達(dá) V100 顯卡。為了實(shí)現(xiàn)訓(xùn)練穩(wěn)定性,他們?cè)?50k 次迭代中 模型,而不使用判別器。

對(duì)于訓(xùn)練潛在擴(kuò)散模型,研究者也使用 Adam 優(yōu)化器,它的有效批大小為 32,學(xué)習(xí)率為 1e?4。在 數(shù)據(jù)集上訓(xùn)練該模型時(shí),他們用到了 8 塊 80GB 的英偉達(dá) A100 顯卡。

實(shí)驗(yàn)結(jié)果

在生成過程中,研究者采用了具有 200 步的 DDIM 采樣器,并且為每個(gè)模型生成了 12,000 個(gè)樣本來計(jì)算 FID, IS, KID 以及 OCR-SIM1。穩(wěn)重使用無分類器指導(dǎo)(CFG)來測(cè)試超調(diào)節(jié)。

下表 1 展示了不同文本編碼器的結(jié)果??梢?,大型文本編碼器產(chǎn)生了最好的定性結(jié)果,并且可以通過增加 CFG 的規(guī)模來改進(jìn)條件生成。雖然定性樣本沒有足夠的質(zhì)量來解決問題,但 已經(jīng)掌握了文本和圖像之間的關(guān)系。

自動(dòng)生成論文的網(wǎng)站_論文自動(dòng)生成器app_生成論文的網(wǎng)站

下圖 2 展示了調(diào)整無分類器指導(dǎo)(CFG)參數(shù)時(shí)生成的額外 樣本。研究者觀察到增加 CFG 的規(guī)模(這在定量上也得到了體現(xiàn))可以帶來圖像質(zhì)量的改善。

自動(dòng)生成論文的網(wǎng)站_生成論文的網(wǎng)站_論文自動(dòng)生成器app

下圖 3 展示了 的更多生成示例。要注意樣本之間長(zhǎng)度的變化,以及文本描述的技術(shù)水平,這會(huì)密切影響到模型正確生成可理解圖像的難度。

論文自動(dòng)生成器app_自動(dòng)生成論文的網(wǎng)站_生成論文的網(wǎng)站

不過研究者也承認(rèn),盡管現(xiàn)在這些生成的圖表不能為論文作者提供實(shí)際幫助,但仍不失為一個(gè)有前景的探索方向。

相關(guān)專題 科普
信息流廣告 網(wǎng)絡(luò)推廣 周易 易經(jīng) 代理招生 二手車 網(wǎng)絡(luò)營(yíng)銷 招生代理 旅游攻略 非物質(zhì)文化遺產(chǎn) 查字典 精雕圖 戲曲下載 抖音代運(yùn)營(yíng) 易學(xué)網(wǎng) 互聯(lián)網(wǎng)資訊 成語 成語故事 詩詞 工商注冊(cè) 注冊(cè)公司 抖音帶貨 云南旅游網(wǎng) 網(wǎng)絡(luò)游戲 代理記賬 短視頻運(yùn)營(yíng) 在線題庫 國(guó)學(xué)網(wǎng) 知識(shí)產(chǎn)權(quán) 抖音運(yùn)營(yíng) 雕龍客 雕塑 奇石 散文 自學(xué)教程 常用文書 河北生活網(wǎng) 好書推薦 游戲攻略 心理測(cè)試 石家莊人才網(wǎng) 考研真題 漢語知識(shí) 心理咨詢 手游安卓版下載 興趣愛好 網(wǎng)絡(luò)知識(shí) 十大品牌排行榜 商標(biāo)交易 單機(jī)游戲下載 短視頻代運(yùn)營(yíng) 寶寶起名 范文網(wǎng) 電商設(shè)計(jì) 免費(fèi)發(fā)布信息 服裝服飾 律師咨詢 搜救犬 Chat GPT中文版 經(jīng)典范文 優(yōu)質(zhì)范文 工作總結(jié) 二手車估價(jià) 實(shí)用范文 愛采購(gòu)代運(yùn)營(yíng) 古詩詞 衡水人才網(wǎng) 石家莊點(diǎn)痣 養(yǎng)花 名酒回收 石家莊代理記賬 女士發(fā)型 搜搜作文 石家莊人才網(wǎng) 銅雕 詞典 圍棋 chatGPT 讀后感 玄機(jī)派 企業(yè)服務(wù) 法律咨詢 chatGPT國(guó)內(nèi)版 chatGPT官網(wǎng) 勵(lì)志名言 河北代理記賬公司 文玩 朋友圈文案 語料庫 游戲推薦 男士發(fā)型 高考作文 PS修圖 兒童文學(xué) 買車咨詢 工作計(jì)劃 禮品廠 舟舟培訓(xùn) IT教程 手機(jī)游戲推薦排行榜 暖通,電采暖, 女性健康 苗木供應(yīng) ps素材庫 短視頻培訓(xùn) 優(yōu)秀個(gè)人博客 包裝網(wǎng) 創(chuàng)業(yè)賺錢 養(yǎng)生 民間借貸律師 綠色軟件 安卓手機(jī)游戲 手機(jī)軟件下載 手機(jī)游戲下載 單機(jī)游戲大全 免費(fèi)軟件下載 網(wǎng)賺 手游下載 游戲盒子 職業(yè)培訓(xùn) 資格考試 成語大全 英語培訓(xùn) 藝術(shù)培訓(xùn) 少兒培訓(xùn) 苗木網(wǎng) 雕塑網(wǎng) 好玩的手機(jī)游戲推薦 漢語詞典 中國(guó)機(jī)械網(wǎng) 美文欣賞 紅樓夢(mèng) 道德經(jīng) 網(wǎng)站轉(zhuǎn)讓 鮮花 社區(qū)團(tuán)購(gòu) 石家莊論壇 書包網(wǎng) 電地暖 在線新華字典 雅思培訓(xùn)