【澳門精準49圖庫資料】
【馬會專真澳門】
【管家婆一碼一肖正確100】
【管家婆澳門精準一碼一肖】
【澳門正版東方心經(jīng)AB】
【管家婆三肖一馬】
【香港正版寶典資料大全】
【2024年新奧門王中王資料、】
【澳門資料大全兔費資料】
【澳門彩霸王免費資料大全集1718】
【香港金多寶網(wǎng)站論壇】
【澳門最快開獎六開彩結果】
【新港澳開獎歷史記錄查詢結果】
【澳門今期開獎結果開獎記錄查詢表下載了】
【曬碼匯49圖庫開獎網(wǎng)站】
【夜明珠預測一ymz02開獎資料】
【天下彩天空彩票免費資料大全香港】
【2024澳門資料天機泄密】
【二四六文字資料】
【老財神78049】
【手機香港最快開獎網(wǎng)站】
【2024澳門精準正版資料大全下載】
【小魚兒期期30碼高手論壇】
【澳門2024免費資料大全】
【香港正版資料大全網(wǎng)站】


新智元報道

編輯:LRST 好困

【新智元導讀】拯救4bit擴散模型精度,僅需時間特征維護——以超低精度量化技術重塑圖像內容生成!

近日,北航、莫納什、UT Austin聯(lián)合推出了時間特征維護的擴散模型低精度無損量化方法TFMQ-DM。

不僅以4bit的權重大小實現(xiàn)了目前無損條件下最極限的擴散模型訓練后壓縮,同時還實現(xiàn)了超過2.38倍真實硬件加速。

這一發(fā)現(xiàn)再次將Diffusion壓縮推向全新的高度。

目前,該工作已被CVPR 2024高分接收,并被接收為Highlight Poster (Top 2.8%)。


論文地址:https://arxiv.org/pdf/2311.16503

代碼地址:https://github.com/ModelTC/TFMQ-DM

擴散模型由于引入了時間變量t,于是在模型中注入了時序信息,這正是擴散模型不同于以往傳統(tǒng)視覺模型的一大特征。

同時該變量也通過將時序特征融入模型去控制去噪過程。研究人員首次定義了時間特征emb,同時發(fā)現(xiàn)現(xiàn)有量化算法對于這些特征將產(chǎn)生嚴重擾動,從而破壞圖片生成質量:

1. 時間特征擾動:研究人員發(fā)現(xiàn)量化導致了明顯的時間特征誤差,并將這種特征錯誤內的擾動現(xiàn)象稱為時間特征擾動;

2. 時間信息失配:時間特征擾動改變了原始嵌入的時間信息。具體來說,旨在對應于時間步長。然而,由于存在顯著的誤差,量化模型的不再準確地與相關聯(lián),傾向于與對應的時間特征更為接近,這導致了該方法所說的時間信息不匹配;

3. 去噪軌跡偏離:時間信息不匹配傳遞了錯誤的時間信息,因此導致圖像在去噪軌跡中對應的時間位置發(fā)生了偏差,最終導致圖片不再按原軌跡去噪:



(Diffusion中的時間特征擾動)

擾動誘因分析

研究人員發(fā)現(xiàn)該擾動主要由以下兩個原因造成:

1. 不合適的重建對象:已有量化重建方法并未直接優(yōu)化時間特征,同時時間特征將會受到有限的校準數(shù)據(jù)影響產(chǎn)生過擬合現(xiàn)象,如下圖Prev所示,其中Freeze代表凍結相關量化參數(shù);


2. 忽略了時間特征相關模塊中的有限激活:由于輸入是有限整數(shù),因此產(chǎn)生時間特征的模塊將僅產(chǎn)生有限且隨時間變化的激活,而已有量化策略均考慮分布層級優(yōu)化,忽略了對于此類有限激活的擬合近似。


(Diffusion中時間特征相關模塊有限激活)

時間特征維護-——TFMQ-DM

基于以上的誘因分析研究人員提出了如下時間特征維護策略,在低bit量化下完美的保證了Diffusion模型的時間特征精度與圖像生成質量。


(TFMQDM整體壓縮框架)

1. 時間信息塊:將時間特征生成相關模塊進行整合得到時間信息塊(見框架圖):

2. 時間信息感知重建:基于時間信息塊,研究人員提出了時間信息感知重建 (TIAR) 來應對第一個誘因。在重構過程中,該塊的優(yōu)化目標如下:

3. 有限集校準:為了解決第二個誘因中有限集內激活范圍寬泛的挑戰(zhàn),研究人員提出了有限集校準 (FSC) 用于激活量化。這個策略為所有時間信息塊內的每個激活使用T組量化參數(shù),例如激活x的量化參數(shù)可為。在時間步長為t時,x的量化函數(shù)可以表示為:

其中sT, zt分別為量化縮放因子和零偏移。

實驗結果

研究團隊在DDIM,LDM以及Stable Diffusion系列模型上驗證了無條件生成、分類條件生成、文本條件以及多種先進采樣器生成下TFMQ-DM框架性能。

TFMQ-DM在平均4或8 bit權重,8或32 bit激活時,所有評價指標均超過Q-Diffusion,PTQD等已有最先進方法,且在大部分場景下,該方案使用4bit權重量化超越了已有技術在8-bit權重甚至于全精度權重的模型的性能。

結果表明,TFMQ-DM率先在4bit權重、8bit權重下實現(xiàn)了對于 Diffusion的無損壓縮加速,推動了Diffusion無訓練量化的邊界。


(LDM系列無條件生成對比結果)


(左:LDM系列分類條件生成對比結果;右:DDIM系列無條件生成對比結果)

具體來說,在 CelebA-HQ 256 × 256 數(shù)據(jù)集上,與當前最先進的方法相比,該團隊的方法在 w4a8 設置下將FID與sFID分別降低了 6.71和 6.60(越低越好)。

值得注意的是,現(xiàn)有方法,無論是4 bit還是8bit權重量化,在人臉數(shù)據(jù)集如 CelebA-HQ 256 × 256 和 FFHQ 256 × 256 上與 FP 模型相比都顯示出明顯的性能下降,而 TFMQ-DM 與全精度模型相比幾乎沒有性能損失。


(Stable Diffusion系列文本條件生成對比結果)


(左:PLMS系列先進采樣器無條件生成對比結果右:DPM++系列先進采樣器無條件生成對比結果)

此外,對于當下最流行的文本條件生成類模型Stable Diffusion,TFMQ-DM在 w8a8 設置下的 FID 和在 w4a32 設置下的 sFID 甚至略低于全精度模型。

然而,雖然現(xiàn)有的指標無法充分評估生成圖像的語義一致性以及物體細節(jié),該團隊提出的方法產(chǎn)生了更高質量的圖像(見后文),具有更真實的細節(jié),更好地展示了語義信息。

由于現(xiàn)有指標并不能完全反映生成圖像效果的優(yōu)劣,該團隊研究人員提供了大量可視化效果對比圖,體現(xiàn)出更加細膩和準確的生成質量:


(LDM上無條件圖像生成效果圖)


(LDM上分類條件圖像生成效果圖)


(Stable Diffusion上文本條件圖像生成效果圖,左提示詞:“A digital illustration of the Babel tower, detailed, trending in artstation, fantasy vivid colors”。右提示詞:“A beautiful castle beside a waterfall in the woods”。)

除測試集精度和可視化效果外,團隊人員還在Intel? Xeon? Gold 6248R 處理器上驗證框架的推理加速效果,相比原始浮點模型實現(xiàn)了 2.38 倍的顯著速度提升。


(Stable Diffusion在CPU上真實加速)

總結

基于時間特征維護的校準量化可確保 Diffusion的量化參數(shù)準確保留原始時間信息。廣泛的實驗證明,TFMQ-DM 在 DDIM、LDM及Stable-Diffusion 系列中實現(xiàn)了令人信服的精度提升,尤其是在w4a8等極低比特設置下表現(xiàn)出了明顯優(yōu)勢;同時該方案也實現(xiàn)了真實硬件部署加速。

其次TFMQ-DM 具有良好的兼容性,可與各種Diffusion量化框架無縫集成。總的來說,TFMQ-DM 提供的顯著量化精度提升與其對于硬件的高度友好,有助于在資源受限的情況下進行實際部署,進一步促進了文生圖模型的更廣泛普及和應用。

TFMQ-DM 具有顯著的兼容性,可與各種Diffusion量化框架無縫集成。TFMQ-DM 提供的顯著量化精度,有助于在資源受限的情況下進行實際部署。

參考資料:

https://arxiv.org/pdf/2311.16503