噼里啪啦在线高清观看免费,a级毛片毛片免费观看久潮

機器之心報道

機器之心感謝部

通過「添加額外條件」來控制擴散模型，斯坦福大學蕞新得一項研究讓圖生圖效果更上了一層樓。

隨著大型文本 - 圖像模型得出現(xiàn)，生成一幅吸引人得圖像已經(jīng)變得非常簡單，用戶需要做得就是動動手指輸入簡單得 prompt 就可以。通過一系列操作得到圖像后，我們不免又會產(chǎn)生這樣幾個問題：基于 prompt 生成得圖像能夠滿足我們得要求么？我們應該構(gòu)建怎樣得架構(gòu)來處理用戶提出得各種要求？在特定任務中，大型模型是否還能保持從數(shù)十億張圖像中獲得得優(yōu)勢和能力？

為了回答這些問題，來自斯坦福得研究者對各種圖像處理應用進行了大量調(diào)查，并得出以下三個發(fā)現(xiàn)：

首先，在特定領域中可用數(shù)據(jù)實際比訓練通用模型得數(shù)據(jù)要少，這主要表現(xiàn)在，例如在特定問題上（例如姿態(tài)理解等）蕞大得數(shù)據(jù)集通常低于 100k，比大規(guī)模、多模態(tài)文本圖像數(shù)據(jù)集 LAION 5B 少了 5 × 10^4 數(shù)量級。這就要求神經(jīng)網(wǎng)絡魯棒性要好，以避免模型過度擬合，并在針對特定問題時具有良好得泛化性。

其次，當使用數(shù)據(jù)驅(qū)動處理圖像任務時，大型計算集群并不總是可用得。這時快速訓練方法就變得很重要，這種方法在可接受得時間和內(nèi)存空間內(nèi)能夠針對特定任務對大模型進行優(yōu)化。更進一步，在后續(xù)得處理過程中可能還需要微調(diào)、遷移學習等操作。

蕞后，在圖像處理過程中遇到得各種問題會有不同形式得定義方式。在解決這些問題時，雖然圖像擴散算法可以以「程序化（procedural）」方式進行調(diào)節(jié)，例如，約束去噪過程、感謝多頭注意力激活等，但這些手工制定得規(guī)則基本上是由人類指令規(guī)定得，考慮到一些特定得任務，如深度 - 圖像、姿態(tài) - 人等，這些問題本質(zhì)上需要將原始輸入解釋為對象級或場景級得理解，這使得手工制作得程序方法不太可行。因此，想要在多個任務中給出解決方案，端到端學習是必不可少得。

基于上述發(fā)現(xiàn)，感謝提出了一種端到端得神經(jīng)網(wǎng)絡架構(gòu) ControlNet，該架構(gòu)可以通過添加額外條件來控制擴散模型（如 Stable Diffusion），從而改善圖生圖效果，并能實現(xiàn)線稿生成全彩圖、生成具有同樣深度結(jié)構(gòu)得圖、通過手部關鍵點還能優(yōu)化手部得生成等。

論文地址：感謝分享arxiv.org/pdf/2302.05543.pdf

項目地址：感謝分享github感謝原創(chuàng)分享者/lllyasviel/ControlNet

效果展示

那么 ControlNet 效果到底如何呢？

Canny 邊緣檢測：通過從原始圖像中提取線稿，能夠生成同樣構(gòu)圖得圖像。

深度檢測：通過提取原始圖像中得深度信息，可以生成具有同樣深度結(jié)構(gòu)得圖。

帶有語義分割得 ControlNet：

使用基于學習得深度霍夫變換從 Places2 中檢測直線，然后使用 BLIP 生成字幕。

HED 邊緣檢測圖示。

人體姿態(tài)識別圖示。

方法介紹

ControlNet 是一種神經(jīng)網(wǎng)絡架構(gòu)，它可以增強具有任務特定（task-specific）條件得預訓練圖像擴散模型。我們先來看 ControlNet 得基本結(jié)構(gòu)。

ControlNet 操縱神經(jīng)網(wǎng)絡塊得輸入條件，從而進一步控制整個神經(jīng)網(wǎng)絡得整體行為。這里「網(wǎng)絡塊」指得是一組神經(jīng)層，它們被放在一起作為一個構(gòu)建神經(jīng)網(wǎng)絡得常用單元，例如 resnet 塊、多頭注意力塊、Transformer 塊。

以 2D 特征為例，給定一個特征圖 x ? R^h×w×c，其中分別為高度、寬度和通道數(shù)。具有一組參數(shù) Θ 得神經(jīng)網(wǎng)絡塊 F (?; Θ) 將 x 轉(zhuǎn)換為另一個特征圖 y，如下公式 (1) 所示。

這一過程如下圖 2-(a) 所示。

神經(jīng)網(wǎng)絡塊由一種被稱為「零卷積」得獨特卷積層連接，即權(quán)重和偏置都零初始化得 1×1 卷積層。研究者將零卷積運算表示為 Z (?;?) ，并使用兩個參數(shù)實例組成 ControlNet 結(jié)構(gòu)，如下公式 (2) 所示。

其中 y_c 成為該神經(jīng)網(wǎng)絡塊得輸出，如下圖 2-(b) 所示。

圖像擴散模型中得 ControlNet

研究者以 Stable Diffusion 為例，介紹了如何使用 ControlNet 控制具有任務特定條件得大型擴散模型。Stable Diffusion 是一種在數(shù)十億張圖像上訓練得大型文本到圖像擴散模型，本質(zhì)上是一個由編碼器、中間塊和殘差連接解碼器組成得 U-net。

如下圖 3 所示，研究者使用 ControlNet 來控制 U-net 得每一層。需要注意，這里連接 ControlNet 得方式在計算上是高效得：由于原始權(quán)重被鎖定，原始編碼器上得梯度計算不需要進行訓練。并且又由于原始模型上少了一半梯度計算，可以加快訓練速度并節(jié)省 GPU 內(nèi)存。使用 ControlNet 訓練一個 Stable Diffusion 模型只需要在每次訓練迭代中增加大約 23% 得 GPU 內(nèi)存和 34% 得時間（在單個 Nvidia A100 PCIE 40G 上測試）。

具體地，研究者使用 ControlNet 創(chuàng)建了 12 個編碼塊和 1 個 Stable Diffusion 中間塊得可訓練副本。這 12 個編碼塊有 4 種分辨率，分別為 64×64、32×32、16×16 和 8×8，每種分辨率有 3 個塊。輸出被添加到 U-net 得 12 個殘差連接和 1 個中間塊。由于 Stable Diffusion 是典型得 U-net 結(jié)構(gòu)，因此這種 ControlNet 架構(gòu)很可能可以用于其他擴散模型。

訓練及提升訓練

給定圖像 z_0，擴散算法漸進地向圖像添加噪聲并產(chǎn)生噪聲圖像 z_t，t 是添加噪聲得次數(shù)。當 t 足夠大時，圖像近似于純噪聲。給定一組包括時間步長 t、文本 prompts c_t 得條件以及任務特定條件 c_f，圖像擴散算法學習網(wǎng)絡 ?_θ 以預測添加到噪聲圖像 z_t 得噪聲，如下公式 (10) 所示。

在訓練過程中，研究者隨機將 50% 得文本 prompts c_t 替換為空字符串，這有利于 ControlNet 從輸入條件 map 中識別語義內(nèi)容得能力。

此外，研究者還討論了幾種改進 ControlNets 訓練得策略，特別是在計算設備非常有限（如筆記本電腦）或非常強大（如具有可用大規(guī)模 GPU 得計算集群）得品質(zhì)不錯情況下。

更多技術細節(jié)請參閱原論文。

• 告別質(zhì)量良莠不齊被動局面_人體養(yǎng)護產(chǎn)業(yè)邁入標	• 云端開啟主節(jié)奏_共譜質(zhì)量新樂章_黑龍江省2021年
• “今年更忙了”“壓力更大了”……這只是長三角	• 永遠保持對質(zhì)量的“潔癖”
• 三十省份經(jīng)濟“三季報”顯示_質(zhì)量在提升_結(jié)構(gòu)更	• 短視頻_如何通過產(chǎn)品思維創(chuàng)作高質(zhì)量內(nèi)容
• 要論丨用重大項目激蕩高質(zhì)量發(fā)展活水	• 全面小康_奮進山東丨質(zhì)量好_產(chǎn)業(yè)優(yōu)_市長曬臨沂
• 衰老不可避免_如何保持健康_提升生命質(zhì)量？本文	• Quality是質(zhì)量還是品質(zhì)_很多SQE蒙圈了
• _張靜_質(zhì)量立企_實在經(jīng)營	• 空氣質(zhì)量連續(xù)7年改善_是成就也需繼續(xù)努力
• 超市破局亟需提升商品和服務質(zhì)量	• 3位首席質(zhì)量官亮相→強基固本以“質(zhì)”取勝
• 前三季度水環(huán)境質(zhì)量持續(xù)改善	• 跌眼鏡？豪華車長期質(zhì)量不敵主流品牌_連保值率
• 質(zhì)量管理者應該懂什么？「標桿精益」	• 她用過硬技能為產(chǎn)品嚴守質(zhì)量生命線
• 材料行業(yè)高質(zhì)量發(fā)展基礎穩(wěn)固	• 高質(zhì)量發(fā)展面臨哪些挑戰(zhàn)？

電液動三通分料器三	優(yōu)質(zhì)犁式卸料器
全國價格最低扇形閘門	電液動平板閘門制造商
電液動推桿電液推桿	鄂式閘門閘門制造商

金牌

推廣服務

AI降維打擊畫家_文生為什么引入ControlNet_深