Re: [問題] AI 風格怎麼了嗎？為什麼容易膩？

作者Satoman (沙陀曼)

看板C_Chat

標題Re: [問題] AI 風格怎麼了嗎？為什麼容易膩？

時間Mon Nov 4 23:07:05 2024

※ 引述《lcomicer (冷水青蛙鍋)》之銘言： : 可能大多套用相同模型去跑是其一

推 SaberMyWifi: 新手調的AI幾乎都預設出來的不耐看，高手調的就很棒11/03 10:21

推 uohZemllac: 因為有在認真專研做出變化的的ai繪師少之又少11/03 10:25

→ uohZemllac: 一堆一看就是直接用sd洗版的能不膩ㄇ11/03 10:25

其實和大家想的剛好相反，那些「看起來很膩」的AI圖其實才是許多不同的模型分別生出來的。而所謂「風格比較多變」、「不是預設畫風」的AI圖，生那些圖的人搞不好換模型的頻率還沒「看起來很膩」的多。首先要說明一件事，除非你用的是線上生成網站如midjourney，否則大家用的大多都是SD stable diffusion，或是其模型或技術本身的衍生產物。另外，AI沒有預設的畫風或模型。真的要講預設，如果你用的是工具是最入門的automatic1111 webui懶人安裝包的話，他的確是會預設幫你下載一個模型叫SD15NewVAEpruned。但假設我想用這個模型生一個穿著洋裝的少女走在海邊的日式ACG風格圖片，那這個模型生出來的東西可能長這樣： https://iili.io/2xCWcNe.png

或這樣： https://iili.io/2xCW6JI.png

上下取決於你要用咒文式提詞或自然語言提詞，但結果都是不可名狀之物。這其實就是早期被認為能實用的圖片生成模型stable diffusion1.5。基本上，陽春版的stable diffusion1.5並沒有針對日式ACG風格訓練，因此生成不可名狀之物是注定的結果。第一個嘗試讓AI學習的模型基於SD再訓練的是Waifu Diffusion，早期的WD生出來的圖片大概是長這樣： https://iili.io/2xCvzxI.png

另一方面，原本主打線上AI小說生成的網站novelai則是以SD1.5為基底訓練，推出了在宅圖生成方面相當卓越的線上生圖服務。 novelai生成的圖片大概長這樣(有沒有開始膩了)： https://iili.io/2xCStln.png

novelai不知道是公司內部本身的愛好，還是基於市場策略，在當時主流都在研究真人圖片或照片的時候，他們主打宅圖這招算是確立了市場獨特性。至於他們成功的秘訣其實也很粗暴簡單，就是直接把網路上最大的宅圖盜圖網站當訓練集給AI學習。而無心插柳柳橙汁，他們在訓練時把網站的分類tag也一起讓AI學了，這讓novelai的模型對於標籤式的提詞有相當的理解能力，取代自然語言的「咒文」也開始流行。 (附帶一提，最新的Flux模型主打自然語言，但是那個自然語言有時候寫起來更像咒文 ==) 如果你提詞打得夠全，那它甚至能生出某些在訓練集中佔比較高的熱門角色，像這樣： https://iili.io/2xCs3Is.png

這件事的爭議其實很大，畢竟它訓練集來源是盜圖網站，而它也沒經過對方允許，等於是盜上加盜。然後呢，相當戲劇性的，novelai的模型某一天就突然被人幹出來了。這個外洩的模型一般通稱為NAI，很快就被各路人馬抓來進行各種調整訓練。事實上，前年至去年的ACG風格的AI圖可能有九成以上都是基於NAI的衍伸產物。再加上微調模型Lora解決了AI無法生成冷門和新角色的短版， AI群魔亂舞的時代時代也隨之開啟。這時代的模型生成的圖片大致上長這樣，像是熱門模型hassaku： https://iili.io/2xCyl3b.png

(這張圖應該最膩，沒錯吧？) 同樣也很熱門，眩光效果突出的Cetus-Mix則是長這樣： https://iili.io/2xnd6b4.png

(應該也很膩吧，這模型是當時很多推特AI仔的首選) 又或是我認為最傑出，擅長把背景搞得異常豐富(雜亂)的agelesnate： https://iili.io/2xn95RR.png

(這張應該沒那麼膩，因為這模型比較沒有名氣) 各位仔細瞧的話應該會發現，這三張圖片乍看之下畫風不同，但是其實都可以看出來是原始NAI的衍伸產物。 SD1.5由於設備需求較低，當時的AI仔社群比現在活躍許多，很多人用自家顯卡，以NAI為底搞出各種不同的混合模型。但由於當時原始模型SD1.5的上限，當時的AI圖除非加上風格強烈的畫風lora，否則都很難完全脫出NAI的既成風格。所以那個時代的圖片大家看得最膩，但實際上模型種類卻是最多的。至今SD1.5還是有不少使用者，因為它需求的設備較低，能用4GB的顯存勉強跑。另外也有不少人是覺得SD1.5選擇多、變化多，或是單純喜歡這種風格因此留在1.5時代。下個時代則是stable diffusion XL的時代，簡稱SDXL。 stable diffusion的母公司在stable diffusion 2遭遇了滑鐵盧等級的慘敗， SD2相比SD1.5並沒有顯著的成果提升，而且還刪除了色情圖片的生成能力。沒有色情的開源模型價值可想而信的是低到不行，結果當然是直接被大多數AI仔蛋雕。雖然他們是後有搞個SD2.1補救，但為時已晚。之後推出的SDXL則是一開始沒在AI宅圖圈引起太多波瀾，但是數個月後隨後基於SDXL調整訓練的模型則是徹底改變了AI仔的生態。第一個是Pony，這也算是一個無心插柳柳橙汁的模型。如同名稱，Pony主要的學習目標是彩虹小馬，但是最終的成果是則是一個泛用性高，在各方面都有及格水準的模型。原始的Pony生成的結果較接近歐美審美，最熱門的衍伸模型AutismMix生成結果則是這樣： https://iili.io/2xord8X.png

這結果一路看下來應該很多人會覺得人物立像沒有進度，可能還退步了。是的，Pony系的模型的缺點不少。最明顯的就是整體生成結果偏暗，用色偏髒。另外由於訓練流程中出錯，pony在生圖時必須打上審美分級標籤作為提詞和負面提詞，這點也讓部分使用者頗為詬病。最麻煩的一點則是Pony的Lora必須為它專屬，不僅是以前SD1.5不通用，連其他以SDXL為基底的LORA也無法完全適用於Pony模型。但是以下這張圖可以清楚地告知為何缺點一多，它仍成為目前最流行的開源宅圖模型。 https://iili.io/2xobwFa.png

對，Pony系模型對於提詞的理解遠高於過往的SD1.5、NAI模型。特別是在「多人互動」方面，坦白講就是：「色圖」。基於SDXL的Pony本身對於提詞的理解力遠高於SD1.5數倍，像上面那張圖片在SD1.5時代抽了亂數幾百張，掛了好幾個外掛尿袋，用inpaint塗塗抹抹了大半天可能都不一定生不出來。但是在Pony時代，這類圖片卻只要不到一分鐘的時間輸入提詞，並且調整一下分區外掛就能快速生成，節省的時間可能有數百倍之多。這張綾波零明日香我甚至沒有抽亂數，是直接拿第一張生成的圖片。 Pony出現的時機也和最大的AI模型網站civitai開始線上生成服務相應， civitai對於Pony的推廣在當時也算是不遺餘力，促成了現今Pony一統天下的局面。另外一個熱門模型則是Animagine XL，其生成的圖片如下： https://iili.io/2xzlDwg.png

平心而論，個人覺得Animagine XL生的圖其實比pony好看，它的Lora能與其他SDXL模型互通也是其優勢。 Animagine XL和pony孰優孰劣其實一直是AI仔的熱門論戰。不少幫Animagine抱屈的人會覺得它只是敗在Pony的色圖攻勢，反方也有人認為Pony並不是真的只靠色圖，而是單純在理解提詞方面勝出。總之，這個模型也是有其愛好者。雖然在色圖方面較為不足，但是在非多人運動圖片，特別是單人角色圖方面有其優勢所在。那就回到開頭了，那些「風格比較多變」的AI仔用的模型最有可能是什麼呢？是Pony還是Animagine XL？答案是：復仇歸來的novelai的SDXL新模型novelai3，俗稱NAI3。平心而論，在色圖方面NAI3仍是略遜Pony一籌，但是它有自己的三個獨特優勢： 1.認識的角色多且完成度高，特別是當時的熱門手遊角色如：檔案、馬娘或原神。 2.認識的畫師畫風多且再現率極高。 3.擅長把以上兩者混合。以檔案角色舉例來講，大概就這樣： https://iili.io/2xTBG0G.png

然後1+2玩久了之後，就有人開始嘗試2+2，也就是將不同的畫師風格混合，甚至是1+2+2。一樣以檔案角色舉例來講，大概就這樣： https://iili.io/2xTNGt4.png

或這樣： https://iili.io/2xTSnSI.png

又或者這樣： https://iili.io/2xTPTD7.png

是的，大部分的AI仔達成「風格比較多變」這個前提其實不是他們自己有練模型，也不是他們經常換模型。而是他們使用的模型本身就能以提詞去拼、去疊、去組合、去接龍，以不同畫師的畫風組合達成風格多變，甚至是「沒有AI味的效果」。要達成這種效果，其實也就是在提詞寫上角色名字+畫師名字+畫師名字一直往下疊。單以圖片生成來講，這有很難嗎？一開始接觸如果你平常沒在追畫師可能確實有點難度，但是熟了，或者從別人那邊要到提詞，單純疊畫師也是幾分鐘內的事情。以現在來講，由於SD1.5和Pony都是以清潔的線條與均勻上色的風格為主。所以AI仔在疊畫師通常會選擇那些線條筆觸強烈(或者相反沒什麼線條)，上色色塊明顯，但是臉部特色又沒有太獨特的畫風為主。甚至有些人為了加強筆觸，會把以前通常放在負面提詞的sketch(素描)拉到正面提詞。最衰，最常被拿來疊的大概就以下幾位： TrNyteal(我感覺幾乎每張都有他 ==)、藤ちょこ、にんげんまめ、rei_17、DSマイル、ヒトこもる等等。然後疊完可能還會再追加幾個畫風比較強烈的來修補。例如覺得圖片太平沒立體和光影就疊個as109、不夠美少女畫風就疊個YD試試、想要偏寫實一點就疊個wlop、想要特別一點的風格就加上ratatatat74等等。對了，有些畫師的名字建議別在公開場合估狗，社會性死亡機率很高 == 所以真的是風格多變就是所謂的「用心的咒術師」嗎，也不一定，在電腦前的他其實搞不好其實只是一直在玩畫風疊疊樂，然後拉長圖片放出時間而已。甚至我都在懷疑某些說自己有加筆的根本沒加，不然就是只修最容易看出破綻的眼睛和手。至於之後嗎？ novelai我記得很久以前就說在弄NAI4了，只不過目前還沒消息。開源部分，其實在今年中左右Kohaku(這位是台灣高材生)在今年初弄出來的模型Kohaku-XL系列，在角色認知和疊畫風方面已經可以有和NAI3互角的本錢。只可惜他本人似乎沒有足夠的設備($$)提供算力讓模型精益求精。我手上的Kohaku-XL Epsilon用疊疊樂生圖的結果大概長這樣： https://iili.io/2xAUJJp.png

前月推出的開源模型Illustrious XL則是以Kohaku-XL為基礎，而它本身和衍伸的各模型實質上已經在各方面超越了Pony和NAI3。寫到這邊我懶得再切模型讀取了，直接貼今天和前幾天測試的疊疊樂 == https://iili.io/2xAtcJe.png

https://iili.io/2xREcml.png

https://iili.io/2xAtAs2.png

https://iili.io/2xAtzbf.png

https://iili.io/2xAt5fS.png

https://iili.io/2xAtuWl.png

(角色方面除了小孤獨其它有套角色Lora) 這些疊疊類有些是我自己亂湊，有些是照抄別人的，總之大部分脫離不開上面的提及的可憐畫師。雖然不是同一個模型生的圖，但是原理基本上大同小異，也都是Illustrious XL的衍伸產物。我以前說過Illustrious XL在色圖方面沒Pony強，但過了一個月一些優秀的微調模型問世之後在色圖上Illustrious XL也確實超越了Pony。至於為什麼現在Illustrious XL還沒有倒非常熱門？還是一堆人在Pony？真正的原因大概是civitai正在全力推廣那個又肥又貴，寫自然語言能寫到比標籤提詞更像咒文的flux吧 == 回標題，那些AI圖看不膩？對AI仔我來講，只要是願意公布自己的生成提詞和參數的圖片，不管它是什麼風格什麼模型，我看再多都不會膩。而那些想賺熱度，對生成細節和技術一個字不提，只寫個「AI生成」、「AI加筆」的推特AI仔的圖倒是真的膩。 (因為用了蘿莉相關提詞怕被搞的不公布不算，這點我可以理解 ==) 甚至還有那種明明就自己加了一堆尿袋外掛，提詞寫得天花亂墜去千方百計去引導AI，尿袋裡的尿都快滿出來了，卻硬要說成「AI想的」那種更是膩上加膩 == 至於那種明明是AI圖卻不標註的也沒啥好講，就是想騙熱度而已 == 啊對了，別問我為什麼不公布參數和提詞。我沒寫出來是因為這個圖床有保留PNG INFO，想要的可以直接自取 == -- (と・てノ) 翼龍欸 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.128.113 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1730732828.A.70C.html