ComicCraft

詳細

ファイルをダウンロード

モデル説明

はじめに

これは、特にコミックに焦点を当てた西洋スタイルに特化したモデルです。このモデルの主な目的は、複数の異なるスタイルや顔を生成できるようにすることでした。そのため、アーティストや人物、スタイルの名前は、単一のスタイルを生成することを目的とした他のモデルよりも強い影響を持ちます。色は大抵、比較的鮮やかです。このモデルは、こちらで言及されているモデル評価テストのほとんどをパスできますが、モデルの「ベーススタイル」は、若干の筆致効果と現実的な比率を持つイラストレーションです。

サンプル画像では、他のモデルの紹介で使われたいくつかのプロンプトを使用し、LoRAは一切使用せず、ネガティブプロンプトも極力使用せずに、このモデルがどのような結果を生み出すかを示すよう試みました。また、すべての画像は同じシードで生成されているため、選りすぐられたものではありません。

知っておくとよい点

他のモデルを使用するのとそれほど変わらないかもしれませんが、通常のプロンプトに加えて、画像タグには「スタイル」と「被写体」の2つの主要な部分が含まれます。

スタイル部分は、次のようなシンプルな構造です:

<epoch> <genre> <medium> <form> by <artist>

各コンポーネントは以下のようになります:

  • epoch: classic(古典的), vintage(ヴィンテージ), retro(レトロ), retro futurism(レトロ・フューチャリズム), 40s(1940年代), 50s(1950年代), 60s(1960年代), 70s(1970年代), 80s(1980年代), 90s(1990年代), 2000s(2000年代), modern(現代)

  • genre: fantasy(ファンタジー), urban fantasy(アーバン・ファンタジー), medieval fantasy(中世ファンタジー), asian fantasy(アジア系ファンタジー), medieval(中世), scifi(SF), cyberpunk(サイバーパンク), steampunk(スチームパンク), dieselpunk(ディーゼルパンク), solarpunk(ソーラーパンク), samuraipunk(侍パンク), wizardcore(ウィザードコア), witchcore(ウィッチコア), noir(ノワール), art nouveau(アール・ヌーボー), pin-up(ピンアップ), post-apocalyptic(ポスト・アポカリプティック), futuristic(未来型), concept art(コンセプトアート), grotesque(グロテスク), horror(ホラー)

  • medium: oil(油彩), airbrush(エアブラシ), pencil(鉛筆), watercolor(水彩), cell shading(セルシャドウ), gouache(アクリル水彩), digital art(デジタルアート), acrylic(アクリル), charcoal(木炭), pastels(パステル), ink(インク), matte(マット), collage(コラージュ), mosaic(モザイク), encaustic(エンカウスティック), pixel art(ピクセルアート), vector art(ベクターアート), acuarela(水彩画)

  • form: comic(コミック), cartoon(アニメーション), graphic novel(グラフィックノベル), animation(アニメーション), storybook(絵本), impasto(インパスト), pseudo-impasto(擬似インパスト), sketch(スケッチ), drawing(デッサン), illustration(イラスト), painting(絵画), wax(蝋), anime(アニメ), manga(漫画), lineart(ラインアート)

  • artist: 長いリストですが、一部を挙げると:

    • コミック: Alan Davis, Jay Anacleto, Jim Lee, Mike Deodato, Jean Giraud, Neal Adams, Mike Mignola, Joe Madureira, Mario Alberti, David Finch, Hubert de Givenchy, Todd McFarlane, Stephan Martinire, Pepe Larraz, Paolo Roversi, Patrice Murciano, Pascal Blanche, Frank Miller, Alex Horley, Krenz Cushart, Hollie Mengert, Andy Kubert, Vittorio Giardino, Stanleylau, Raphael Lacoste, Andreas Rocha, James C. Christensen, Alex Ross, Greg Staples, J Scott Campbell, Todd McFarlane, Akiman, James Daly, Bruce Timm

    • ファンタジー: Boris Vallejo, Frank Frazetta, Julie Bell, Gerald Brom, Michael Whelan, Keith Parkinson, Tony Sart, Anato Finnstark, Randy Vargas, Diego Gisbert Llorens, Johan Grenier, Bayard Wu, Marc Simonetti, Marc Brunet, Don Bluth, Peter Mohrbacher, Clint Cearley, Magali Villeneuve, Sam Burley, Algenpfleger, JohnoftheNorth, UdonCrew, Yongjae Choi, Shieldmaiden, Wylie Beckert, Jason A. Engle, d1eSELxxxx, Chris Rallis, Stanton Feng, Zezhou, Ed Blinkey, Atey Ghailan, Jeremy Mann, Greg Manchess, Antonio Moro, Dan Mumford, Luis Royo, Viktoria Gavrilenko

    • ホラー: Dariusz Zawadzki, H.R. Giger, Anton Semenov

    • その他: Yoshitama Amano, Masamune Shirow, Greg Rutkowski, artgrem, loish, wlop, nixeu, Kuvshinov Ilya, cutesexyrobutts, Anne Bachelier, Yoji Shinkawa, Akihiko Yoshida, Ross Tran, Tsutomu Nihei, Ed Roth, Andrew Wyeth, Wonkeyman, Larry Rivers, Kinu Nishimura, Ayami Kojima, Masashi Kishimoto, Kaethe Butcher, Hajime Sorayama, Greg Tocchini, Virgil Finlay, Alexis Franklin, Kiko Rodriguez, Georgia O'Keeffe, Alberto Seveso, The Rusted Pixel, Yuko Shimizu

これらについていくつかの注意点:

  • 各コンポーネントはすべてオプションであり、必要に応じてプロンプトに追加できます。

  • 一部のタグは他のタグよりも効果が強いです。当初はもっと多くのタグがありましたが、効果が弱すぎたり、他のタグと混ざりすぎたため削除されました。

  • アーティストのスタイルは、元のアーティストと完全に一致するわけではありませんが、生成結果の方向性をコントロールするのに役立ちます。

  • 各要素は画像の異なる部分(構図、色彩、メディア、スタイルなど)に影響を与えます。これらの要素を組み合わせることで、特定の部分を強調したり、別の方向に変えることができます。たとえば、コミックアーティストと「comic」フォームを組み合わせるとスタイルが強化されますが、コミックアーティストと「impasto」メディアを組み合わせると、両者の融合した結果になります。また、プロンプトが短いほど、各要素の影響がより顕著になります。

  • メディアは必ずしも現実的ではなく、コミック/ファンタジーイラストの方向に調整されていますが、結果をそのスタイルに近づけるのに役立ちます。

  • impasto および pseudo-impasto は、よりファンタジー(コミックではない)な結果を生成するのに役立ちます。

被写体部分は、0xJustinの"Dungeons and Diffusions"で使用されたデータセットを拡張したものに基づいています。これには、複数のアーティストによるコミック、コンセプトアート、イラスト、漫画などが含まれます。スタイルプロンプトと同様に、被写体プロンプトも次のようなシンプルな構造で使用できます:

<race> <gender> <class>

タグは以下のようになります:

  • race: oni, aasimar, air_genasi, demon, dragonborn, drow, dwarf, earth_genasi, gnome, elf, firbolg, fire_genasi, goblin, goliath, halfling, human, kobold, lizardfolk, orc, tabaxi, tiefling, warforged, water_genasi

  • class: artificer, bard, barbarian, berserker, black knight, cleric, cyborg, defender, druid, fighter, knight, lancer, mage, monk, ninja, noble, paladin, rogue, samurai, sorcerer, townsperson, valkyrie, warlock, warrior, wizard

「culture」を追加することもできますが、他のタグにより上書きされることが多いです。

  • culture: Celtic(ケルト), Nordic(北欧), Amazonian(アマゾン), Aztec(アステカ), Chinese(中国), Japanese(日本), African(アフリカ), Persian(ペルシャ), Viking(バイキング), Indian(インド)

gender オプションは結果を人間に近づける傾向があるため、やや運次第な部分があります。

テスト用のシンプルなプロンプトは次の形式です:

<subject>,
<view>,
<style>

ここで、viewは**upper bodyportraitなどとします。ネガティブプロンプトや修正(例:Hires. fix)は使用せず、そこから構築します。Hires. fix**を使用する場合は、ネガティブプロンプトをより頻繁に必要とする可能性があります。

私の生成テストの多くは、**Hires. fixなしで行いました。なぜなら、1.2倍のスケールでアップスケールするだけでも時間がかかるからです。ただし、紹介画像はすべてHires. fix**を使用して生成されています。

問題点

  • リアルな写真や3Dレンダリングはできません(最良でもリアルな絵画風になります)。アニメに関しては色付けはできますが、プロポーションの獲得は難しいです。一部の漫画・アニメスタイルは組み込まれていますが、特徴的な大きな目や顔のプロポーションは、改善や外部の支援(例:LoRA)が必要です。

  • 目にいくつか問題があります。おそらく、彩色された眼球や小さな顔の画像が学習データに含まれていたためです。

  • 一部のケースで、セリフバルーン、コミックブックの表紙(ロゴやテキストを含む)やその他のテキストが生成されてしまう傾向があります。

作成方法

このモデルのトレーニング方法はやや複雑です。2022年12月頃から、当時存在していたいくつかのモデルをマージし、その上に0xJustinの"Dungeons and Diffusions"で使用されたデータセットを拡張してトレーニングを開始しました。最初は、より多くのスタイルやゲームスタイルを追加しようとしていましたが、期待したほどうまくいきませんでした。その後、ファンタジー用とゲーム/コミック用の2つの別々のモデルに分割しましたが、それもあまり良くなかったです。主な問題は、異なるスタイルが互いに影響を与え合っていたことです。

時間が経つにつれて、より優れたモデルが次々と登場し、私のリソースではこれ以上続ける意味が薄れてきました。いくつかのテストと、訓練済みモデルを手動でレイヤーごとにマージした結果、コミックの結果を生成しつつ、ファンタジーの概念(クラス、レースなど)も理解できる組み合わせが得られました。この組み合わせを再度短期間トレーニングし、構図の問題を修正したのが現在のモデルです。他の人気モデルに比べて優れているとは言えませんが、試してみる価値はあるかもしれません。

このモデルで生成された画像

画像が見つかりません。