ComicCraft

详情

下载文件

模型描述

引言

这是一个专注于更多西方风格,特别是漫画的模型。该模型的核心理念之一是能够生成多种不同风格,并能生成多种不同面孔。因此,艺术家或人物名称及风格的影响通常比旨在生成单一风格的其他模型更强。在大多数情况下,颜色倾向于较为鲜艳。该模型通常可以通过此处提到的模型评估测试,但其“基础风格”是一种带有某些绘画效果和写实比例的插图。

在示例图像中,我尝试使用了一些其他模型展示中使用的提示词,未使用任何LoRA,也极少或不使用负面提示,以展示该模型的能力。此外,所有图像均使用相同种子生成,因此并非刻意挑选。

需要知道的内容

虽然使用该模型可能与使用其他模型没有太大区别,但除了常规提示词外,图像标签主要包含两个部分:风格(style)和主体(subject)。

风格部分具有简单的结构,形式如下:

<时代> <类型> <媒介> <形式> by <艺术家>

其中每个组成部分的示例如下:

  • 时代:经典、复古、怀旧、复古未来主义、40年代、50年代、60年代、70年代、80年代、90年代、2000年代、现代

  • 类型:奇幻、都市奇幻、中世纪奇幻、亚洲奇幻、中世纪、科幻、赛博朋克、蒸汽朋克、柴油朋克、太阳能朋克、武士朋克、法师核心、女巫核心、黑色电影、新艺术、海报女郎、后末日、未来主义、概念艺术、怪诞、恐怖

  • 媒介:油画、喷枪、铅笔、水彩、平涂、蛋彩画、数字艺术、丙烯、炭笔、粉彩、墨水、哑光、拼贴、马赛克、热蜡画、像素艺术、矢量艺术、水彩(acuarela)

  • 形式:漫画、卡通、图文小说、动画、绘本、厚涂、伪厚涂、草图、素描、插图、绘画、蜡画、动漫、漫画、线稿

  • 艺术家:这是一个很长的列表,但其中一些包括:

    • 漫画:Alan Davis、Jay Anacleto、Jim Lee、Mike Deodato、Jean Giraud、Neal Adams、Mike Mignola、Joe Madureira、Mario Alberti、David Finch、Hubert de Givenchy、Todd McFarlane、Stephan Martinire、Pepe Larraz、Paolo Roversi、Patrice Murciano、Pascal Blanche、Frank Miller、Alex Horley、Krenz Cushart、Hollie Mengert、Andy Kubert、Vittorio Giardino、Stanleylau、Raphael Lacoste、Andreas Rocha、James C. Christensen、Alex Ross、Greg Staples、J Scott Campbell、Todd McFarlane、Akiman、James Daly、Bruce Timm

    • 奇幻:Boris Vallejo、Frank Frazetta、Julie Bell、Gerald Brom、Michael Whelan、Keith Parkinson、Tony Sart、Anato Finnstark、Randy Vargas、Diego Gisbert Llorens、Johan Grenier、Bayard Wu、Marc Simonetti、Marc Brunet、Don Bluth、Peter Mohrbacher、Clint Cearley、Magali Villeneuve、Sam Burley、Algenpfleger、JohnoftheNorth、UdonCrew、Yongjae Choi、Shieldmaiden、Wylie Beckert、Jason A. Engle、d1eSELxxxx、Chris Rallis、Stanton Feng、Zezhou、Ed Blinkey、Atey Ghailan、Jeremy Mann、Greg Manchess、Antonio Moro、Dan Mumford、Luis Royo、Viktoria Gavrilenko

    • 恐怖:Dariusz Zawadzki、H.R. Giger、Anton Semenov

    • 其他:Yoshitama Amano、Masamune Shirow、Greg Rutkowski、artgrem、loish、wlop、nixeu、Kuvshinov Ilya、cutesexyrobutts、Anne Bachelier、Yoji Shinkawa、Akihiko Yoshida、Ross Tran、Tsutomu Nihei、Ed Roth、Andrew Wyeth、Wonkeyman、Larry Rivers、Kinu Nishimura、Ayami Kojima、Masashi Kishimoto、Kaethe Butcher、Hajime Sorayama、Greg Tocchini、Virgil Finlay、Alexis Franklin、Kiko Rodriguez、Georgia O'Keeffe、Alberto Seveso、The Rusted Pixel、Yuko Shimizu

关于这些的几点说明:

  • 所有组成部分均为可选,可根据需要添加到提示词中。

  • 某些标签的效果强于其他标签。原本有更多标签,但其中一些效果太弱,或与其他标签混用。

  • 艺术家风格并非完全等同于原艺术家,但可以帮助引导生成结果的方向。

  • 这些元素各自可影响图像的不同部分(构图、配色、媒介、风格等)。它们可用于强化这些部分,或将其引向不同方向。例如,用“漫画”形式搭配漫画艺术家,会强化风格;而用“厚涂”媒介搭配漫画艺术家,则会产生混合效果。这也意味着,当提示词较短时,每个元素的效果会更明显。

  • 媒介不一定会呈现写实效果,因为它们已被调整偏向漫画/奇幻插画风格,但可帮助结果更贴近该风格。

  • 厚涂(impasto)和伪厚涂(pseudo-impasto)有助于生成更偏向奇幻(而非漫画)的效果。

主体部分基于0xJustin的"Dungeons and Diffusions" 数据集扩展而来,包含来自多位艺术家的漫画、概念艺术、插图、漫画等。类似于风格提示,主体提示也可使用简单结构:

<种族> <性别> <职业>

其中标签如下:

  • 种族:oni、aasimar、air_genasi、demon、dragonborn、drow、dwarf、earth_genasi、gnome、elf、firbolg、fire_genasi、goblin、goliath、halfling、human、kobold、lizardfolk、orc、tabaxi、tiefling、warforged、water_genasi

  • 职业:artificer、bard、barbarian、berserker、black knight、cleric、cyborg、defender、druid、fighter、knight、lancer、mage、monk、ninja、noble、paladin、rogue、samurai、sorcerer、townsperson、valkyrie、warlock、warrior、wizard

你也可以尝试添加“文化”,但它们常被其他标签覆盖。

  • 文化:凯尔特、北欧、亚马逊、阿兹特克、中国、日本、非洲、波斯、维京、印度

性别选项会将结果偏向人类,因此可能带一定随机性。

一个简单的测试提示可采用以下形式:

<主体>,
<视角>,
<风格>

其中视角可以是**上半身肖像等,不使用负面提示或修复(如Hires. fix),然后逐步构建。使用Hires. fix**时,可能需要更频繁地使用负面提示。

我大部分生成测试均未使用**Hires. fix**,因为即使以1.2倍放大,耗时也较长,但展示图中的图像均使用了它。

问题

  • 该模型无法生成写实照片或3D渲染图(最多只能生成类似写实绘画的效果);对于动漫,它可以完成上色,但比例较难把握。虽然模型包含部分漫画和动漫风格,但其标志性的大眼睛和面部比例仍需进一步优化或借助外部工具(如LoRA)。

  • 模型在眼睛生成方面存在问题,可能是因为训练时使用了带有彩色巩膜和小脸图像。

  • 在某些情况下,模型可能倾向于生成对话气泡、漫画封面(含标志和文字)及其他文本。

模型如何训练

该模型的训练过程较为复杂。它始于2022年12月左右,基于当时一些能生成更接近目标风格图像的模型进行合并,并结合了0xJustin的"Dungeons and Diffusions" 数据集的扩展版本,最初尝试加入更多风格和游戏/漫画风格,但效果未如预期。随后将其拆分为两个独立模型(奇幻和游戏/漫画),但结果也不理想。主要问题是不同风格相互干扰,进展缓慢。

随着时间和更多更好模型的出现,加上我自身的资源有限,继续训练似乎已无太大意义。经过一系列测试和手动逐层合并训练模型后,某一组合最终既能生成漫画效果,又能理解部分奇幻概念(如种族、职业等)。此组合随后经过短暂再训练,以修复部分构图问题,即为当前版本。虽然它可能不如其他热门模型优秀,但仍值得一试。

此模型生成的图像

未找到图像。