LEOSAM's HelloWorld XL

详情

模型描述

🖥️欢迎尝试由我和朋友共同开发的开源项目GPT4V-Image-Captioner,支持一键安装,内置图像预压缩、图像标签生成及标签统计等多种功能。最近我们还推出了该工具的webui插件版本,欢迎大家使用!

🌍欢迎加入QQ群“兔狲·AIGC梦工北厂”,群号:780132897;“兔狲·AIGC梦工南厂”,群号:835297318(入群答案:兔狲)。Telegram群聊“兔狲的SDXL百老汇”,链接:https://t.me/+KkflmfLTAdwzMzI1

📖HelloWorld 7.0 更新 - 2024年6月13日

一句话更新概要:HelloWorld 7.0 是一次迭代优化版本,整体身体表现力在全系列中达到最佳,同时进一步拓展了概念范畴与细节丰富度。

更新详情:

  1. 通过添加负样本训练图像、强化姿态训练并优化 CLIP 模型,相比过往版本,模型对肢体与手部的准确性有了显著提升。推荐的负向提示词为:“bad hand, bad anatomy, worst quality, ai generated images, low quality, average quality”。

  2. 从官方 SPO 模型SPO-SDXL_4k-p_10ep中提取微调后的 LoRA,并整合至 HelloWorld 7.0。SPO 是对 DPO 方法的进一步优化,其基础模型性能优于 DPO XL 基础模型与原始 SDXL 基础模型。SPO LoRA 能够增强图像细节、对比度并美化画面效果。感谢 SPO 技术团队的贡献。

  3. 持续拓展训练集的概念覆盖范围,同时对训练集进行优化与精简(大规模数据微调成本高昂,近期 H800 显卡租用困难,本地训练时间成本难以承受)。当前总训练集规模为 20,821 张图像。训练集分辨率分布如下,推荐使用图像数量较多的几个分辨率进行输出:

    (832, 1248) - 数量:7128
    (896, 1152) - 数量:6250
    (1248, 832) - 数量:2402
    (1024, 1024) - 数量:1639
    (1360, 768) - 数量:928
    (1152, 896) - 数量:870
    (768, 1360) - 数量:432
    (960, 1088) - 数量:506
    (992, 1056) - 数量:162
    (1088, 960) - 数量:140
    (704, 1472) - 数量:120
    (1056, 992) - 数量:122
    (1472, 704) - 数量:115
    (1632, 640) - 数量:75
    (640, 1632) - 数量:12
    
  4. 使用 GPT4O 对所有数据集进行重标注。本次采用结构化标注方法,具体结构为:“一句话摘要描述 + 多个图像元素标签 + 受 XXX 启发 + 审美质量描述词”,其中审美质量描述词分为五个等级:worst quality、low quality、average quality、best quality、masterpiece。典型标注示例如下:

    概念艺术风格,描绘一只被红与米色丝带缠绕的人类手,背景为纯色浅色,写实风格,极简色彩方案,顺滑纹理,拉长且超现实美学,受萨尔瓦多·达利超现实主义作品启发,masterpiece
    

HelloWorld 7.0 版本中涉及的“高频标签词列表”与“高频艺术风格列表”(即“受 XXX 启发”部分)仅提供给商业授权用户。曾购买 HelloWorld XL 系列模型授权的合作伙伴,若发现遗漏,请联系我,可免费获取。

玩家可参考 HelloWorld 6.0 的高频标签词列表。此外,我已在画廊中提供 150+ 张高质量的 HelloWorld 7.0 示例图像,可作为大家输出的参考。模型训练不易,感谢各位玩家的理解与包容!

**📖**HelloWorld 6.0 更新 - 2024年4月20日

LEOSAM HelloWorld 6.0 前250高频标签词列表

感谢大家的耐心。最近我一直在求职,导致 HelloWorld 版本更新有所延迟。以下是 6.0 版本的主要更新内容:

  • HelloWorld 6.0 是在 5.0 版本基础上的迭代优化。经本人实测,真实感表现与 5.0 版本相比并无显著差异。6.0 版本的主要优势在于训练数据集覆盖了更广泛的概念范畴。根据用户反馈,该版本在超现实主义、卧室风、群像、面具、折纸、3D 渲染、汽车、龙、孕照等主题上均有明显增强,部分示例已附在图中。

  • HelloWorld 6.0 在训练集中有意加入了一些低质量图像,以提升模型对负向提示词的响应能力。建议在负向提示中使用以下关键词:“low quality, jpeg artifacts, blurry, poorly drawn, ugly, worst quality”。

  • HelloWorld 6.0 的训练主体采用了 GPT4v 标注。对于 GPT4v 无法标注的图像,则使用由 blip2-opt-6.7b 引导的 cogVQA 进行标注。这些多模态模型的标注语言风格与传统 WD1.4 标注器差异显著。为方便更准确地触发训练集中的各类概念,我整理了 HelloWorld 6.0 训练集中出现频率最高的前 250 个标签词。您可在此文档中查看这些高频词。

最后,尽管 SD3 即将发布,我仍会持续更新至 HelloWorld XL 7.0 版本,期待在 7.0 版本中实现更大的突破!

**📖**2024.2.22 推出“HW5.0_Euler_a_Lightning”

该模型为 HelloWorld SDXL 基础模型的加速运行版本,融合了 SDXL-Lightning 技术。搭配 Eular a 采样器与 CFG=1,可在 6~8 步内生成图像,速度是原始 SDXL 版本的三倍。此外,经对比测试,其成像效果优于 LCM 或 Turbo 版本

使用本模型生成图像的推荐参数如下:

采样器:Eular a(重要!该模型专为 Eular a 优化,使用其他采样器效果可能不理想)

CFG 值:1

采样步数:8 步(6~8 步均可接受)

高分辨率修复算法:ESRGAN 4x / 8x_NMKD-Faces_160000_G

高分辨率放大倍数:1.5x

高分辨率步数:8 步

高分辨率降噪强度:0.3

**📖**2024.2.11 推出“HelloWorld 5.0 GPT4V”

HelloWorld 5.0 是 HelloWorld 系列历史上最重大的一次更新,采用 GPT-4v 标注,并在科幻、动物、建筑、插画等领域进行了深度微调。

对比测试显示本版本的改进包括:

  1. 角色姿态与图像构图更加多样且动态,生成画面更具视觉吸引力;

  2. 电影题材数据集经过大量训练。此前 2.0 至 4.0 版本的电影质感较弱,许多粉丝怀念 1.0 版本的 "leogirl" 风格。因此,本次更新特别强化了电影质感,同时不牺牲其他摄影风格。可通过“film grain texture”或“analog photography aesthetic”等短语触发电影质感;

  3. 在科幻、惊悚、动物等主题上的表现力显著提升,机械、动物等对象更具设计感。雪豹、红熊猫、大熊猫、老虎、新疆虎猫以及家猫家犬等动物形象更加逼真;

  4. 由于 GPT 标注的引入,提示词响应度与概念准确性进一步提升。

但该版本也存在一些局限:

  1. 由于是深度微调,肢体类错误率略有上升,这是从舒适区进入新优化领域的正常现象。此前版本曾对肢体进行大量测试优化,而新版本时间有限。尽管如此,本版本肢体准确性至少优于 1.0 版,后续版本将持续优化。

  2. 由于强化了电影质感,即便 GPT 标注已尽量精准,图像仍可能出现不可避免的默认暖色调。但您可使用“studio light”或“sharp focus”等提示词,生成具有高分辨率影棚风格图像。合理使用提示词,输出图像的肤色与整体视觉表现将优于以往版本。

  3. 本版本增加了更多全身人物图像以增强整体效果,因此在未明确指定角色构图时,模型可能生成更广的场景构图。目前 1024 分辨率下的全身图像面部细节可能不如半身或特写清晰。可通过 adetailer 插件搭配 1.5x Hires. fix(0.3 强度)进行优化,或使用提示词明确指定构图以避免生成全身图像。

  4. 由于加入少量高质量插画数据集,涉及动画风格的提示词可能产生动画类图像。若对此有顾虑,请相应调整提示词。

以上为本版本的主要更新内容。训练 SDXL 基础模型极具挑战性,当训练集接近一万张时,每张模型的标注与训练成本已超过 300 美元。欢迎大家试用本模型,并提供宝贵反馈!若您对模型满意,诚挚期待您帮助传播这一成果。

**📖**2024.1.31 推出“HelloWorld 4.0”

HelloWorld 4.0 是从 blip+clip 标注向 GPT4V 标注过渡的渐进式版本。我最初训练了纯 GPT4V 标注模型,随后融合了大量 HelloWorld 3.2 版本数据与少量 Juggernaut XL 数据(0.05 比例,用于调节肤色)。新版本在提示词遵循性与概念覆盖范围方面相比 3.2 版本已有明显提升。

新 GPT4V 标注训练集从原 helloworld3 系列的 4000 张扩展至 8000 张,涵盖人物肖像、动物、建筑、自然、食物、插画等丰富类别。然而,纯 GPT4V 版本出现了过拟合问题,初步判断可能与训练图像数量翻倍有关。下一步迭代优化的关键之一是:如何在保证人物肖像充分训练的前提下,最大程度引入非人物概念。目前阶段,采用新旧版本融合微调,确保版本间过渡平滑,因此 GPT4V 标注带来的概念扩展与优势尚不明显。这些优势将在后续的 5、6 版本中逐步显现。

**📖**2024.1.5 推出“HelloWorld 3.2”

版本 3.2 是基于 DPO 技术优化的版本,相比 3.0,肤色与肢体准确性有所提升,但改善有限,因此标记为 3.2 而非 4.0。

**📖**2023.12.15 推出“HelloWorld 3.0”

  1. 新版本扩大了训练集规模,提升了模型在不同艺术风格(包括科幻与艺术)中的表达能力。

  2. 集成了自研的图像质量增强 LoCon(基于滑块技术),有效提升图像质感,缓解手指与肢体的变形问题。

**📖**2023.11.17 推出“HelloWorld 2.0”

感谢大家的耐心等待。克服诸多挑战后,HelloWorld 2.0 终于以我满意的形态与大家见面。HelloWorld 2.0 与 1.0 的主要区别如下:

  1. HelloWorld 2.0 不再依赖触发词,无需触发词即可达到与 1.0 版本使用“leogirl”相媲美的画质。1.0 版本中的“leogirl”与东亚人种高度关联。取消触发词后,虽然“1girl”在未指定种族时仍可能生成东亚人像,但您现在可通过国籍、肤色等关键词明确定义种族。例如“Chinese”、“Russian”、“Iranian”、“Jamaican”、“Kenyan”、“dark-skinned”、“pale-skinned”等关键词的触发效果如下所示:

    您也可通过在提示词中加入不同国家与性别的名字来获得不同风格角色,如:Han Meimei(中国),Sophie Martin(法国),Priya Patel(印度),Fatima Al-Hassan(阿拉伯),Wanjiru Mwangi(肯尼亚)。以上仅为示例,可玩性极强,欢迎探索并分享您的玩法。

  2. HelloWorld 2.0 平衡了画质与色彩表现,提供更多风格选项。1.0 版本使用“leogirl”时往往生成强电影质感图像。HelloWorld 2.0 已不再绑定电影质感,可搭配各类质量相关提示词进行定制。经测试效果良好的提示词包括:

    high-end fashion photoshoot, product introduction photo, popular Korean makeup, aegyo sal, Sharp High-Quality Photo, studio light, medium format photo, Mamiya photography, analog film, Medium Portrait with Soft Light, real-life image, refined editorial photograph, raw photo, real photo, Scanned Photo, film still

    这些提示词的色彩效果如下:

  3. HelloWorld 2.0 的训练集中大幅提高了全身照的比例,以改善 SDXL 在生成全身与远景人像上的效果。虽然相较 1.0 版本已有提升,但仍强烈推荐在生成全身图像时使用“adetailer”插件。此外,对拥有足够显存(24G)的用户,建议执行 1.5x 高分辨率修复,可显著提升面部细节。

**📖**2023.8.29 推出“HelloWorld” SDXL 基础模型

特别提醒:使用 HelloWorld 1.0 模型时,请务必添加触发词“leogirl”。

不同于 SD1.5 基础模型 “MoonFilm”,“HelloWorld” 是全新创作的现实主义 SDXL 基础模型系列。为让更多用户发现该系列,我保留了原 MoonFilm 的模型链接。可将其视为 MoonFilm 在 SDXL 新平台上的精神延续,但 HelloWorld 的目标远不止追求人像的现实感与电影质感。得益于 SDXL 相较于 SD1.5 强大的信息量与文本理解能力,HelloWorld 是一个力求真实还原万物的基底模型,换言之,我希望通过 HelloWorld 逐步构建一个虚拟摄影世界。

SD1.5 真实性基底模型已发展至相当成熟阶段,短期内难以实现质的飞跃。除非 SD1.5 平台出现突破性技术,否则 MoonFilm 与 MoonMix 系列将基本停止更新。我将主要精力投入 HelloWorld SDXL 大模型的开发。1.0 版本现已开放下载,2.0 版本正在紧急开发中,预计将于 9 月初更新。

作为全新的 SDXL 模型,HelloWorld 与传统 SD1.5 模型存在以下三点区别:

  1. 与多数 SD1.5 基础模型不同,HelloWorld 1.0 需要使用触发词“leogirl”,以确保 SDXL 模型更稳定地触发训练集效果。

  2. HelloWorld 模型支持直接输出 1024×1024 像素分辨率,无需高分辨率放大。直接输出的特写人像质量不逊于 SD1.5 版本,但直接输出远景人像仍存不足。因此建议使用 ADetailer 插件,可有效修正远距离面部问题。

  3. SDXL 现在支持更简单的自然语言提示生成更高质量图像。建议尝试更多自然语言提示,输出 AI 真实感照片时效果更佳。

经过多轮测试,建议绘图参数设置如下:

  • 步数 ≥ 25

  • 采样器:DPM++ 2M Karras

  • CFG 值:10

  • 尺寸 ≥ 1024x1024

  • ADetailer:开启

诚挚欢迎各位尝试 HelloWorld 并提供大量反馈。您宝贵的建议对模型下一步优化至关重要!

📜 版权声明

HelloWorld 系列模型(以下简称“本模型”)由本人(以下简称“所有者”)在 LiblibAI 平台协助下开发完成。未经所有者许可,禁止在 LiblibAI 和 Civitai 以外的平台发布本模型。

所有者允许用户以非商业性教育或信息目的免费使用本模型生成的图像,但需遵守以下条件:

  • 用户须遵守相关法律法规,不侵犯本模型或任何第三方的合法权益;
  • 图像须明确标注“由 LEOSAM 的 HelloWorld 基础模型生成”。

任何形式的商业使用,均需事先获得所有者的商业授权。有关商业授权及模型个性化需求,请通过所有者主页提供的联系方式联系。

SDXL 模型的研发与免费分发是一项耗时巨大的工程。所有者承诺将持续免费为个人爱好者提供 HelloWorld 模型的更新,以表达对开源社区贡献者的感谢。合作商业化项目对模型的持续进步与优化至关重要。感谢每一位用户的支持与理解。

未经授权的使用可能违反相关法律,并承担相应法律责任。所有者保留对该声明的最终解释权,受现行法律法规管辖。

此模型生成的图像

未找到图像。