LEOSAM's HelloWorld XL
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
🖥️ GPT4V-Image-Captioner라는 오픈소스 모델을 체험해보세요. 제가 친구와 개발한 이 도구는 한 번의 클릭으로 설치가 가능하며, 이미지 사전 압축, 이미지 태깅, 태그 통계 기능 등 다수의 기능이 내장되어 있습니다. 최근 이 도구의 웹 UI 플러그인 버전도 출시했습니다. 누구나 사용하시길 환영합니다!
🌍 QQ 그룹 "토순·AIGC 드림웍스 북공장"에 가입하세요 (그룹 번호: 780132897), "토순·AIGC 드림웍스 남공장"에 가입하세요 (그룹 번호: 835297318, 입장 답변: 토순). Telegram 그룹 '토순의 SDXL 백스테이지': https://t.me/+KkflmfLTAdwzMzI1
📖HelloWorld 7.0 업데이트 - 2024년 6월 13일
한 줄 요약: HelloWorld 7.0은 반복적 개선을 통해 시리즈 중 가장 뛰어난 신체 표현 능력을 갖춘 버전이며, 설정 개념 범위와 세부 사항의 풍부함이 더욱 강화되었습니다.
업데이트 내용:
부정적인 학습 이미지를 추가하고 자세 학습을 강화하며 CLIP 모델을 최적화함으로써, 이전 버전보다 팔다리와 손의 정확도가 향상되었습니다. 추천되는 부정적 프롬프트는 다음과 같습니다: "bad hand, bad anatomy, worst quality, ai generated images, low quality, average quality".
공식 SPO 모델의 최적화된 LoRA(SPO-SDXL_4k-p_10ep)를 추출하여 HelloWorld 7.0에 통합했습니다. SPO는 DPO 방식의 확장 버전입니다. SPO는 DPO XL 및 기존 SDXL 베이스 모델보다 훨씬 우수한 성능을 제공합니다. SPO LoRA는 이미지의 세부 사항과 대비를 강화하고 이미지의 미적 완성도를 높입니다. SPO의 기술 팀에게 감사드립니다.
학습 데이터셋의 개념 범위를 계속 확장했으나, 학습 데이터셋은 최적화 및 단순화되었습니다 (대용량 데이터셋은 시간 및 비용이 매우 큼, 최근 H800 GPU 대여가 어려워론 지역 학습 비용을 감당하기 어려움). 현재 전체 학습 데이터셋은 20,821장으로, 해상도 분포는 아래와 같습니다. 출력 시 이미지 수가 많은 해상도를 활용하는 것이 권장됩니다.
(832, 1248) - Count: 7128 (896, 1152) - Count: 6250 (1248, 832) - Count: 2402 (1024, 1024) - Count: 1639 (1360, 768) - Count: 928 (1152, 896) - Count: 870 (768, 1360) - Count: 432 (960, 1088) - Count: 506 (992, 1056) - Count: 162 (1088, 960) - Count: 140 (704, 1472) - Count: 120 (1056, 992) - Count: 122 (1472, 704) - Count: 115 (1632, 640) - Count: 75 (640, 1632) - Count: 12GPT4O를 사용하여 모든 데이터셋을 재라벨링했습니다. 이번에는 구조화된 라벨링 방식을 사용하였으며, 구체적인 구조는 다음과 같습니다: "한 문장 요약 설명 + 여러 이미지 요소 태그 + XXX에서 영감을 받음 + 미적 품질 설명어". 미적 품질 설명어는 5단계로 나뉩니다: worst quality, low quality, average quality, best quality, masterpiece. 태깅 예시는 다음과 같습니다:
붉은색과 베이지색 리본으로 감싸인 인간의 손을 포함하는 개념적 예술, 단순하고 밝은 배경에 고정, 사실적으로 묘사된 스타일, 미니멀한 색상 구성, 매끄러운 질감, 장기적이고 초현실적인 미적 감각, 살바도르 달리의 초현실주의 작품에서 영감받음, 마스터피스
HelloWorld 7.0 버전에서 사용된 "고빈도 태깅어 리스트" 및 "고빈도 아트 스타일 리스트"는 상업 라이선스 사용자에게만 제공됩니다. 과거에 HelloWorld XL 시리즈 모델 라이선스를 구매하신 파트너님들께서는 누락된 항목이 있으면 무료로 제공받을 수 있도록 연락 주세요.
플레이어는 HelloWorld 6.0 고빈도 태깅어 리스트를 참고하시기 바랍니다. 또한, 고품질 HelloWorld 7.0 예시 이미지 150여 장을 갤러리에 제공하여 여러분의 출력 참고용으로 활용하실 수 있습니다. 모델 제작은 어렵습니다. 여러분의 이해와 너그러움에 깊이 감사드립니다!
📖HelloWorld 6.0 업데이트 - 2024년 4월 20일
LEOSAMHelloWorld 6.0 상위 250개 고빈도 태깅어 리스트
기다려주셔서 감사합니다. 최근에 취업 활동을 하면서 HelloWorld 업데이트가 다소 지연되었습니다. 6.0 버전의 주요 업데이트 내용은 다음과 같습니다.
HelloWorld 6.0은 5.0 버전을 기반으로 한 반복적 개선된 버전입니다. 자체 테스트 결과, 현실감 있는 효과는 5.0 버전과 크게 다를 바 없지만, 6.0 버전의 가장 큰 장점은 학습 데이터셋의 개념 범위가 더 넓어졌다는 점입니다. 피드백에 따르면 초현실주의, 열정적인 사진, 그룹 사진, 마스크, 도마, 3D 렌더링, 자동차, 드래곤, 임신 사진 등 다양한 테마에서 향상되었습니다. 예시는 그림을 참조하세요.
HelloWorld 6.0은 의도적으로 학습 데이터에 일부 저품질 이미지를 포함하여 부정적 프롬프트에 대한 모델 반응을 강화했습니다. 부정적 프롬프트에 다음 키워드를 포함하는 것이 권장됩니다: "low quality, jpeg artifacts, blurry, poorly drawn, ugly, worst quality".
HelloWorld 6.0 학습 데이터셋의 주요 부분은 GPT4v로 태깅되었습니다. GPT4v가 태깅할 수 없는 이미지에 대해서는 blip2-opt-6.7b 기반의 cogVQA를 활용해 태깅되었습니다. 이러한 다중 모달 모델의 태깅 스타일은 전통적인 WD1.4 태거와 크게 다릅니다. 학습 데이터셋에서 다양한 개념을 보다 정확하게 트리거하기 위해, HelloWorld 6.0 학습 데이터셋에서 추출한 상위 250개 고빈도 태깅어를 정리했습니다. 이 고빈도 태깅어는 이 문서에서 확인하실 수 있습니다.
마지막으로, SD3가 거의 출시될 상황이지만, 저는 여전히 HelloWorld XL 7.0으로 업데이트할 예정이며, 7.0 버전에서 더 큰 향상이 이루어지기를 바랍니다!
📖2024.2.22 "HW5.0_Euler_a_Lightning" 공개
이 모델은 HelloWorld SDXL 베이스 모델의 실행 가속 버전으로, SDXL-Lightning 기술을 도입하였습니다. Eular a 샘플러와 CFG 1을 장착하여 6~8단계 내에 이미지를 생성할 수 있으며, 기존 SDXL 대비 약 3배 빠릅니다. 비교 테스트 결과, LCM이나 Turbo 버전보다 이미지 품질이 더욱 뛰어납니다.
이 모델로 이미지를 생성할 때 권장하는 설정은 다음과 같습니다:
샘플러: Eular a (중요! 모델은 반드시 Eular a에 최적화되어 있음, 다른 샘플러는 최적 결과를 얻기 어렵습니다)
CFG 스케일: 1
샘플링 단계: 8단계 (6~8단계 가능)
Hi-res 알고리즘: ESRGAN 4x / 8x_NMKD-Faces_160000_G
Hi-res 확대 비율: 1.5x
Hi-res 단계: 8단계
Hi-res 노이즈 제거 강도: 0.3
📖2024.2.11 "HelloWorld 5.0 GPT4V" 공개
HelloWorld 5.0은 HelloWorld 시리즈 역사상 가장 중요한 업데이트입니다. GPT-4v를 기반으로 태깅되었으며, 과학적 상상력, 동물, 건축, 일러스트레이션 등의 분야에서 상당한 최적화가 이루어졌습니다.
비교 테스트 결과 개선된 점은 다음과 같습니다:
더 다양한 동적 캐릭터 자세와 이미지 구성이 가능해져 시각적으로 강렬한 이미지를 생성합니다.
영화 데이터셋에 대한 풍부한 학습이 이루어졌습니다. 2.0부터 4.0 버전까지 영화 텍스처가 약했으나, 많은 팬들이 1.0 버전의 leogirl 스타일을 그리워했습니다. 본 업데이트에서는 영화 텍스처 강화를 위해 열심히 노력했으며, 다른 사진 품질은 훼손되지 않았습니다. 영화 텍스처는 film grain texture 및 analog photography aesthetic 같은 표현으로 효과적으로 트리거할 수 있습니다.
과학적 상상력, 스릴러, 동물 등의 테마에서 표현력이 향상되었으며, 메카처럼 다른 주제는 더 디자인된 느낌이 있습니다. 새하얀 표범, 빨간 양서류, 거대 판다, 호랑이, 발라스 고양이, 집 여우와 개 등 동물들이 더욱 사실감 있게 표현됩니다.
GPT 태깅 덕분에 프롬프트 준수성과 개념 정확성은 더욱 향상되었습니다.
하지만 이 버전의 단점도 있습니다:
이는 본격적인 최적화 업데이트이므로, 팔다리의 오류율이 약간 증가할 수 있습니다. 새로운 영역으로 옮겨갈 때 발생하는 일반적인 현상입니다. 이전 버전은 팔다리 정밀성 테스트에 많은 시간을 들였지만, 이 버전은 이러한 최적화에 제한된 시간밖에 할당되지 않았습니다. 그러나 이 버전의 팔다리 정확성은 1.0 버전보다 적어도 높으며, 추후 업데이트를 통해 지속적으로 개선해 나갈 것입니다.
강화된 영화 텍스처로 인해, GPT의 태깅이 최대한 정밀하더라도 이미지에 불가피하게 따뜻한 색감이 더해질 수 있습니다. 그러나 studio light 또는 sharp focus 등의 프롬프트를 사용하면 고해상도 스튜디오 품질의 이미지를 생성할 수 있으며, 적절한 프롬프트 사용 시 이전 버전보다 피부 톤과 시각적 매력이 향상될 수 있습니다.
기본적으로 더 많은 전신 캐릭터 이미지를 포함해 전신 효과를 극대화했습니다. 따라서 특별한 캐릭터 구성 지시가 없을 경우 모델이 이전보다 더 넓은 장면을 생성할 수 있습니다. 현재 1024 해상도의 전신 촬영에서 얼굴 세부 사항은 반신 촬영이나 근접 촬영 대비 다소 흐릿할 수 있습니다. 그러나 adetailer와 0.3 강도의 1.5x Hires.fix를 사용하면 개선할 수 있습니다. 또는 전신 이미지 생성을 피하기 위해 구성에 관한 프롬프트를 명시하는 것도 효과적입니다.
일부 고품질 일러스트 데이터셋이 추가되었기 때문에, 애니메이션 스타일 관련 프롬프트는 애니메이션 이미지를 생성할 가능성이 있습니다. 이 점이 걱정된다면 프롬프트를 조정하시기 바랍니다.
이 버전의 주요 업데이트는 위와 같습니다. SDXL 베이스 모델을 훈련하는 것은 어렵습니다. 학습 데이터셋이 1만 장에 가까워질 때마다 태깅 및 학습 비용은 300달러 이상으로 증가합니다. 모두가 이 모델을 사용해 주시고 피드백을 주신다면 감사하겠습니다! 이 모델이 마음에 드신다면, 모델에 대한 언론 및 소셜 미디어 공유를 통해 퍼뜨려 주시면 감사하겠습니다.
📖2024.1.31 "HelloWorld 4.0" 공개
HelloWorld 4.0은 blip+clip 태깅에서 GPT4V 태깅으로 전환하는 점진적인 전이 버전입니다. 처음엔 순수한 GPT4V 태깅 모델을 학습했고, 이후 HelloWorld 3.2 버전의 대부분과 Juggernaut XL의 0.05 비율을 병합하여 피부 톤을 조정했습니다. 새 버전은 3.2 버전 대비 프롬프트 적합성과 개념 커버리지에서 개선된 성능을 보였습니다.
새로운 GPT4V 태깅 학습 데이터셋은 HelloWorld 3 시리즈의 4000장에서 8000장으로 두 배로 증가했습니다. 인물 이외에도 동물, 건축, 자연, 음식, 일러스트 등 다양한 주제를 포괄합니다. 그러나 순수 GPT4V 버전은 과적합 문제가 발생했습니다. 이는 학습 이미지 수가 두 배로 증가한 데 기인할 것으로 보입니다. 이번 반복적 개선의 다음 단계 중 하나는, 정밀한 얼굴 학습을 보장하면서도 가능한 한 많은 비인물 주제를 포함시키는 방법을 찾는 것입니다. 현재 단계에서는 새로운 버전과 낡은 버전을 융합하여 최적화하여 버전 간 원활한 전환을 보장하였기 때문에, 확대된 개념 집합과 GPT4V 태깅의 장점은 아직 극명하지 않습니다. 이 장점은 이후 버전 5와 6에서 점차 더 두드러질 것입니다.
📖2024.1.5 "HelloWorld 3.2" 공개
버전 3.2는 DPO 기술을 기반으로 최적화된 버전입니다. 3.0 버전 대비 피부 톤과 팔다리 정확도는 개선되었지만, 개선 폭은 크지 않습니다. 이에 따라 이 버전은 4.0이 아닌 3.2라고 명명되었습니다.
📖2023.12.15 "HelloWorld 3.0" 공개
새 버전은 학습 집합을 확장하여 다양한 예술 스타일 표현 능력이 향상되었습니다. 특히 과학적 상상, 미술 등에서 향상되었습니다.
자체 개발한 품질 향상용 LoCon(슬라이더 기술을 이용하여 제작)을 통합하여 이미지 질감을 향상하고 손가락, 팔다리의 왜곡 문제를 완화했습니다.
📖2023.11.17 "HelloWorld 2.0" 공개
기다려주셔서 감사합니다. 다양한 도전을 극복한 끝에, 저는 HelloWorld 2.0 버전을 만족스러운 상태로 여러분께 선보일 수 있게 되었습니다. HelloWorld 2.0과 1.0의 주요 차이점은 다음과 같습니다.
HelloWorld 2.0은 더 이상 트리거 단어를 필요로 하지 않습니다. 트리거 단어 없이도 1.0 버전의 품질과 유사한 결과를 얻을 수 있습니다. 1.0 버전의 트리거 단어 'leogirl'은 동아시아인과 강하게 연결되어 있었지만, 트리거 단어가 삭제된 후에도 '1girl'과 같은 단어가 인종 지정이 없을 경우 동아시아 인물을 생성할 수 있습니다. 그러나 이제 국적, 피부색과 같은 키워드를 사용해 인종을 명시할 수 있습니다. 예를 들어, 'Chinese', 'Russian', 'Iranian', 'Jamaican', 'Kenyan', 'dark-skinned', 'pale-skinned' 등의 키워드가 트리거 효과를 보입니다. 아래는 예시입니다.

또한, 문장에 각국의 성별에 따른 사람 이름을 기재함으로써 다양한 스타일의 캐릭터를 만들 수 있습니다. 예: 한메이메이(중국), 소피 마르탱(프랑스), 프리야 팔라트(인도), 파티마 알하산(아라비아), 완지루 무와니(케냐). 위 프롬프트들은 예시이며, 다양한 프롬프트와 활용 방식이 있으며, 자신만의 방법을 탐색하고 공유해 주시길 환영합니다.

HelloWorld 2.0은 품질/색상 균형을 고려하고, 더 다양한 스타일 옵션을 제공합니다. 이전 1.0 버전은 'leogirl'을 사용하면 강한 영화 텍스처의 이미지가 나왔습니다. HelloWorld 2.0은 영화 텍스처에 얽매이지 않으며, 품질 관련 프롬프트로 맞춤화할 수 있습니다. 검증된 효과적인 프롬프트는 다음과 같습니다:
high-end fashion photoshoot, product introduction photo, popular Korean makeup, aegyo sal, Sharp High-Quality Photo, studio light, medium format photo, Mamiya photography, analog film, Medium Portrait with Soft Light, real-life image, refined editorial photograph, raw photo, real photo, Scanned Photo, film still
이러한 프롬프트의 색감 효과는 아래와 같습니다.

HelloWorld 2.0의 학습셋은 전신 사진 비율을 크게 늘려 SDXL이 전신 및 원거리 인물 촬영에 더 좋은 효과를 낼 수 있도록 했습니다. 1.0 버전 대비 개선되었지만, 여전히 전신 사진 생성 시 ADetailer 플러그인 사용을 매우 권장합니다. 또한, 충분한 VRAM(24GB 이상)을 보유한 사용자는 이미지에 대해 1.5x 고해상도 수리 작업을 수행하는 것을 추천합니다. 이는 얼굴 세부 사항을 크게 개선할 수 있습니다.
📖2023.8.29 "HelloWorld" SDXL 베이스 모델 공개
초점: HelloWorld 1.0 모델 사용 시, 반드시 'leogirl'이라는 트리거 단어를 추가하셔야 합니다.
SD1.5 베이스 모델인 'MoonFilm'과는 달리, 'HelloWorld'는 새로운 사실적 SDXL 베이스 모델 시리즈입니다. 더 많은 사용자가 HelloWorld를 발견할 수 있도록 하기 위해, 원래 MoonFilm의 모델 링크를 유지했습니다. 이를 정신적으로 SDXL 플랫폼에서 MoonFilm의 연속선으로 볼 수 있지만, HelloWorld는 단순히 인물의 사실적 묘사와 영화적 품질을 넘어서는 목표를 가집니다. SD1.5 대비 훨씬 뛰어난 정보 처리 능력과 텍스트 이해 능력 덕분에, HelloWorld는 현실적인 모든 물체의 묘사에 특화된 모델이며, 말하자면 저는 점차 HelloWorld를 통해 가상의 사진 세계를 구축하고자 합니다.
SD1.5의 사실적 베이스 모델은 매우 성숙한 단계에 이르렀으며, 크게 성능을 향상시키기는 어려울 것으로 예상됩니다. SD1.5 플랫폼에서 획기적인 기술이 등장하지 않는 한, Moonfilm 및 MoonMix 시리즈의 업데이트는 거의 멈출 것입니다. 저는 주로 HelloWorld SDXL 대규모 모델 개발에 집중할 것입니다. 1.0 버전은 현재 다운로드 가능하며, 2.0 버전은 긴급 개발 중이며, 9월 초에 업데이트 예정입니다.
새롭게 출시된 SDXL 모델로서, HelloWorld는 기존 SD1.5 모델과 세 가지 차이가 있습니다:
SD1.5 베이스 모델은 일반적으로 트리거 단어를 포함하지 않습니다. HelloWorld 1.0 사용 시 반드시 트리거 단어 "leogirl"을 사용해야 합니다. 이는 SDXL 모델이 학습셋 효과를 더 안정적으로 조율할 수 있도록 보장합니다.
HelloWorld 모델은 1024×1024 픽셀의 직접 출력을 지원하며, 고해상도 확장을 더 이상 필요로 하지 않습니다. 직접 출력된 근접 인물 사진의 품질은 SD1.5 버전과 비슷하지만, 원거리 인물의 경우 여전히 완성도에 약간의 결점이 있습니다. 따라서 원거리 인물 얼굴의 문제를 효과적으로 해결하기 위해 ADetailer 플러그인 사용을 권장합니다.
SDXL은 이제 간단한 자연어 프롬프트로도 쉽게 출력이 가능합니다. 더 자연스러운 언어 프롬프트를 시도해 보시길 추천하며, 이 경우 AI 실제감 있는 사진 출력 시 더 좋은 결과를 얻을 수 있습니다.
여러 차례 테스트를 거친 결과, 추천하는 그리기 설정은 다음과 같습니다:
단계 ≥ 25
샘플러: DPM++ 2M Karras
CFG 스케일: 10
해상도 ≥ 1024x1024
ADetailer: 사용
HelloWorld를 체험해 주시고 피드백을 많이 주세요. 귀하의 소중한 의견은 모델 개선 과정에서 매우 중요한 자산입니다!
저작권 안내:
HelloWorld 시리즈 모델(이하 “모델”)은 저(이하 “소유자”)가 LiblibAI 플랫폼의 지원을 받아 제작하였습니다. LiblibAI 및 Civitai 이외의 플랫폼에서 모델을 재게시하는 것은 소유자의 허락 없이 이루어진 것입니다.
소유자는 모델로 생성된 이미지를 비영리 교육 또는 정보 목적의 사용에 무상으로 허용합니다. 단, 아래 조건을 충족해야 합니다:
- 사용자가 적용 가능한 법령을 준수하고, 모델 또는 제3자의 권리를 침해해서는 안 됩니다.
- 이미지에 대해 명확히 "LEOSAM의 HelloWorld베이스 모델로 제작됨"이라고 표시해야 합니다.
상업적 사용을 위해서는 사전에 소유자와 상업 라이선스 계약이 필요합니다. 상업적 라이선스 및 모델 맞춤화 관련 문의는 소유자의 홈페이지에 제공된 연락처로 문의해 주세요.
SDXL 모델의 개발 및 무료 배포는 거대한 노력을 필요로 합니다. 소유자는 커뮤니티의 오픈소스 기여에 감사하여, 개인 사용자에게 지속적으로 무료 업데이트를 제공할 것을 약속합니다. 공동 상업적 협업은 모델의 발전과 정교함을 높이는데 필수적입니다. 모든 사용자분들의 이해와 지원에 깊이 감사드립니다.
무단 사용은 적용 가능한 법률을 위반할 수 있으며, 법적 책임이 따를 수 있습니다. 소유자는 본 성명을 독점적으로 해석하며, 관계 법령에 따라 적용됩니다.




















