Vodka by FollowFox.AI

세부 정보

파일 다운로드

모델 설명

V3가 이제 공개되었습니다!
항상 그렇듯이, 모든 세부 정보, 사용한 데이터, 파라미터 및 코드 스니펫은 저희 스팟(Substack)에서 확인하실 수 있습니다: https://followfoxai.substack.com/p/impact-of-tags-on-sd-general-model

아래에서 향후 계획을 미리 확인하세요 - 다가올 흥미로운 변화들입니다!

V3에 관하여

참고 - 이 모델은 귀하의 LORA 요청에 매우 이상적인 기반일 수 있습니다. 모델은 매우 중립적이며, 다양한 프롬프트 스타일에 반응할 수 있고, 여러 이미지 유형에서 잘 작동합니다.

우리는 이미지에 일부 Booru 태그를 추가했으며, 이제 해당 태그에 반응할 수 있게 되었습니다!

시도해볼 만한 태그들:

  • Solo - 생성된 이미지에 인물 한 명만 배치, 매우 일관성 있게 작동합니다.

  • looking at viewer - 여성에 강한 편향이 있지만, 캐릭터를 중심에 배치하고 카메라를 바라보게 하는 데 탁월합니다.

  • outdoors - 실외 환경을 일관성 있게 생성하거나 등장인물을 실외 장소에 배치하는 데 효과적입니다.

  • blurry - 비어 있는 생성물은 항상 흐린 이미지가 됩니다. 음성 프롬프트로 사용할 경우 일부 개선 효과가 있습니다.

  • Blurry background - MidJourney의 보케 스타일을 매우 잘 재현합니다. 긍정 프롬프트로 사용하는 예시를 아래에 제공합니다.

  • Jewelry - 보석 이미지를 생성하거나 생성 과정에 보석을 추가합니다.

  • indoors - 실외 프롬프트와 유사하게 작동합니다.

이미지 생성 추천

이 모델은 매우 유연하며, 거의 모든 스타일의 프롬프트로 작동할 수 있습니다. MidJourney 스타일 프롬프트든, Civitai나 Lexica의 어떤 내용이든, 대부분의 경우 흥미로운 결과를 기대할 수 있습니다.

또한, 위에서 언급한 태그들을 실험해보는 것도 가능합니다.

마지막으로, 어떤 형태의 업스케일링 방법을 사용하는 것을 강력히 권장합니다. 우리는 두 가지를 가장 선호합니다:

Hires. Fix

Hires. Fix를 활성화하고, 노이즈 제거 강도를 0.30.5 사이로 설정, 1.52배로 업스케일, 그리고 Latent (nearest exact) 또는 4x-Ultrasharp 업스케일러를 사용하시면 됩니다. 나머지 파라미터는 실험에 유연하게 사용할 수 있습니다.

ControlNet + Ultimate SD 업스케일

이전 게시물의 ControlNet 타일 업스케일 방법을 확인하세요 (링크).

향후 로드맵

보드카 시리즈:

  • Vodka V3 (완료) - 캡션에 태그를 추가해 그 영향을 확인

  • Vodka V4 (개발 중) - UNET 및 텍스트 인코더 학습 파라미터 분리로 '튀는' 문제 개선

  • Vodka V5 (데이터 준비 단계) - 개선된 새로운 데이터셋으로 학습 및 이전 모든 학습 경험 반영

  • Vodka V6 (예정 없음) - 전체 데이터에 대해 AI 생성 캡션으로 재캡션해, AI 캡션과 원본 사용자 프롬프트의 영향 비교

  • Vodka V7+ - 지금은 여러 아이디어를 모아놓은 저장소입니다. 데이터셋 분할 및 파라미터 조정, VAE 미세 조정, 모델의 약점에 기반해 특정 추가 데이터 추가 등 다양한 계획이 있습니다.

칵테일 시리즈:

이 모델들은 보드카(또는 미래의 기타 기본 모델)를 기반으로 한 믹스입니다.

  • 블러디 메리 V1 (완료, 공개 전) - 첫 번째 믹스는 Vodka V2 기반입니다. 기대해 주세요: Vodka V2는 적절한 노력이 필요했던 이미지 생성에서, 대부분의 생성물이 매우 높은 품질을 내는 모델로 진화했습니다. 이 모델은 매우 유연하고 흥미로운 특성을 가지고 있습니다.

  • 블러디 메리 V2+ (계획 중): 현재 구체적인 내용은 없으며, V1에서 얻은 경험과 보드카 베이스 모델의 개선을 기반으로 한 아이디어들만 있습니다.

  • 기타 칵테일 (예정 없음) - 다른 칵테일 준비 계획과 아이디어는 있지만, 지금은 공유할 만한 내용이 없습니다.

LORA, 텍스트 대체, 기타 확장 기능:

우리는 Vodka 및 칵테일 시리즈의 기능을 강화하기 위한 확장형 출시에 몇 가지 탐색을 시작했습니다. 앞으로 공개될 예정이니 기대해 주세요.

일부는 성공하지 못할 수도 있지만, 중요한 것은 과정을 통해 배우는 것입니다. 그래서 실패 여부와 상관없이 모든 탐색 과정을 공유할 예정입니다.

사용자 경험 및 솔루션 전체 제공:

이것은 앞으로 공개될 제품들의 첫 번째 징조일 뿐입니다. 지금까지 축적한 경험과 비전을 완전한 제품 형태로 재구성하는 작업을 진행 중입니다. 더욱 흥미로운 프로젝트들에 대한 정보를 점차 더 공유할 예정이니, 계속 지켜봐 주세요!

이전 버전 및 보드카의 역사

개요

요약하면, 저희는 Vodka_V2FollowFox.AI에서 공개하고 있으며, 이는 업데이트된 데이터셋(지금은 Midjourney V5.1 기반)으로 미세 조정된 일반 목적 모델입니다. 그리고 보통처럼 이번 게시물에서는 어떻게 도달하게 되었는지에 대한 모든 세부 사항을 공유합니다. 기대할 수 있는 점은 다음과 같습니다:

  • 객관적으로 더 나은 데이터셋을 사용했습니다 – 크기는 2.5배 크고, 더 깨끗하게 정제되었습니다.

  • 결과 모델은 V1과 매우 유사하지만 약간 더 우수합니다. 단계적 개선이지만, 혁신적인 변화는 아닙니다.

  • 현재 상태에서 일부 노력과 함께 멋진 이미지를 생성할 수 있습니다.

  • 여전히 MidJourney 또는 최상위 SD 모델 수준의 이미지를 쉽게, 일관되게 생성하는 수준에는 미치지 못하고 있습니다.

모델 학습 과정에 대한 모든 자료는 followfox.ai에서 확인할 수 있습니다 (게시물 링크, 가이드 링크). 이 커뮤니티의 오픈소스 정신을 존중하기 때문에 누구나 이 과정을 재현하고, 어떻게 도달하게 되었는지 정확히 확인하고, 프로토콜의 개별 요소에 대한 피드백과 제안을 제공할 수 있습니다.

Vodka V2에 잘 맞는 파라미터 및 워크플로우

여기서 테스트할 수 있는 사항이 더 많지만, 몇 가지 관찰을 공유합니다:

  • V1에 비해 CFG 값 범위를 더 넓게 시도할 수 있습니다. 3에서 7.5 사이의 값이 좋은 결과를 생성할 수 있습니다.

  • Booru 태그 전용 프롬프트는 작동하지 않습니다. (우리는 데이터셋에 태그를 붙이지 않았기 때문입니다)

  • 인간의 문장형 설명 뒤에 어미, "마법의 단어"를 덧붙이면 매우 효과적입니다.

  • 거의 모든 샘플러가 흥미로운 결과를 생성합니다.

  • 아래 설명된 SD 업스케일 워크플로우와 타일 ControlNet 조합으로 이 모델의 이미지 품질을 향상시킬 수 있습니다.

  • EasyNegative TI(링크) 사용을 권장합니다. 음성 프롬프트에서 "blurry"를 사용하는 것도 도움이 됩니다.

Automatic1111에서 시도해 볼 업스케일 워크플로우

txt2img 탭에서 마음에 드는 초동 이미지를 생성한 후, img2img로 전송합니다. (한 프롬프트에 여러 샘플러와 CFG 값을 통해 그리드 생성해, 흥미로운 후보들을 찾아보시는 것을 추천합니다.)

  • 원본 생성과 동일한 프롬프트와 샘플러 사용

  • 샘플링 단계를 높게 설정하세요. 저희는 대부분의 이미지에 150을 사용했습니다.

  • 너비와 높이를 원본의 2배로 설정하세요. 즉, 512x512는 1024x1024로 설정해야 합니다.

  • 노이즈 제거 강도를 낮게 설정하세요. 저희는 0.2~0.25를 사용했습니다.

  • CFG 값은 (원본 - 0.5) 공식을 사용했습니다. 원본 이미지가 7.0에서 생성되었다면, 6.5로 설정합니다.

  • ControlNet 설정: 활성화, 전처리기로 “tile_resample” 선택, 모델로 ‘control_v11f1e_sd15_tile’ 선택. “ControlNet이 더 중요하다” 옵션으로 전환할 수도 있습니다. 다른 설정은 조정할 필요 없습니다.

  • “Ultimate SD 업스케일” 확장을 설치해두세요. 스크립트 드롭다운에서 선택하고, 4x-UltraSharp 업스케일러를 선택하며, 타일 너비와 높이를 640x640으로 설정하세요.

  • 생성 버튼을 눌러 잠시 기다리면, 타당한 출력물이 나옵니다. 원한다면 다시 한 번 반복해 더 높은 해상도로 작동할 수 있습니다.

결론 및 다음 단계

우리는 모델 개발이 올바른 방향으로 나아가고 있다고 믿으며, 새로운 버전을 계속 공개할 예정입니다. 물론, 그 여정의 모든 단계를 기록하고 공개할 예정입니다.

V3 발행을 위해, 일부 생성물에서 흐릿함과 디테일 부족이 발생하는 원인에 대한 작동 가설을 이미 확보했으며, 이를 해결해보려 합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.