Vodka by FollowFox.AI
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
V3가 이제 공개되었습니다!
항상 그렇듯이, 모든 세부 정보, 사용한 데이터, 파라미터 및 코드 스니펫은 저희 스팟(Substack)에서 확인하실 수 있습니다: https://followfoxai.substack.com/p/impact-of-tags-on-sd-general-model
아래에서 향후 계획을 미리 확인하세요 - 다가올 흥미로운 변화들입니다!
V3에 관하여
참고 - 이 모델은 귀하의 LORA 요청에 매우 이상적인 기반일 수 있습니다. 모델은 매우 중립적이며, 다양한 프롬프트 스타일에 반응할 수 있고, 여러 이미지 유형에서 잘 작동합니다.
우리는 이미지에 일부 Booru 태그를 추가했으며, 이제 해당 태그에 반응할 수 있게 되었습니다!
시도해볼 만한 태그들:
Solo- 생성된 이미지에 인물 한 명만 배치, 매우 일관성 있게 작동합니다.looking at viewer- 여성에 강한 편향이 있지만, 캐릭터를 중심에 배치하고 카메라를 바라보게 하는 데 탁월합니다.outdoors- 실외 환경을 일관성 있게 생성하거나 등장인물을 실외 장소에 배치하는 데 효과적입니다.blurry- 비어 있는 생성물은 항상 흐린 이미지가 됩니다. 음성 프롬프트로 사용할 경우 일부 개선 효과가 있습니다.Blurry background- MidJourney의 보케 스타일을 매우 잘 재현합니다. 긍정 프롬프트로 사용하는 예시를 아래에 제공합니다.Jewelry- 보석 이미지를 생성하거나 생성 과정에 보석을 추가합니다.indoors- 실외 프롬프트와 유사하게 작동합니다.
이미지 생성 추천
이 모델은 매우 유연하며, 거의 모든 스타일의 프롬프트로 작동할 수 있습니다. MidJourney 스타일 프롬프트든, Civitai나 Lexica의 어떤 내용이든, 대부분의 경우 흥미로운 결과를 기대할 수 있습니다.
또한, 위에서 언급한 태그들을 실험해보는 것도 가능합니다.
마지막으로, 어떤 형태의 업스케일링 방법을 사용하는 것을 강력히 권장합니다. 우리는 두 가지를 가장 선호합니다:
Hires. Fix
Hires. Fix를 활성화하고, 노이즈 제거 강도를 0.30.5 사이로 설정, 1.52배로 업스케일, 그리고 Latent (nearest exact) 또는 4x-Ultrasharp 업스케일러를 사용하시면 됩니다. 나머지 파라미터는 실험에 유연하게 사용할 수 있습니다.
ControlNet + Ultimate SD 업스케일
이전 게시물의 ControlNet 타일 업스케일 방법을 확인하세요 (링크).
향후 로드맵
보드카 시리즈:
Vodka V3 (완료) - 캡션에 태그를 추가해 그 영향을 확인
Vodka V4 (개발 중) - UNET 및 텍스트 인코더 학습 파라미터 분리로 '튀는' 문제 개선
Vodka V5 (데이터 준비 단계) - 개선된 새로운 데이터셋으로 학습 및 이전 모든 학습 경험 반영
Vodka V6 (예정 없음) - 전체 데이터에 대해 AI 생성 캡션으로 재캡션해, AI 캡션과 원본 사용자 프롬프트의 영향 비교
Vodka V7+ - 지금은 여러 아이디어를 모아놓은 저장소입니다. 데이터셋 분할 및 파라미터 조정, VAE 미세 조정, 모델의 약점에 기반해 특정 추가 데이터 추가 등 다양한 계획이 있습니다.
칵테일 시리즈:
이 모델들은 보드카(또는 미래의 기타 기본 모델)를 기반으로 한 믹스입니다.
블러디 메리 V1 (완료, 공개 전) - 첫 번째 믹스는 Vodka V2 기반입니다. 기대해 주세요: Vodka V2는 적절한 노력이 필요했던 이미지 생성에서, 대부분의 생성물이 매우 높은 품질을 내는 모델로 진화했습니다. 이 모델은 매우 유연하고 흥미로운 특성을 가지고 있습니다.
블러디 메리 V2+ (계획 중): 현재 구체적인 내용은 없으며, V1에서 얻은 경험과 보드카 베이스 모델의 개선을 기반으로 한 아이디어들만 있습니다.
기타 칵테일 (예정 없음) - 다른 칵테일 준비 계획과 아이디어는 있지만, 지금은 공유할 만한 내용이 없습니다.
LORA, 텍스트 대체, 기타 확장 기능:
우리는 Vodka 및 칵테일 시리즈의 기능을 강화하기 위한 확장형 출시에 몇 가지 탐색을 시작했습니다. 앞으로 공개될 예정이니 기대해 주세요.
일부는 성공하지 못할 수도 있지만, 중요한 것은 과정을 통해 배우는 것입니다. 그래서 실패 여부와 상관없이 모든 탐색 과정을 공유할 예정입니다.
사용자 경험 및 솔루션 전체 제공:
이것은 앞으로 공개될 제품들의 첫 번째 징조일 뿐입니다. 지금까지 축적한 경험과 비전을 완전한 제품 형태로 재구성하는 작업을 진행 중입니다. 더욱 흥미로운 프로젝트들에 대한 정보를 점차 더 공유할 예정이니, 계속 지켜봐 주세요!
이전 버전 및 보드카의 역사
개요
요약하면, 저희는 Vodka_V2를 FollowFox.AI에서 공개하고 있으며, 이는 업데이트된 데이터셋(지금은 Midjourney V5.1 기반)으로 미세 조정된 일반 목적 모델입니다. 그리고 보통처럼 이번 게시물에서는 어떻게 도달하게 되었는지에 대한 모든 세부 사항을 공유합니다. 기대할 수 있는 점은 다음과 같습니다:
객관적으로 더 나은 데이터셋을 사용했습니다 – 크기는 2.5배 크고, 더 깨끗하게 정제되었습니다.
결과 모델은 V1과 매우 유사하지만 약간 더 우수합니다. 단계적 개선이지만, 혁신적인 변화는 아닙니다.
현재 상태에서 일부 노력과 함께 멋진 이미지를 생성할 수 있습니다.
여전히 MidJourney 또는 최상위 SD 모델 수준의 이미지를 쉽게, 일관되게 생성하는 수준에는 미치지 못하고 있습니다.
모델 학습 과정에 대한 모든 자료는 followfox.ai에서 확인할 수 있습니다 (게시물 링크, 가이드 링크). 이 커뮤니티의 오픈소스 정신을 존중하기 때문에 누구나 이 과정을 재현하고, 어떻게 도달하게 되었는지 정확히 확인하고, 프로토콜의 개별 요소에 대한 피드백과 제안을 제공할 수 있습니다.
Vodka V2에 잘 맞는 파라미터 및 워크플로우
여기서 테스트할 수 있는 사항이 더 많지만, 몇 가지 관찰을 공유합니다:
V1에 비해 CFG 값 범위를 더 넓게 시도할 수 있습니다. 3에서 7.5 사이의 값이 좋은 결과를 생성할 수 있습니다.
Booru 태그 전용 프롬프트는 작동하지 않습니다. (우리는 데이터셋에 태그를 붙이지 않았기 때문입니다)
인간의 문장형 설명 뒤에 어미, "마법의 단어"를 덧붙이면 매우 효과적입니다.
거의 모든 샘플러가 흥미로운 결과를 생성합니다.
아래 설명된 SD 업스케일 워크플로우와 타일 ControlNet 조합으로 이 모델의 이미지 품질을 향상시킬 수 있습니다.
EasyNegative TI(링크) 사용을 권장합니다. 음성 프롬프트에서 "blurry"를 사용하는 것도 도움이 됩니다.
Automatic1111에서 시도해 볼 업스케일 워크플로우
txt2img 탭에서 마음에 드는 초동 이미지를 생성한 후, img2img로 전송합니다. (한 프롬프트에 여러 샘플러와 CFG 값을 통해 그리드 생성해, 흥미로운 후보들을 찾아보시는 것을 추천합니다.)
원본 생성과 동일한 프롬프트와 샘플러 사용
샘플링 단계를 높게 설정하세요. 저희는 대부분의 이미지에 150을 사용했습니다.
너비와 높이를 원본의 2배로 설정하세요. 즉, 512x512는 1024x1024로 설정해야 합니다.
노이즈 제거 강도를 낮게 설정하세요. 저희는 0.2~0.25를 사용했습니다.
CFG 값은 (원본 - 0.5) 공식을 사용했습니다. 원본 이미지가 7.0에서 생성되었다면, 6.5로 설정합니다.
ControlNet 설정: 활성화, 전처리기로 “tile_resample” 선택, 모델로 ‘control_v11f1e_sd15_tile’ 선택. “ControlNet이 더 중요하다” 옵션으로 전환할 수도 있습니다. 다른 설정은 조정할 필요 없습니다.
“Ultimate SD 업스케일” 확장을 설치해두세요. 스크립트 드롭다운에서 선택하고, 4x-UltraSharp 업스케일러를 선택하며, 타일 너비와 높이를 640x640으로 설정하세요.
생성 버튼을 눌러 잠시 기다리면, 타당한 출력물이 나옵니다. 원한다면 다시 한 번 반복해 더 높은 해상도로 작동할 수 있습니다.
결론 및 다음 단계
우리는 모델 개발이 올바른 방향으로 나아가고 있다고 믿으며, 새로운 버전을 계속 공개할 예정입니다. 물론, 그 여정의 모든 단계를 기록하고 공개할 예정입니다.
V3 발행을 위해, 일부 생성물에서 흐릿함과 디테일 부족이 발생하는 원인에 대한 작동 가설을 이미 확보했으며, 이를 해결해보려 합니다.









