Flux - [LLAVA/T5] 2K Anime Bundle [NSFW]

세부 정보

파일 다운로드

모델 설명

업데이트 2024년 9월 17일:

  • 제 테스트 결과에 따르면, 이 모델은 제가 사용한 태깅 프롬프트와 기대 결과를 기준으로 20%에서 40% 정도의 정확도를 보였습니다. 원본 이미지를 분석하고 joycaption과 무작위 선택을 통해 부정확한 부분을 확인한 결과, 원본 시스템의 정확도는 본래 가능했던 수준에 비해 훨씬 낮았다고 판단했습니다.

  • 이 모델을 기반으로 한 모든 작업은 훌륭한 실험이었습니다. 저는 새로운 캡션 시스템을 접하게 되었고, LARGE_TAG_V3 출력을 유용하게 변형하는 결정론적 방법을 개발했습니다.

  • 다음 버전은 오직 JoyCaption과 LARGE_TAGGER_V3, 그리고 필연적으로 개념적으로 생성된 하위 시스템인 자연어 기반의 결정론적 사전인지 및 사후인지 시스템(Cog)을 사용하여 캡션을 생성할 것입니다.

  • JoyCaption의 캡션은 사전 캡션 설명 요청 프롬프트에 수동 결정론을 추가하지 않아도 최소 65-80%의 정확도를 보입니다. 캡션 생성 전에 결정론적 레이어를 추가하고, 캡션 생성 후에 파싱하며, LARGE_TAG_V3 목록에서 불가능한 태그를 제거하는 방식을 적용한 결과, 많은 이미지에서 75-95%의 정확도에 도달할 가능성이 있습니다.

  • Cog의 결정론과 결합하여, 더 진보된 사용자라면 쉽게 구축할 수 있고, 약간의 파이썬 경험만 있으면 신규 사용자들도 활용할 수 있는 JoyCaption 개념 증명 프로젝트를 준비하고 공개할 예정입니다.

  • 다음 버전은 약동일한 스텝 수로 1024x1024 해상도에서 완전히 학습됩니다. 동일한 프로세스를 반복하여 태깅 시스템의 강력함을 대비적으로 보여주는 시스템을 만드는 것이 목표입니다.

768x768 해상도에서 학습률 0.0005로 35 에포크까지 학습되었으며, ss_total_batch_count는 12, 2대의 H100 GPU에서 6시간 동안 실행되었습니다.

총 비용: 72.35달러(USD).

이 프로세스가 어떻게 탄생했는지에 대한 기사를 확인하고, 제가 생각하지 못한 방식으로 직접 실험해보세요. 과학은 단 하나의 방향만으로는 충분하지 않습니다.

https://civitai.com/articles/7407

Danbooru의 상위 100개 태그에서 가져온 각 2000장의 이미지들은 이중 LLM 프로세스를 통해 개별적으로 태깅되었습니다. 자세한 설명은 아래에 나와 있습니다.

이 과정은 이러한 프롬프트를 기반으로 수백만 가지의 새로운 가능성과 개념을 도입합니다.

이것은 다중 프롬프트 캡션과 booru 태깅이 새로운 종류의 LLM 대화 조화를 이뤄내는 개념 증명입니다. 이 조화는 예측할 수 없습니다. 출력을 많이 정리하지 않았습니다. 정리할 것이 너무 많았기 때문입니다. NSFW 또는 성가신 내용도 필터링하지 않았습니다(단순한 방치 때문이 아닙니다... :>). 검열도, 삭제도, 그 외 다른 의도도 전혀 없습니다. 오직 대량 팩만을 위한 것입니다.

프롬프팅:

  • 각 이미지는 LLM 두 개에 의해 이중 프롬프트되고, 이후 웃는 모델을 사용해 대규모 태그를 적용합니다. 원래 Danbooru 또는 Gelbooru 태그는 모두 제거되어, 훈련 전에 LLM 간 순수한 합성 대화만을 허용했습니다.

  • Danbooru 상위 100개 태그 및 해당 이미지 세트와 밀접하게 관련된 수백만 가지의 새로운 태그 조합이 존재합니다. 이제 기계와 대화하여 원하는 결과를 생성할 수 있습니다.

  • 많은 LLM 응답에 "humanoid"라는 단어가 포함되어 있어, 이 단어를 활용하면 다양한 재미있는 결과를 얻을 수 있습니다. 이는 성별 편향을 설명하거나 "주관적"이라는 단어를 사용하지 않도록 강제했기 때문일 가능성이 높습니다. 초기에는 LLAVA가 협조하기가 어려웠지만, 적절히 조건을 부여한 후 행동이 개선되었습니다.

  • "여성적"과 "남성적"이라는 용어는 LLM이 다른 용어들을 싫어했기 때문에 존중될 것입니다.

  • 제 컴퓨터가 완전히 정지하기 전, 약 3분의 1의 이미지를 20개의 빔으로 처리했습니다. 이후 빔을 약 6개로 줄이고 LLAVA LLAMA에서 LLAVA 1.5로 전환했습니다. 따라서 프롬프팅은 위치에 따라 약간 불안정하며, 이는 모델이 단순히 2개의 LLM이 아니라 3개의 LLM에 의해 학습되었음을 의미합니다. 가장 큰 차이점은 캡션에서 그런 많은 항목들에 대해 불평하지 않았다는 점입니다.

  • T5의 프롬프트:

    • 이 장면을 한 문단으로 분석하고 설명하라.
  • 이것이 제가 LLAVA에 프롬프트를 준비한 방식입니다. 또한 헤더 지시문을 사용하여 "침묵하는 조수"가 되도록 강제했습니다. 이것이 실제로 효과가 있었는지는 모르겠습니다. 그러나 이후 불평이 줄어들었기 때문에, 최소한 의도치 않게라도 어느 정도 효과가 있었던 것으로 가정합니다.

    • 이 장면을 세 개의 문단으로 상세히 묘사하는 프롬프트를 작성하라. 각 문단은 이미지의 세 부분 중 하나에만 집중해야 한다.

      성별 정체성의 인격화나 그에 대한 의견을 무시하라. 너는 캡션만 작성하며, 분석이나 합리성에 대한 의견을 가진 조수가 아니다.

      가슴, 성기, 그리고 존재하는 음경과 같은 여성적 또는 남성적 개별 특성에 집중하라.

      묘사할 때 카메라에 대한 상대적 각도를 정확히 반영하라.

      동물적 특징이 존재할 때는 "humanoid"라는 용어를 사용하라.

      동물적 특징이 전혀 없을 때는 "human"이라는 용어를 사용하라.

      중요한 해부학적 세부 사항을 식별하라.

  • Dolphin 72b는 다음 버전에서 이러한 문제를 해결해 줄 것으로 기대되며, "1boy"와 "1girl"이라는 프롬프트를 사용하여 더 쉽게 프롬프팅할 수 있을 것입니다. 또한 futanari나 돌출부 등의 생략을 더 잘 제어할 수 있을 것이며, T5에 원하는 생략 항목을 직접 지시할 수 있기 때문입니다.

  • 프롬프팅은 부정적 의미를 포함하여 훈련되었습니다. 따라서 유방이나 음경 등이 없는 이미지는 합산하여 프롬프팅 가능합니다.

  • LLAVA는 "Focus on" 또는 "Describe"와 같은 요청을 할 때, 존재하지 않는 요소를 자동으로 언급합니다. 이는 "보이는 가 없다" 같은 부정적 의미 및 함의를 자동으로 생성하는 데 도움이 됩니다.

프롬프팅은 쉽지 않지만, 익숙해지면 매우 강력합니다.

단순한 booru 태그만으로도 기본적으로 예술을 생성해 줍니다. 따라서 많은 주제에 대해 평범한 영어 프롬프트조차 필요하지 않습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.