Humans

세부 정보

파일 다운로드

모델 설명

이 모델은 일반인의 사진처럼 사실적인 이미지를 생성하도록 설계되었습니다. 대부분의 SD 모델은 아름다운 사람만 생성할 수 있습니다. 하지만 이 모델은 그렇지 않습니다. 여드름, 두더지, 흐트러진 머리카락, 비뚤어진 이빨, 주름살, 그리고 그냥 평범한 사람들의 모습을 얻게 될 것입니다.

간단한 요약:

수천 개의 트리거 단어는 https://gist.github.com/jaretburkett/cf8c224243834172fc13f72aaf49811d 에서 찾을 수 있으며, 빈도 기준으로 정렬된 목록은 여기서 확인할 수 있습니다: https://gist.github.com/jaretburkett/41370fdf69b791d2b406f3fa538d4b32 . 가장 중요한 단어는 “face”입니다. 데이터셋의 상당 부분에는 얼굴이 포함되어 있으며, 모두 “face”로 라벨링되었습니다. 얼굴을 얻으려면 이 단어를 사용해야 하며, 사용하지 않으면 일반적으로 원격 촬영, 즉 풀바디 또는 전신 사진이 생성됩니다. 이 모델은 일반적인 SD 모델이 처리할 수 있는 수준을 넘어서 단순한 프롬프트부터 훨씬 복잡한 프롬프트까지 잘 처리합니다. 동일한 프롬프트를 사용하더라도 시드마다 사람들의 방대한 다양성을 생성합니다. [328, 512, 640, 768, 896] 크기의 버킷과 다양한 종횡비로 학습되었으며, 하이레즈 보정 없이도 이 크기로 이미지를 생성할 수 있습니다.

자세한 설명:

데이터셋: 이 데이터셋은 약 10년간 구축해왔습니다. 현재 약 10만 장(계속 증가 중)의 신중하게 선별되고 균형 잡히며 라벨링된 이미지를 포함하고 있으며, 생성형 AI 모델의 편향을 제거하는 것을 목표로 합니다. 이는 제가 과거에 개발한 다양한 제품들을 위해 점진적으로 구축하고 확장해온 것이며, Stable Diffusion에 적용해보면 좋을 것 같아 이 데이터셋을 활용하게 되었습니다. 데이터셋은 주로 평범한 사람들을 포함하지만, 아름다운 사람들도 일부 포함되어 있습니다. 저는 가능한 한 일반 인구와 균형을 맞추려 노력했으며, 이 모델이 생성하는 이미지에서 그 의도가 분명히 드러납니다. 데이터셋에는 얼굴이 매우 많으며, 얼굴의 클로즈업을 트리거하거나 비트리거하기 위해 “face”라는 핵심 키워드로 라벨링했습니다. 데이터셋의 약 절반은 얼굴만 있는 이미지이며, 버전 2에서는 더 많은 초상화, 정면 촬영, 전신 사진을 추가해 균형을 맞추고 있습니다.

라벨링: 라벨링은 몇 년간 부분적으로 수작업으로 진행되었으며, 최근에는 주로 BLIP2를 사용했습니다. 저는 표준 BLIP2 캡션 외에 인물 사진을 위한 맞춤형 키워드 목록을 만들어 태깅 라이브러리에 사용했습니다. 이 키워드 목록은 다음에서 확인할 수 있습니다: https://gist.github.com/jaretburkett/cf8c224243834172fc13f72aaf49811d . 이 목록은 주로 GPT-4의 도움을 받아 생성되었으며, 버전 2에서는 수동으로 정리하고 개선할 계획입니다. 또한 곧 태깅 코드를 공개할 계획이지만, 맞춤형 인터로게이터에 익숙한 분이라면 지금도 사용하실 수 있습니다. 라벨링의 주요 목적은 인물을 꼼꼼하게 설명하는 것입니다. 대부분의 SD 모델은 나이, 성별, 머리카락 색, 아마도 인종 정도만 기술합니다. 저는 코 모양, 뺨뼈 깊이, 피부색, 민족적 기원, 눈 모양, 헤어스타일 등 매우 세밀하고 미세한 특징까지 묘사할 수 있기를 원했으며, 지금까지 결과에 매우 만족하고 있습니다. 이 모델은 인간 얼굴의 미세한 세부사항을 이미 학습했습니다. 이는 임베딩(텍스트 역전) 생성에 도움이 될 것입니다. 모델은 얼굴의 고유한 특징을 생성하는 법을 알고 있으며, 단지 해당 임베딩을 통해 트리거하기만 하면 됩니다.

향후 계획: 이는 버전 1이며, 사실상 알파 버전입니다. 저는 여전히 이 모델을 개선하고 있으며, 버전 2는 정말 놀라울 것이라 확신합니다. 현재 학습을 계속하고 있으며 데이터셋을 개선 중입니다. 현재 버전은 일부 세부사항에서 완벽하지 않으며, 눈이나 이빨이 의도치 않게 왜곡될 수 있습니다. 이 문제들을 해결하고, 평범한 사람들의 다양한 이미지 유형을 더 추가하기 위해 계속 학습할 계획입니다.

현재 사용 중인 LoRA 및 임베딩: 네... 아름다운 사람들을 위한 LoRA와 임베딩은, 아름다운 사람만 생성할 수 있는 모델로 학습된 것이므로 여기서는 같은 방식으로 작동하지 않습니다. 원래 의도한 인물 대신 그들의 시골 친척 같은 인물을 얻을 가능성이 높으며, 이 또한 재미있는 실험입니다. 한번 시도해보세요.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.