Realistic 3D Style v1 [NOOB vPred V0.65S / ePred v1.1]
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
업데이트 1: GMT -7 2024년 12월 5일 오후 1시 51분
태그 오류를 발견했습니다; 인간의 실수 감지됨. 이미지 상단에 3D 및 3D 아트워크 태그를 자동으로 태그했어야 했지만, 실제로는 이미지 하단이 아닌 상단에 자동 태그하여 예상보다 훨씬 낮은 품질의 결과가 나왔습니다.
새로운 추천 긍정 프롬프트는 다음과 같습니다:
3d, 3d \(artwork\), realistic, artist1, artist2, artist3, ... artist99, noob tags here, very aesthetic, aesthetic, masterpiece, highres, absurdres, newest, 3d, 3d \(artwork\), realistic,이 프롬프트는 여러 해상도에서 대안보다 더 나은 결과를 생성하며, 아트 스타일이 더 두드러집니다.
분명히 제 프로세스는 개선이 필요하지만 괜찮습니다. 우주는 우리가 받을 것을 주죠.
왜 이렇게 진지할까요, 배트맨?
이 스타일은 특수 묘사 태그 없이도 매우 성공적입니다.
추천 설정:
강도:
0.8 ePred
0.92 vPred
단계: 50
Euler - SGM Uniform
CFG: 5-6.5
1024x1024, 1216x1216, 1216x832, 832x1216
832x832, 768x768, 512x768, 768x512, 512x512
긍정 프롬프트:
3d, 3d \(artwork\), realistic,
normal tags here,
masterpiece, highres, absurdres, newest, 3d, 3d \(artwork\), realistic,
부정 프롬프트:
nsfw, worst quality, old, early, low quality, lowres, signature, username, logo, bad hands, mutated hands, mammal, anthro, furry, ambiguous form, feral, semi-anthro, bad anatomy, extra digits
원하는 대로 부정 또는 긍정 요소를 삭제하십시오.
버닝 다운 후, 많은 고품질 3D 이미지가 "역겨움", "불만족스러움", "매우 불만족스러움"으로 태그되어 있다는 것을 알게 되었으니, 특히 1024x1024보다 낮은 해상도 이미지를 사용할 때 이 세 가지 태그를 사용하면 좋은 결과를 얻을 수 있음을 기억하세요.
이 스타일 LoRA는 다양한 아티스트 스타일과 시리즈 스타일을 생성합니다. 많은 캐릭터를 강화하고 일부 기본 복장은 부산물로 수정합니다. 일부 새로운 캐릭터를 도입하지만 그 강도가 충분하지 않아 기대하지 마세요.
이것은 특히 'NUDGE LoRA'로 훈련되었습니다. 모델을 전복시키지 않고, 조정하고 개선하는 데 목적이 있습니다. 새로운 주요 정보를 도입하지 않고 말이죠.
이것은 다양한 스타일과 아티스트의 이미지를 포함하고, 핵심 태그 "3d", "3d (artwork)", "realistic"를 강화하지만 완전히 파괴하지 않는 것을 의미합니다.
물론 일부 깊이 오류가 존재합니다. 복잡도가 충분히 높아지면 중첩과 문제로 인해 아티팩트가 발생하는데, 이는 이미지 소싱 시 의도적인 보간을 사용한 업스케일 및 샤프닝 방법 때문일 가능성이 높습니다.
다음 버전은 적어도 20 에포크로 실행될 10만 장 이미지 버전이 될 것이며, 앞으로 몇 주 안에 확인해 주세요.
앞으로 몇 일 동안 AI 개선, 이미지 보간, 모션 AI 기술을 연구할 것이며, 'RE-LORA'라고 부르는 전환 단계 LoRA를 설계할 예정입니다. 이는 버닝 인 강화 LoRA 개념으로, 고정된 모델을 특정 위치에서 반복하여 조건 및 이미지 개선 정보를 매우 높은 학습률과 적은 단계로 집중적으로 주입하는 방식입니다. 핵심 모델을 파괴하거나 변경하거나 전체 에포크를 기다리지 않고요.
이는 LoRA와 text_encoder의 중간 형태이며, 둘 모두는 아닙니다. 목표는 모델에 '상처'를 남겨, 모델이 자신의 데이터가 어디에 있는지 인식하게 하는 것입니다. 이는 압축된 고차원 저장 텐서를 사용합니다. img2img, 스케치, 또는 이미 존재하는 모델에 마스크된 인페인팅 기능을 큰 학습 사이클 없이도 매우 적은 이미지 및 마스크 데이터로 구현하는 것과 비슷합니다.
정리되지 않은 생각들:
ePred V1.1에서도 잘 작동하는 것 같습니다. 단지 스케일 측정이 다를 뿐입니다.
ePred v1.1과 매우 놀라울 정도로 잘 작동하지만, 기본 모델로는 vPred v0.65S를 사용하여 훈련했습니다.
2m SDE Heun을 사용하면 1300x1300을 지원하며 추가 업스케일링이 가능합니다. 정말 훌륭한 결과가 나옵니다.
시도해보세요.
쿼터 프레임은 충분히 작지 않았고, 예상보다 훨씬 더 효과적이었습니다.
다시 식별을 실행해야 하며, 이번에는 이미지의 1/9 크기와 같은 'small-frame' 같은 더 작은 태그를 추가해야 합니다.
에포크 30은 현실성과 3D 표현에서 더 높은 정밀도를 가집니다. 에포크 20보다 훨씬 우수하지만 여전히 완성되지 않았습니다.
에포크 37에서는 전체 이미지 디스플레이 롤러와 다양한 태깅에 대한 사용 사례를 만들 예정입니다.
비디오에서 추출한 약 4,000장의 이미지와 최근 r34xxx 및 r34us 업로드에서 촬영한 6,000장의 이미지를 사용했습니다.
약 10,000장의 이미지로, 2개의 A100에서 배치 크기 64로 20 에포크 동안 훈련했습니다.
에포크 37의 추정 훈련 완료 시간은 약 7시간이므로 몇 번 더 업로드가 있을 것입니다.
애니메이션 GIF와 비디오에서 가져온 이미지와, 고해상도 비AI 생성 이미지를 결합한 실험입니다.
이는 상대적으로 덜 알려진 많은 3D 아티스트들과 분명히 매우 인기 있는 많은 3D 아티스트들을 포함합니다.
모든 이미지는 최소한 한 명의 인물을 포함하도록 식별되었습니다.
현재 전체 아티스트 목록을 집계 중입니다. 손으로 선택한 것은 거의 없으며 대부분 자동화되었습니다. 자세한 내용은 최근 기사 참조
이를 기반으로 10만 장 이미지 버전을 완전히 훈련하려는 영감을 얻었습니다.
모든 비디오 프레임을 캡처하고, 샤프닝, 보존, 활용을 위한 프레임 간 보간 정규화 차이를 기록하며, 프레임별 태깅 카운터도 생성할 것입니다.
이는 훨씬 더 안정적인 방식으로 전체 보간 영상 생성을 가능하게 할 것입니다.
지금은 단지 몇 가지 묘사 오프셋 태그가 있는 스타일화된 장난감입니다. 즐겁게 사용하세요!
묘사 태그:
depicted-upper-left
depicted-upper-center
depicted-upper-right
depicted-middle-left
depicted-middle-center
depicted-middle-right
depicted-lower-left
depicted-lower-center
depicted-lower-right
스케일 태그:
full-frame
half-frame
quarter-frame
미적 태그:

이렇게 사용하세요:
depicted-upper-left half-frame face
depicted-lower-center full-frame legs
모델 자체가 소스 이미지의 초점 기반으로 오프셋과 묘사를 인식하기 때문에, 제가 훈련하지 않은 태그를 사용해도 다양한 흥미로운 결과를 얻을 수 있습니다.




















