스태빌리티 AI가 스테이블 디퓨전 xl(stable-diffusion xl) 를 출시했습니다.
이번 버전은 더 생생하고 정확한 색상을 생성하는 이미지 생성 AI 모델로, 여러 종횡비에서 1024×1024 해상도 이미지를 몇 초만에 만들 수 있습니다. 인페인팅, 아웃페인팅, 이미지 프롬프트 기능을 지원하며, 사용자는 스태빌리티AI 플랫폼의 API를 통해 SDXL 1.0을 미세 조정하여 특정 사물이나 인물에 대한 생성을 전문화할 수 있습니다.
이 오픈소스 모델은 소규모 하드웨어에서도 실행 가능합니다. 이글에서는 스테이블 디퓨전 xl(stable-diffusion xl)를 한번 시도해 보겠습니다.
목차
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
스테이블 디퓨전 xl(stable-diffusion xl) 이란?
텍스트-이미지 합성을 위한 스테이블 디퓨전 xl(stable-diffusion xl), 이전 버전인 Stable Diffusion과 비교하여, SDXL은 *세 배 더 큰 UNet 백본을 활용합니다. 모델 파라미터의 증가는 주로 더 많은 어텐션 블록과 더 큰 교차 어텐션 컨텍스트로 인한 것이며, SDXL은 두 번째 텍스트 인코더를 사용합니다. 여러 개의 새로운 조건부 스키마를 설계하고, SDXL을 여러 종횡비로 학습시킵니다. 또한 후처리 이미지-이미지 기법을 사용하여 SDXL에 의해 생성된 샘플의 시각적 충실성을 향상시키기 위한 개선 모델을 도입합니다.
SDXL-스테이블 디퓨전 xl(stable-diffusion xl)이 이전 버전인 Stable Diffusion과 비교하여 획기적으로 향상된 성능을 보이며, black-box state-of-the-art image generators 와 견줄만한 결과를 얻는다는 것을 입증합니다.
하드웨어 요구 사항: 제작 팀은 8GB 의 VRAM (그래픽 카드의 램)이 이미지를 생성하고 RTX 2070에서 1024 x 1024로 LORA를 교육 전체 미세 조정은 3090에서 수행할 수 있습니다.
*UNet: 이미지 처리 작업에 매우 널리 사용되는 네트워크 아키텍처로서, 주로 이미지 분할(segmentation) 작업에 사용됩니다.
스테이블 디퓨전 xl(stable-diffusion xl)을 이용하는 팁
- Stable Diffusion XL은 특히 768에서 1024 사이의 이미지에서 효과적으로 작동합니다.
- Stable Diffusion XL은 각각 다른 텍스트 인코더에 대해 다른 프롬프트를 전달할 수 있으며, 동일한 프롬프트의 다른 부분을 텍스트 인코더에 전달할 수도 있습니다.
- Stable Diffusion XL 출력 이미지는 refiner를 활용하여 개선할 수 있습니다.
사용가능한 체크포인트:
- 텍스트-이미지 (1024×1024 해상도): stabilityai/stable-diffusion-xl-base-1.0 (StableDiffusionXLPipeline과 함께)
- 이미지-이미지 / 리파이너 (1024×1024 해상도): stabilityai/stable-diffusion-xl-refiner-1.0 (StableDiffusionXLImg2ImgPipeline과 함께)
설치법
일반적으로 webui 와 comfy ui가 있는데요 기본적으로 webui에 익숙해서 사용하기는 webui가 편하지만 confy ui 가 비교적으로 빠른 속도로 생성이 되었습니다. 아래 두글을 참고하여 알맞게 시행 해 주시면 됩니다.
아래 두 글중 하나를 선택하여 받아주면 됩니다.
기본적으로 허깅 페이스 사이트 나 Civitai 에서 모델을 받습니다.
그러면 stable-diffusion webui 나 ComfyUI가 설치가 완료되었다면
이제 한번 비교하면서 생성을 해 보겠습니다.
스테이블 디퓨전 xl(stable-diffusion xl) 사용 하기 및 기존 모델과 비교
“이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.”
768 x 768 해상도에서의 비교
해상도는 둘다 동일하게 768 x 768 로 설정하였습니다.
최종적으로 전반적으로 XL이 확실히 퀄리티를 좋게 뽑아주고, 프롬프트에 좀더 반영을 더 잘 하는것 같습니다. 결과 값은 아래와 같습니다.
사용해본 결과 아직까지는 초기 단계이기도 하고, 모델이 이전보다 향상된 만큼 컴퓨터사양을 많이 먹기때문에 좀더 효율적이고, 더 나은 모델이 나올때 까지 기다리는 것이 어떨까하는 생각이 들었습니다.
a. 스테이블 디퓨전 xl(stable-diffusion xl) 1. 모델: sd_xl_base 2. 프롬프트: huge cat standing on the huge ship. 3. 네가티브: badquality 4. 샘플 스텝: 50 b. 스테이블 디퓨전 sd-v1.5 pruned 1. 모델: sd-v1.5 pruned 2. 프롬프트: huge cat standing on the huge ship. 3. 네가티브: badquality 4. 샘플 스텝: 50
1024 x 1024 해상도에서의 비교
1. 고양이
이번에는 해상도는 둘다 동일하게 1024 x 1024 로 설정하였습니다. 일단 돌려보진 않았지만 아마 sd1.5는 그림이 제대로 나오지 않을 것으로 예상됩니다.
예상결과와 일치하였습니다.
확실히 스테이블 디퓨전 xl(stable-diffusion xl)은 1024 x 1024 해상도로 그림을 뽑을 시에 훨씬더 좋은 결과가 나왔고, 스테이블 디퓨전 1.5는 괴상한 그림이 나왔습니다.
a. 스테이블 디퓨전 xl(stable-diffusion xl) 1. 모델: sd_xl_base 2. 프롬프트: cat standing on the huge ship. 3. 네가티브: badquality 4. 샘플 스텝: 50 b. 스테이블 디퓨전 sd-v1.5 pruned 1. 모델: sd-v1.5 pruned 2. 프롬프트: cat standing on the huge ship. 3. 네가티브: badquality 4. 샘플 스텝: 50
2. 사람
이번에는 1024 x 1024로 사람사진을 한번 뽑아봤습니다. 이해상도에서는 스테이블 디퓨전 기존모델인 sd 1.5는 의미가 없었습니다.( 괴상한 사진을 뽑아냅니다.)
a. 스테이블 디퓨전 xl(stable-diffusion xl) 1. 모델: sd_xl_base 2. 프롬프트: white simple background, Blunt Cut hair, blond hair color, ultra realistic 8k cg, cinematic lighting, cinematic bloom, 3. 네가티브: cartoon, anime, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), 4. 샘플 스텝: 20 b. 스테이블 디퓨전 sd-v1.5 pruned 1. 모델: sd-v1.5 pruned 2. 프롬프트: white simple background, Blunt Cut hair, blond hair color, ultra realistic 8k cg, cinematic lighting, cinematic bloom, 3. 네가티브: cartoon, anime, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), 4. 샘플 스텝: 20
스테이블 디퓨전 xl(stable-diffusion xl) 추천 모델
처음 출시 SDXL 출시 이후 지금까지 여러 모델들이 나왔는데요 그중에 추천할 만한 모델을 두가지 가져왔습니다.
1. DreamShaper XL1.0: 실사 특화
이 모델은 실사화에 특화 되어 있는 모델입니다.
다음과 같은 사진을 만들 수 있습니다.
2. SDVN6-RealArtXL: 아트 및 예술 특화
이 모델은 아트나 그림에 특화 되어 있는 모델입니다.
다음과 같은 그림을 만들 수 있습니다.
결론
“이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.”
이렇게 스테이블 디퓨전 xl(stable-diffusion xl)과 스테이블 디퓨전 sd-v1.5 pruned를 써봤는데요 확실히 스테이블 디퓨전 xl(stable-diffusion xl) 의 성능이 훨 씬 더 좋은 결과를 뽑아 냈습니다. 좀더 발전하고 모델들이 발전한다면 더더욱 좋은 결과가 나올 것 같습니다. 확실히 기존모델 + hires.fix 보다.
스테이블 디퓨전 xl(stable-diffusion xl) 의 1024 사진이 좀더 빠르고 좋은 퀄리티를 뽑아내는 것 같습니다.
여러분들도 다양한 방법으로 시도해보고 만들어 보세요!
함께 참고하면 좋은글
stable-diffusion 설치법 및 사용법, 간단하게 원클릭 설치!
3 thoughts on “스테이블 디퓨전 xl(stable-diffusion xl) 사용 해보기”