DALL-E 2 사용 후기

요약

  • DALL-E 2를 직접 사용해보았다.
  • 사용자의 창의성에 따라 DALL-E 2는 무궁무진한 고화질의 사진을 뽑아낸다.
  • 좋은 DALL-E 2 결과물을 얻으려면 사용자도 어느 정도 학습이 필요하다.
  • Reddit 커뮤니티에서 많은 사람들이 창의적인 프롬프트 결과를 공유한다.
  • DALL-E 2의 작품을 상업적으로 이용할 수 있다.

소개

얼마전 뉴스에서 DALL-E 2의 작품을 보고 신기하다고만 생각하고 말았는데, 어느날 문득 직접 사용해볼 수 있는지 궁금했다. 그래서 DALL-E 2 홈페이지에 들어가보니 사용신청을 할 수 있고, 초대되면 무료로 50번 이미지를 생성해볼 수 있었다 (한 번에 4장씩 생성됨). 별 생각없이 신청했는데, 어느날 이메일로 초대되었다는 메일을 받아서 설레는 마음으로 처음에는 떠오르는 아무 문장이나 입력해보았고 결과는 아래와 같다.

An astronaut doll is holding a red trash can in one hand and shining a green laser beam against a white wall. 우주비행사 인형이 한 손에 빨간 휴지통을 들고 하얀색 벽에 초록색 레이저 빔을 비추고 있다.

내가 기대했던 것보다 결과물이 훨씬 잘 나와서 놀랐다. 사용자가 DALL-E 2에게 그려달라고 요청할 메시지를 “프롬프트 (prompt)”라고 하는데 프롬프트를 한 번 입력하면 잠시 후 DALL-E 2는 4개의 사진을 출력한다. 운이 좋으면 4장 모두 멋진 사진을 출력하기도 한다.

 

텍스트로 내가 원하는 장면과 그림체를 입력하기만 하면 어떤 그림이든 그려준다고 생각하니 마치 요술램프 지니가 현실화된 것 같았고, 마음 속에서 강한 설레임과 호기심이 피어오르고 있었다.

잘 뽑히는 사진과 안 뽑히는 사진

호기심이 발동하면서 여러 가지 유형의 텍스트를 입력해보았다. Simpson, Kermit the Frog, Elmo 등을 입력해보면서 잘 뽑히는 사진과 엉망으로 뽑히는 사진이 분명히 나뉘었다. 아직 명확히 구분되지는 않았지만, DALL-E 2가 제공하는 서비스가 나에게는 여러 가지 테스트를 해보고 싶게 만드는 마력이 있다. 그래서 나에게 주어진 리소스 (50 크레딧)를 활용하여 간단하게 여러 테스트를 해보고 몇 가지 특징들을 정리해보았다.

A. 동일한 사물 고려하기

특정 그림체에서 묘사된 사물의 데이터가 많을수록 그와 비슷한 범주에 속하는 사물들이 잘 그려진다. 예를 들어, 1930년대 디즈니 만화에 나오는 사물들은 사람 혹은 동물들이 대다수이고, 숲속 또는 집 내부를 배경으로 하고, 대상들의 감정 표현이 풍부하게 묘사된다. 이러한 특성을 이용해서 숲속의 어떤 동물들이 어떤 표정으로 어떤 행동을 하고 있는지 입력하면 더 좋은 그림이 나올 확률이 높고, 반대로 번잡한 도시 풍경을 입력하면 실망스러운 사진을 얻게 될 확률이 높아진다. 아래 그림은 1930년대 디즈니 만화에 나오는 거북이와 개구리를 그려달라고 요청했을 때의 결과이다.

1930's disney cartoon of A tortoise with a frog on its back riding through a log in the jungle.

B. 사물 모양 고려하기

또 다른 예로, Paul Klee 그림은 다양한 색상에 세모, 네모, 동그라미 등 단순한 기본적인 도형을 배치하는 그림체인데, 이런 그림체에는 도시 풍경이 어울린다. 도시 속 빌딩들이 대부분 네모의 형태를 갖기 때문이다.

만약, Paul Klee의 그림체를 사용하면서 뱀과 같이 곡선이 굉장히 많은 사물을 그려달라고 한다면, DALL-E 2도 멋진 사진을 만들어내지 못할 확률이 높다.

C. 국가와 시대적 배경 고려하기

같은 사물을 입력하더라도 그림체의 시대적 배경에 따라 완전히 다른 스타일의 결과가 출력된다. 사람을 예로 들면, 단순히 여성을 그리라고만 해도 그림체가 탄생한 국가와 시대에 따라 입고있는 옷과 헤어스타일이 다르게 표현된다.

 

DALL-E 2에게 일본 에도 시대의 ukiyo-e 그림체로 여성을 그리라고 하면, 아래와 같이 기모노를 입은 여성들을 표현한다.

An ukiyo-e painting of a fashion show, wide shot.

반면, 1900년대 초 화가인 에드워드 호퍼 그림체로 여성을 그리라고 하면, 다음과 같이 근대적으로 여성을 묘사한다.

A edward hopper painting of A young woman in a skirt waiting for the train early in the morning.

일본 에도 시대와 근대 모두 여성은 존재했기에 문제없이 그려내었지만, 만약 일본 에도 시대에 자동차를 그려달라고 하거나, 근대에 아이폰을 요청했다면 DALL-E 2는 잘못된 방향으로 그림을 그려낼 확률이 높아진다.

D. 소재 공통점 고려하기

시대적 배경이 다르더라도 유사한 소재와 형태를 가진다면 사진이 잘 뽑힐 수 있다.

고대 이집트 유물 중에 투탕카멘의 마스크가 있는데, 아래와 같이 생겼다.

시대적 배경을 전혀 고려하지 않고 현대에 만들어진 작품이라고 가정하면, 마치 휴머노이드 (humanoid)와 같이 생겼다고 생각해도 이상하지 않다. 그리고 DALL-E 2에게 고대 이집트 아이언맨의 프롬프트를 입력했더니 결과가 아래와 같았다.

Iron-Man from Ancient Egypt

DALL-E 2는 고대 이집트 투탕카멘 마스크를 학습했고, 이를 통해 입력으로 받은 아이언맨 재해석한 것 같은데, 이는 아이언맨과 고대 이집트 마스크 모두 금속의 소재라는 공통점으로 묶인 것이라고 추측하고 있다. 하지만 학습한 아이언맨이 꼭 금속이 아닐수도 있는데, 그래서 위 결과 외에도 목조 인형 아이언맨도 결과로 출력되었다.

결국 학습하지 않은 정보는 제대로 못 그린다

DALL-E 2도 학습한 데이터를 토대로 결과를 만들기 때문에 애초에 학습되지 않은 유형의 텍스트는 좋은 결과를 만들어내지 못 한다. 심슨, 마블, 픽사 등 유명한 작품은 데이터가 많아서 구체적이고 복잡한 프롬프트를 입력해도 괜찮은 결과를 뽑아내는 반면, 한국 전통 동양화를 컨셉으로 그려달라고 요청하면 전혀 엉뚱하거나 조잡한 결과를 내놓는다. 따라서, DALL-E 2가 미국 출신의 OpenAI에서 만들어진 만큼, 미국의 관점에서 익숙하지 않은 (덜 알려진) 요소들은 피하는 것이 좋다.

(회고) 테스트를 해보면서…

첫 인상은 감탄

위의 내용처럼 직접 머릿속에서 떠오르는 조합 가설을 세우고 직접 테스트를 해보고 결과를 통해 DALL-E 2가 사진을 잘 뽑아내는 방법을 찾아가는 과정도 나에게는 큰 재미로 느껴졌다. 이 재미의 키 포인트 질문은 “DALL-E 2가 뽑아낼 수 있는 사진의 바운더리가 어디일까?” 인 것 같다. 아직까지는 그 바운더리가 보이지 않는다. 갑자기 떠오르는 A와 B의 조합을 DALL-E 2에 입력해서 결과를 확인하면 사전에 내가 기대했던 범위 내의 또는 그 이상의 결과를 보여주는 것을 보고 감탄하고 있다.

파블로프의 개

‘파블로프의 개’에서 개의 상황에 처했다. 개가 벨을 눌렀을 때 먹이를 주는 것처럼, 내가 머릿속으로 기대하는 사진의 텍스트를 입력하면 DALL-E 2가 나에게 원하는 사진을 제공하고 있다. DALL-E 2의 결과가 실망스럽다면, 몇 번 하다가 그만두었겠지만, 생각 이상으로 멋진 결과물을 계속 보여주는 바람에 (입력을 할 때 열에 아홉은 긍정적인 피드백을 받는다) 나는 멈추지 않고 계속 아이디어가 떠오를 때 마다 DALL-E 2에게 텍스트를 건네고 있다 (지금은 순간적인 호기심이 크게 치솟고 있지만 언제나 그렇듯이 얼마 지나서 다시 사라질 것이다).

당첨 혹은 꽝

DALL-E 2를 여러 번 사용하다보면 어느 순간 DALL-E 2도 당첨 혹은 꽝의 개념이 있다는 착각을 하게 된다. DALL-E 2가 그리기 어려운 프롬프트를 전달하면 최악의 경우 4장 모두 내용과 전혀 상관없고, 시각적으로도 엉망인 결과물이 나오는데, 이를 꽝이라고 할 수 있다. 빠칭코처럼 한 판 할 때마다 레버를 당겨서 결과를 보고 꽝이 나오면 다시 레버를 당기면서 좋은 결과물이 나올 때 까지 반복하는 하게 된다. 그러다가 당첨이 되면 순간 만족스럽지만, 잠깐의 시간이 지나면 다시 새로운 호기심이 생기면서 다시 레버를 당기게 된다.

아침이 가장 창의적인 시간이 맞다

DALL-E 2에 완전히 꽂혔을 때 아침부터 저녁까지 사진만 계속 만들고 관찰하는 시간을 가졌는데, 아침에 작성한 프롬프트의 결과물이 저녁에 작성한 프롬프트보다 확실히 더 멋졌다. 점점 욕심이 많아져서 그런지는 모르겠으나 자기 직전에 입력한 프롬프트는 아얘 DALL-E 2가 해석할 수 없어서 엉망의 결과물을 만들어내는 경우가 많았다. 그래서 결과물의 시간 대별 패턴을 보고 아침이 창의성이 더 높은 시간대가 맞다는 것을 인정하게 되었다.

전세계 DALL-E 2 사진 컨테스트 on Reddit

전세계 커뮤니티 사이트인 Reddit에 dalle2 채널이 있는데, 이곳에 들어가보니 실시간으로 수 많은 사람들이 DALL-E 2로 뽑아낸 사진들을 끊임없이 올리고 있었다. 그 사진들을 보고 있자면 시간 가는 줄 모르는데, 여기서 두 가지에 감탄을 하게 된다. 첫번째는 Reddit에 올라오는 DALL-E 2가 뽑아낸 사진들이 하나같이 완성도가 높았다는 점, 두번째는 DALL-E 2가 멋진 사진을 뽑아낼수 있도록 멋진 프롬프트를 작성한 작성자의 창의성이다. 작성자가 구체적이고 납득할 수 있는 프롬프트를 입력할수록 DALL-E 2는 더 멋진 사진을 만들어낸다. 그 중 몇 가지만 뽑아보았다.

작품 1. 심슨과 매트릭스

Photo, Bart Simpson as Neo and Lisa Simpson as Trinity in in a famous scene from The Matrix, 4k, high detail, professional photography 매트릭스의 유명한 장면에서 네오 역의 바트 심슨과 트리니티 역의 리사 심슨 사진, 고품질, 전문 사진

레고로 만들어진 바트와 리사가 영화 매트릭스의 네오와 트리니티 역을 맡고 있는 씬을 보여주는 것 같아 인상적이다.

작품 2. 포켓몬과 즈지스와프 벡신스키

Pikachu by Zdzisław Beksiński

AI가 그렸다고는 믿기지 않을 정도로 높은 완성도의 예술 작품을 만들어 내고 있다.

 

위와 같이 창의적인 프롬프트를 입력하고 그에 대한 결과도 멋지게 나왔을 때 사람들은 upvote를 통해 찬사를 보낸다. 만약, DALL-E 2가 더 멋진 사진을 뽑아내는 방법을 연구하고 싶다면 Reddit에 자주 방문해서 새로운 이미지와 그 프롬프트를 보고 분석하면 될 것 같다.

DALL-E 2의 사용처

DALL-E 2가 사용자의 역량에 따라 얼마든지 멋진 사진을 만들어낼 수 있다는 것은 확인했다. 그렇다면 DALL-E 2를 어디에, 어떻게 사용해야 할까?

사진의 저작권

DALL-E 2가 뽑아낸 사진은 재인쇄, 판매 및 머천다이즈 생성에 대한 권리도 포함되므로 상업용 프로젝트인 책/뉴스레터/컨셉아트/게임/디자인 컨설팅용 무드보드/영화 스토리보드 등에 자유롭게 이용할 수 있다.

블로그 썸네일에 이용

deephaven.io의 내용처럼 블로그를 운영하는 사람은 자신의 블로그 포스팅에 DALL-E 2가 생성한 사진을 썸네일로 사용할 수도 있을 것 같다. 필자의 경우에도 앞으로 신규 블로그 포스팅에 DALL-E 2에서 괜찮게 뽑아낸 그림을 하나씩 업로드해 볼 예정이다.

마무리

A Shiba Inu dog wearing a beret and black turtleneck

여기저기서 AI가 그림을 그리고 (DALL-E 2), 작곡하고, 코딩하고, 소설도 쓰는 등 산업 곳곳에 스며들고 있는 것 같다. 예전에는 AI가 어떤 작업을 할 수 있다는 것을 프로토타입 형식으로만 보여주었다면, 지금은 대기업 중심으로 상품을 만들어서 돈을 받고 판매를 하고 있다. 산업 전반에서 창의성이 요구되는 분야도 AI는 명세만 잘 전달받으면, 만족할 만한 수준으로 만들어내고 있기 때문에 앞으로 사람이 무언가를 만드는 작업은 점점 줄어들고, 무엇을 만들어야 하는지 구체적인 명세를 작성하는 실력을 키워야 할 것 같다. 다시 말해서, 사람은 자신의 머릿속에서 생각하는 결과물을 아무런 고정관념이 없는 AI가 백퍼센트 이해할 수 있도록 자연어로 잘 설명하는 실력을 키워야 할 것 같다.