[생성 AI②] AI 화가 ‘개발경쟁’ 본격화

스타트업 이어 빅테크 기업도 적극 가담… “기술 고도화 속도 급등”

텍스트를 이해해 새로운 이미지를 만드는 ‘생성 AI’기술 경쟁이 본격화되고 있다. /픽사베이

인공지능(AI)이 창작의 영역에 진출했습니다. 시를 쓰고 그림을 그리고 동영상을 만드는데 AI가 활용되고 있습니다. 이러한 ‘생성 AI’는 AI 시장의 판도를 바꿀 수 있는 기술로 평가됩니다. 더에이아이(THE AI)는 생성 AI의 가능성과 장점, 단점을 심도 있게 알아보는 ‘생성 AI 특집기사’를 5회에 걸쳐 연재하고 있습니다. 독자 여러분들의 많은 관심 바랍니다. - 편집자 주

2021년 출시된 달리는 하얀 배경에 만화나 일반 사진만 구현하는 등 품질이 낮았다. /오픈AI

생성 인공지능(AI) 판이 커지고 있다. 스타트업과 대기업 등 많은 기업이 사용자 입력값을 이해해 기존에 없던 이미지, 문장, 동영상을 생성하는 AI 모델 개발에 박차를 가하고 있다. 기술 개발에 뛰어든 기업이 많은 만큼 기술도 빠르게 고도화되고 있다. 생성되는 이미지가 정교해졌고 3D로 만드는 기술까지 등장했다. 이로 인한 퍼포머스도 화려하다. AI로 만든 이미지가 미술 대회에서 우승하고 세계적인 패션쇼에 사용되기도 했다.

생성 AI는 사용자 의도에 맞춰 새로운 텍스트와 이미지를 만들어내는 AI 모델이다. 사용자가 입력한 텍스트를 이해해 이와 관련된 이미지나 문장 등을 새롭게 생성한다. ‘체스를 하는 고양이’라는 텍스트를 입력하면 AI가 이와 관련된 이미지를 여러 개 만들어내는 식이다.

생성 AI가 본격적으로 알려지기 시작한 것도 텍스트보단 이미지 관련 기술이 등장하면서부터다. 텍스트 생성 모델은 기존 언어모델과 자연어처리(NLP) 기술로 가능할 수 있다고 평가됐지만, 이미지의 경우 NLP와 더불어 이미지 프로세싱 등 복잡한 기술이 필요해 AI 개발자에게 ‘시간이 더 필요한 과제’로 인식돼 왔다. 실제로 대중들도 AI가 소설을 쓰는 것보다 이미지를 만드는 것이 더 충격으로 다가왔다. 여기에 각 개발사들도 일반 대중들이 사용할 수 있는 ‘이미지 생성 AI 서비스’를 시작하자 대중들 사이에선 ‘생성 AI’라고 하면 ‘이미지 생성 기능’을 먼저 떠올리는 경우가 많다.

이미지 생성 AI가 처음 등장한 것은 2021년 초다. 미국 연구기관 오픈AI는 지난해 1월 블로그에 텍스트를 이해해 새로운 이미지를 생성하는 ‘달리(DALL-E)’를 처음 공개했다. 이 모델은 학습한 이미지 데이터를 분류만 하던 기존 이미지 생성 기술과 다른 결과물을 냈다. 인터넷에서 수집한 대량의 데이터를 활용, 새로 조합하는 방식으로 새로운 이미지를 생성했다. 동물과 사물을 의인화하거나 관련 없는 개념도 그럴듯하게 결합해 이미지를 만들었다. 단 이 모델은 사실과 유사한 이미지를 생성하진 못했다. 하얀 배경에 만화와 같은 이미지를 구현해냈다. 생성하는 이미지의 품질도 낮았다. 하지만 달리는 AI로 새로운 이미지를 만들어낼 수 있다는 가능성을 증명했고 이후 수많은 AI 생성 모델을 탄생시키는 기반을 마련했다.

‘놀라운 꽃다발, 매우 상세한, 검은 배경, 멋진 예술, 놀라운 세부 사항’ 등을 텍스트로 입력했을 때 (왼쪽부터) 미드저니, 달리2, 스테이블 디퓨전이 생성한 이미지의 모습. /트위터

◇관련 기술 개발 스타트업 기업 가치 크게 올라

이미지 생성 AI의 전성기는 올해 시작됐다. 원조 격인 달리를 개발한 오픈AI는 사실적인 이미지를 만들 수 있는 후속작인 ‘달리2’를 지난 4월 공개하며 생성 AI 시대를 알렸다. 달리2는 기존 버전과 달리 그림자, 음영, 심도 효과, 배경 등을 사실처럼 생성해냈다. 사진인지 그림인지, 또 사람이 그린 그림인지 기계가 그린 그림인지 분간이 어려울 정도로 높은 품질의 이미지를 만들었다.

알렉스 니콜 오픈AI 연구원은 블로그에서 “달리2는 디자이너와 예술가들이 디자인 아이디어를 얻고 실제 작품을 제작하는 데 유용하게 사용할 수 있다”면서 “컴퓨터 게임 회사들도 이를 사용해 다양한 장면과 캐릭터를 만들어낼 수 있을 것”이라고 말했다.

이미지 생성 AI는 AI의 비즈니스 가능성을 키웠다. AI 관련 종사자뿐 아니라 사진작가, 디자이너, 인테리어 종사자 등 다양한 직종의 사람들이 사용할 수 있는 기술이기 때문이다. 실제로 소셜네트워크서비스(SNS)에서는 달리2 등으로 만든 이미지가 많이 공유되고 있다.

시장 가능성이 커지자 생성 AI 개발에 많은 기업이 뛰어들었다. 이미 많은 사용자를 보유하고 있는 ‘스테이블 디퓨전’, ‘미드저니’ 등이 대표 사례다.

스테이블 디퓨전은 영국 스타트업 ‘스테빌리티AI’가 지난 8월 완전 오픈소스로 공개한 이미지 생성 AI 모델이다. 스테빌리티AI는 이 모델을 공개한 후 두 달 만에 1억 100만 달러(약 1400억 원) 규모의 투자를 받아 기업가치 10억 달러 이상의 스타트업을 의미하는 ‘유니콘기업’ 반열에 올랐다. 현재 이 모델을 다운받은 개발자는 20만 명, 일반 사용자는 100만 명 이상이다.

미드저니는 미국 항공우주국(NASA) 엔지니어 출신인 데이비드 홀츠가 개발한 모델이다. 지난 8월 미국 콜로라도주에서 개최한 미술대회에서 게임 디자이너인 제이슨 앨런이 AI로 그린 그림으로 1등을 차지해 논란이 됐었는데 여기서 사용된 AI가 바로 미드저니다. 현재 미드저니의 공식 디스코드 서버에 등록한 회원 수는 300만 명이 넘는다.

◇구글·애플·엔비디아 등 빅테크 기업도 참전

생성 AI의 높은 파급력에 빅테크 기업들도 관련 모델 개발에 적극 뛰어드는 추세다. 구글은 지난 5월 입력된 문장을 이해해 그림을 만들어내는 ‘이매젠(Imagen)’을 온라인을 통해 공개했다. 오픈AI가 공개한 달리와 유사한 AI 모델이다. ‘페르시안 고양이가 검은 자킷을 입고 바다에서 기타 치는 사진’이라는 텍스트를 입력하면 이에 걸맞은 그림을 AI가 생성한다. 구글 리서치는 블로그를 통해 “이매젠은 깊은 수준의 언어를 이해해 문장에서 이미지를 만들어내는 AI 모델”이라며 “텍스트를 이해해 다양한 이미지를 만들어낼 수 있다”고 설명했다.

엔비디아는 텍스트를 이해해 3D 이미지를 만드는 이미지 생성 AI‘매직3D’를 공개했다. /엔비디아

애플은 지난 8월 이미지를 3D로 생성할 수 있는 AI 모델 ‘가우디(GAUDI)’를 공개했다. 텍스트 입력값을 3D 장면으로 구현하는 모델이다. 달리2나 이매젠이 2D 이미지를 생성한 것과 달리 3D 이미지를 만들어낼 수 있는 차별점이 있다. 이 모델은 아직 해상도 등 이미지 출력 품질이 좋지 않지만 3D 물체와 장면을 렌더링하기 위한 AI 시스템의 토대가 될 수 있고 확장현실(XR) 헤드셋 등에 사용할 수 있는 기술로 평가됐다.

여기에 엔비디아도 가세했다. 지난 22일(현지시간) 텍스트를 이해해 3D 이미지를 만드는 ‘매직3D’를 공개했다. 텍스트를 입력하면 약 40분 안에 3D 이미지를 생성한다. 엔비디아는 매직3D에 대해 기존 저화질 3D 이미지 한계를 뛰어넘은 모델이라고 설명했다. 이 모델로 생성한 이미지는 비디오 게임이나 미디어 특수 효과 제작 등에 사용할 수 있다고 밝혔다.

LG AI연구원은 지난 2월 ‘F/W 뉴욕 패션위크’에서 ‘엑사원’을 두뇌로 탑재한 AI 휴먼 ‘틸다’와 박윤희 디자이너가 협업한 사례를 소개했다. /LG AI연구원

이처럼 글로벌 빅테크 기업들이 이미지 생성 AI 시장에 뛰어들면서 기술은 계속 고도화되고 있다. 실제와 같은 이미지를 넘어서 3D, 저품질 동영상 생성까지 기술이 개발된 상태다. 내년에는 더 많은 기업에서 기술을 연구, 고품질 동영상 생성까지 가능해질 것으로 전망된다.

◇LG, 패션쇼서 기술력 입증…‘셔터스톡’에서 일반인도 기술 이용 가능

국내 기업 중 이미지 생성 AI 분야에서 가장 앞선다고 평가되는 기업은 LG다. LG AI연구원은 지난해 12월 선보인 초거대 멀티모달 AI ‘엑사원’을 공개했다. 엑사원은 텍스트를 입력하면 이를 이미지로 생성하고, 반대로 이미지를 보면 텍스트로 설명할 수 있는 멀티모달 기능을 갖춘 AI다. 오픈AI의 달리2를 비롯해 다른 이미지 생성 AI 모델들이 이미지를 생성할 순 있지만 이를 텍스트로 설명하진 못한다는 점과 대조된다.

김승환 LG AI연구원 상무는 “지금까지 생성 AI 모델에서는 언어를 입력하면 언어로 출력하는 것이 대부분이었고 오픈AI의 달리처럼 언어를 입력하면 이미지가 출력하는 모델은 있었지만 언어 외 다른 것을 입력하는 모델은 존재하지 않았다”며 “엑사원은 언어와 이미지 모두 입·출력을 할 수 있는 첫 모델”이라고 설명했다.

LG AI연구원은 엑사원을 토대로 의상 디자인을 제작했다. 지난 2월 세계 4대 패션위크 중 하나로 불리는 ‘F/W 뉴욕 패션위크’ 메인스테이지에서 박윤희 디자이너(그리디어스 대표)와 협업해 제작한 의상 디자인을 선보였다. 엑사원에 ‘금성에서 핀 꽃’이라는 텍스트를 입력 후 이 AI 모델이 생성한 이미지를 활용한 의상 디자인이었다. 실제로 패션위크에서 소개된 200여 개 의상은 엑사원이 ‘금성에 핀 꽃’이라는 주제로 창작한 3000장이 넘는 이미지와 패턴을 기반으로 제작됐다. 당시 LG는 박윤희 디자이너와 협업한 아티스트로 엑사원을 두뇌로 탑재한 AI 휴먼 ‘틸다’를 소개하며 화제가 됐다.

LG AI연구원은 누구나 엑사원을 활용해 새로운 이미지를 생성할 수 있도록 세계 최대 이미지 업체 ‘셔터스톡’에서 이미지 생성 AI 기술을 제공한다. 셔터스톡은 지난 17일 홈페이지를 통해 LG AI연구원과 엑사원 활용을 위한 장기적인 파트너십을 체결했다고 밝혔다. 실제로 현재 셔터스톡 홈페이지에는 ‘AI 이미지 생성기’란 카테고리가 새로 만들어져 있다. 이곳을 통해 엑사원이 제공하는 ‘AI 이미지를 생성 기능’을 활용할 수 있다.

셔터스톡은 3억8000만 장 이상의 세계 최대 규모 이미지 데이터를 보유한 스톡 업체다. 활동하는 콘텐츠 제작자만 1800만 명이다. 이들을 통해 매주 수십만 장의 이미지 데이터가 쌓이고 있다. 양사는 이번 파트너십 체결을 통해 콘텐츠 제작사들을 위한 ‘자동 이미지 설명기능’도 제공하기로 했다. 콘텐츠 제작자가 이미지를 올리면, AI가 자동으로 이미지에 대한 설명 텍스트를 만들어 업로드 하는 기능이다. 이 기능들은 내년 정식 출시된다.

김 상무는 “엑사원은 기존 AI와 해상도에서 차별된다”며 “달리2 등과 비교했을 때 상당히 큰 사이즈인 2048x2048 해상도까지 가능하고 이보다 큰 해상도를 위해 기술을 지속 개발하고 있다”고 말했다. 이어 “해상도가 높은 이미지는 TV, 지면 등 다양한 용도로 사용될 수 있어 셔터스톡 등 다양한 기업과 협업을 이어가고 있다”고 설명했다.

김동원 기자 theai@chosun.com

다른기사 보기

개의 댓글

BEST댓글

BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.

댓글삭제

삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?

댓글수정

댓글 수정은 작성 후 1분내에만 가능합니다.

내 댓글 모음

[기자수첩] 미국이 트랙터로 AI 일굴 때 한국은 손으로 해냈다

웅진 “한국어 AI는 역시 ‘하이퍼클로바X’더라”

[더AI 현장] 가전 전쟁, AI전으로 번지다

메타, 더 진화한 오픈소스 LLM ‘라마3’ 출시

[AI융합혁신대학원] 문제를 ‘서치’하는 인재, 충남대

Luxury, Wears AI

티티테크오토, 차세대 SW 솔루션 '모션와이즈 스케줄' 출시

딥노이드, 미국영상의학회서 ‘폐암 검진’ 연구 초록 발표

[생성 AI②] AI 화가 ‘개발경쟁’ 본격화

스타트업 이어 빅테크 기업도 적극 가담… “기술 고도화 속도 급등”