THE AI View

[생성 AI①] 문화산업 판 흔들 ‘게임체인저’ 등장
  • 김동원 기자
  • 기사입력 2022.11.23 17:20

    창작 영역에 진출한 인공지능… 새로운 글·이미지·동영상 생성

    • 인공지능(AI)이 창작의 영역에 진출했습니다. 시를 쓰고 그림을 그리고 동영상을 만드는데 AI가 활용되고 있습니다. 이러한 ‘생성 AI’는 AI 시장의 판도를 바꿀 수 있는 기술로 평가됩니다. 더에이아이(THE AI)는 생성 AI의 가능성과 장점, 단점을 심도있게 알아보는 ‘생성 AI 특집기사’를 5회에 걸쳐 연재합니다. 독자 여러분들의 많은 관심 바랍니다. - 편집자 주
    • 생성 AI 기술이 발전하면서 AI를 활용한 창작 활동이 증가하고 있다. /픽사베이
      ▲ 생성 AI 기술이 발전하면서 AI를 활용한 창작 활동이 증가하고 있다. /픽사베이

      인공지능(AI)이 펜과 붓을 들었다. 이제는 영상 편집기도 만지고 있다. AI로 글과 그림, 영상을 창작하는 ‘AI 창작 시대’가 시작된 것이다.

      올해 AI 업계의 최대 화두는 ‘생성 AI’였다. AI가 만든 그림이 미술대회에서 우승하고, 창작한 의상 디자인이 세계인 패션위크에 소개됐다. AI가 그린 그림을 모아 소개하는 전시회가 열렸고 AI가 쓴 시집이 출간되기도 했다.

      생성 AI는 학습한 데이터를 토대로 기존에 없던 새로운 결과물을 만들어내는 기술이다. 딥러닝 모델 중 하나인 ‘적대적 생성 신경망(GAN)’을 기반으로 새로운 텍스트와 이미지, 영상 등을 생성한다. GAN은 거짓 데이터를 생성하는 생성자와 이 데이터의 진위를 파악하는 감별자가 서로 경쟁하면서 AI가 스스로 학습하게 하는 딥러닝 알고리듬이다. 생성자는 감별자가 속지 않은 데이터를, 감별자는 자신이 속은 데이터를 학습하면서 더 정교해지는 거짓 데이터를 만들어낸다. 이 거짓 데이터가 AI가 만들어내는 창작물인 셈이다.

      생성 AI는 기존 AI 산업의 흐름을 바꾼 기술로 평가된다. 지금까지 AI는 주로 ‘분석’을 목적으로 활용돼왔다. 학습한 데이터를 활용해 음성과 텍스트, 영상을 분석해 결과물을 빠르게 내는 용도로 사용됐다. 일례로 관제소는 CCTV 영상을 AI로 분석해 교통량이나 위험 상황을 빠르게 파악하고 있다. 컨택센터는 통화자의 음성을 분석해 필요한 정보를 빠르게 찾아주는 용도로 AI를 활용하고 있고 제조 공장은 생산품의 불량 여부를 AI로 판독 중이다.

      생성 AI는 이러한 AI의 활용 용도를 ‘창작’으로 확장했다. 학습한 데이터를 토대로 기존에 없던 새로운 것을 창조하며 모든 산업의 판을 흔들 수 있는 ‘게임 체인저’로 평가되고 있다. 미국 벤처투자 기업 ‘세콰이어캐피탈’은 생성 AI에 대해 “수조 달러의 경제가치를 만들어 낼 잠재력이 있다”고 평가하며 “사람이 원작을 만드는 모든 산업에 변화를 가져올 것”이라고 예고하기도 했다.

      ◇이미지 생성 AI, 사용자 ‘봇물’

      생성 AI 효과는 이미지에서 도드라지게 나타난다. 사용자가 입력한 텍스트를 이해해 관련된 이미지를 생성해내는 이미지 생성 AI 플랫폼은 현재 많은 사용자가 이용하고 있는 것으로 조사됐다. 대표 플랫폼은 미국 연구기관 오픈AI가 출시한 ‘달리(Dall-E)’와 미국 항공우주국(NASA) 엔지니어 출신인 데이비드 홀츠가 개발한 ‘미드저니’다. 두 플랫폼은 모두 올해 서비스를 시작했지만 많은 사용자 수를 보유하고 있는 것으로 나타났다. 달리는 150만 명 이상의 사용자가 매일 200만 개 이상의 이미지를 생성하고 있고 미드저니의 공식 디스코드 서버에 등록한 회원 수는 300만 명이 넘는다.

      이미지 생성 AI 플랫폼으로 생성한 이미지를 활용한 사례는 많다. 미국 잡지사 ‘코즈모폴리턴’은 화성 표면을 걷는 우주비행사의 그림을 표지로 채택했다. 이 그림은 달리를 활용해 만든 그림이었다. 코즈모폴리턴은 달리에 ‘무한한 우주, 신스웨이브(일렉트로닉 음악 장르), 화성에서 카메라 쪽으로 걸어가는 여성 우주비행사를 아래에서 광각 촬영’이라는 문구를 입력하자 표지 이미지기 20초 만에 그려졌다고 밝혔다.

    • 제이슨 앨런이‘미드저니’를 활용해 그린 ‘스페이스 오페라 극장’그림. / 위키미디어
      ▲ 제이슨 앨런이‘미드저니’를 활용해 그린 ‘스페이스 오페라 극장’그림. / 위키미디어

      AI가 생성한 그림이 미술대회에서 우승한 사례도 있다. 미드저니를 활용한 사례다. 게임 디자이너인 제이슨 앨런은 지난 8월 미국 콜로라도주에서 개최한 미술대회에서 미드저니를 활용해 제작한 그림인 ‘스페이스 오페라 극장’을 제출해 ‘디지털아트 및 디지털제작 사진’ 부문에서 1등을 했다. 당시 AI를 활용한 것은 ‘부정행위’라는 지적이 있었지만 앨런은 “작품을 낼 때 미드저니를 썼다고 밝혔으니 문제 없다”며 반박했다. 콜로라도주 정부는 “디지털아트 부문 규칙에 따르면 디지털 기술을 창작 과정에 사용할 수 있다”며 부정행위가 아니라고 결론 냈고 앨런은 1등 상금인 300달러(약 40만원)를 받았다.

      ◇텍스트 생성 AI, 시 창작부터 글쓰기 훈련까지 진행

      생성 AI의 활용도는 이미지에만 국한되지 않는다. 이미 다양한 AI 서비스가 적용되고 있는 텍스트 분야에서도 생성 AI가 활용되고 있다. CJ올리브네트웍스는 지난 15일 AI 시 창작 도구를 활용해 집필한 시집 ‘9+i’를 출간했다. 시집에는 시인들이 AI 도구로 창작한 시 45편을 수록했다. 시 집필에 사용된 AI 도구는 CJ올리브네트웍스가 개발한 ‘Oi 작가’다. 시를 포함한 3만여 편의 다양한 장르를 학습한 이 AI 도구는 주제어를 입력하면 이에 맞는 시적 초벌 문구를 즉시 생성한다. 지난 8개월간 9명 시인과 프로젝트를 진행하며 개발됐다.

    •  CJ올리브네트웍스가 9명의 시인이 시 창작 도구를 활용해 집필한 시집을 출간했다. /CJ올리브네트웍스, 편집=김동원 기자
      ▲ CJ올리브네트웍스가 9명의 시인이 시 창작 도구를 활용해 집필한 시집을 출간했다. /CJ올리브네트웍스, 편집=김동원 기자

      생성 AI를 기존 텍스트 서비스에 녹여내 품질을 높인 사례도 있다. 국내 AI 스타트업 스캐터랩은 지난 10월 AI 챗봇 서비스 ‘이루다 2.0’을 정식 출시했다. 이루다는 2020년 12월 1.0버전 출시 당시 성·유색인종·장애인·성소수자 관련 혐오 발언과 개인정보 유출 논란으로 20일 만에 서비스가 중지된 서비스다. 

      스캐터랩은 2.0버전에서 같은 문제가 발생하지 않도록 대화 방식에 생성 AI 모델 ‘루다 젠1’을 적용했다고 밝혔다. 대화 방식을 기존 분석 기반에서 생성 기반으로 바꾼 것이다. 분석 AI는 데이터베이스에 저장된 답변 중 대화 맥락에 적합한 답을 골라 사용한다. 저장된 데이터베이스에 혐오 발언 등 윤리에 어긋난 내용이 있어도 이를 걸러내지 못해 문제를 양산할 수 있다. 생성 AI는 데이터베이스에 저장된 문장이 아니라 대화 맥락에 맞춰 AI가 직접 적합한 문장을 만든다. 스캐터랩은 여기에 문자 생성 시 부적절한 발언을 걸러내는 시스템을 장착, 이루다가 윤리에 어긋나는 발언을 하지 않도록 보호장치를 마련했다고 설명했다.

      또 다른 스타트업인 뤼튼테크놀로지스는 글쓰기 훈련 서비스 ‘뤼튼 트레이닝’에 생성 AI 기능을 탑재했다. 뤼튼 트레이닝은 사용자가 한 편의 글을 완성하는 과정을 반복하며 작문 연습을 하는 AI 서비스다. 여기서 생성 AI는 사용자가 입력한 주제를 이해해 새로운 질문을 생성하고 추천 자료도 제안한다. 사용자는 제안 내용에 따라 도입-작성-퇴고 등의 글쓰기 훈련을 할 수 있다. 여기서 사용되는 생성 AI는 네이버 ‘하이퍼클로바’와 오픈AI ‘GPT-3’로 만들어졌다. 뤼튼테크놀로지스는 이 기술로 CES 2023 혁신상을 수상했다.

      ◇판 커지는 생성 AI 시장, 동영상 제작 플랫폼도 등장

      생성 AI의 활용 가치는 향후 더 커질 것으로 전망된다. 텍스트와 이미지를 넘어 동영상을 만드는 모델까지 등장하고 있어서다.

      지난 10월 메타와 구글은 동영상 생성 AI 플랫폼을 나란히 공개했다. 사용자가 원하는 영상을 텍스트로 설명하면 AI가 이를 이해해 관련된 영상을 제작한다. 메타가 공개한 모델은 ‘메이크-어-비디오(Make-A-Video)’다. 기존 이미지 생성모델인 ‘메이커-어-신(Make-A-Scene)’의 차기 모델이다. 이 모델은 시차를 두고 찍은 사진으로도 영상을 만들 수 있다. 한 사람이 걸어가는 모습의 사진을 찍어 입력하면 알아서 걸어가는 영상을 만들어준다. 또 입력된 영상과 비슷한 영상을 여러 편 만들 수도 있다. 우주를 떠다니는 우주비행사 영상을 넣으면 다양한 배경에서 유영하는 비행사의 영상을 제작한다. 단 아직 제작할 수 있는 영상 품질은 낮다. 영상 길이도 몇 초 정도의 짧은 형식만 지원한다.

    • 구글 ‘이매젠 비디오’로 제작한 동영상 캡처 이미지. /구글
      ▲ 구글 ‘이매젠 비디오’로 제작한 동영상 캡처 이미지. /구글

      구글이 선보인 플랫폼은 ‘이매젠 비디오(Imagen Video)’다. 메타가 개발한 모델이 저해상도를 지원한다면 구글이 개발한 AI 모델은 1280x768 해상도의 초당 24프레임 영상을 제작할 수 있다. 영상 길이는 5초 정도의 짧은 형식만 지원한다. 구글은 높은 품질의 영상을 만들기 위해 작업을 두 단계에 걸쳐 진행한다고 밝혔다. 먼저 16프레임의 저 해상도 영상을 만든 후 높은 해상도로 업스케일링 하는 방식이다.

      구글은 이매젠 비디오 전에도 텍스트 기반 동영상 생성모델 ‘페나키’를 선보인 바 있다. 페나키는 긴 문장을 2분 이상의 영상으로 만들 수 있는 기술이다. 이번에 공개한 이매젠 비디오는 고품질 영상 제작에 무게를 뒀다면 페나키는 길이가 긴 영상을 일관성 있게 만드는 것에 중점을 뒀다. 구글은 “향후 이매젠 비디오 개발팀과 페나키 팀의 협력을 추진할 예정”이라며 “이를 통해 고품질 영상을 길이에 상관없이 만들 수 있는 기술을 공개하겠다”고 밝혔다.

    최신 뉴스

    더보기