AI · Data · Semiconductor

구글, 2023 ‘생성 AI’ 전쟁 포문… AI ‘뮤즈’ 공개
  • 김동원 기자
  • 기사입력 2023.01.05 14:47

    불필요한 부분만 지워낸 이미지 생성, 오픈AI社 개발한 ‘달리2’보다 효율적

    • 구글이 개별 토큰(단어)으로 마스킹 작업을 하는 새로운 생성 AI ‘뮤즈’를 선보였다. /구글 블로그
      ▲ 구글이 개별 토큰(단어)으로 마스킹 작업을 하는 새로운 생성 AI ‘뮤즈’를 선보였다. /구글 블로그

      사람 대신 그림을 그릴 수 있는 ‘이미지 생성 인공지능(AI)’ 기술 경쟁이 올해도 이어지고 있다. 가장 먼저 포문을 연 기업은 구글이다. 구글은 지난 2일(현지시간) 새로운 이미지 생성 AI ‘뮤즈(MUSE)’를 공개했다. 기존에 공개한 ‘이매젠’이나 오픈AI의 ‘달리’보다 더 효율적으로 이미지를 생성할 수 있다고 자평했다.

      이미지 생성 AI는 텍스트를 입력하면 관련 이미지를 생성해주는 ‘텍스트 투 이미지(Text to Image)’ 모델이다. ‘페르시안 고양이가 검은 점퍼를 입고 바다에서 기타 치는 사진’이라는 텍스트를 입력하면 이에 걸맞은 그림을 AI가 생성한다.

      2021년 미국 연구기관 오픈AI가 ‘달리’를 출시한 후 이미지 생성 AI 모델은 지난해 본격 전성기를 맞았다. 오픈AI를 비롯해 구글, 애플 등 글로벌 빅테크 기업은 각각 이미지 생성 AI 모델을 선보였다. 오픈AI는 지난해 4월 달리의 후속작인 ‘달리2’를 선보였고, 구글과 애플은 5월과 8월 각각 ‘이매젠’과 ‘가우디’ 모델을 공개했다. 스타트업과 다른 연구소에서도 관련 기술을 내놨다. 이미 많은 사용자를 보유하고 있는 ‘스테이블 디퓨전’, ‘미드저니’ 등이 대표 사례다. 그야말로 이미지 생성 AI 기술 경쟁 시대가 도래한 것이다.

      이미지 생성 AI 모델이 다양해지면서 공급사는 사용자가 편하고 빠른 방법으로 원하는 이미지를 만들어낼 수 있도록 기술을 고도화하고 있다. 목표 예상 변수의 과거 값의 조합을 이용, 관심 있는 변수를 예측하는 ‘자기 회귀 모델’이나 학습된 데이터와 유사한 데이터를 생성하는 ‘합성 모델’ 등을 응용해 더 빠르고 효율적으로 이미지를 생성할 수 있는 기술개발과 연구를 하고 있다.

      구글이 이번에 공개한 뮤즈도 이 연구의 일환이다. 구글은 이 모델을 공개하며 올해 시작과 동시에 공개한 뮤즈에는 기존 이미지 생성 AI에서 자주 쓰인 모델보다 더 효율적인 방법이 사용됐다고 밝혔다.

    • 뮤즈는 이미지 마스킹 작업을 자동 진행해 사용자의 편집 업무를 줄여준다. /구글 블로그
      ▲ 뮤즈는 이미지 마스킹 작업을 자동 진행해 사용자의 편집 업무를 줄여준다. /구글 블로그

      구글 연구소에 따르면, 뮤즈는 거대 언어모델로 추출된 텍스트에서 무작위로 필요한 부분이나 불필요한 부분을 별도 처리(마스킹) 해 이미지를 생성할 수 있게 학습됐다. 기존 이매젠이나 오픈AI의 달리2의 경우 텍스트를 통해 생성된 이미지에서 수정 등 또 다른 작업을 할 경우 직접 사용자가 손으로 마스킹 처리하는 작업을 거쳐야 했지만, 뮤즈에서는 개별 토큰(단어)을 통해 이미 마스킹 처리한 이미지가 생성된다. 그만큼 중간에서 처리할 작업이 줄어들어 더 효율적으로 이미지를 생성할 수 있다. 쉽게 말해 기존 달리2나 이매젠에서 생성한 이미지를 사용자가 수정하기 위해선 필요한 부분을 마스킹 처리 후 반전, 미세조정 등의 편집 작업을 별도로 해야 했지만, 뮤즈가 생성한 이미지는 이러한 마스킹 작업이 필요 없는 이미지를 제공해 사용자 작업을 더 간소화할 수 있다.

      구글은 블로그를 통해 “사전 훈련된 거대 언어모델을 사용하면 세분화된 언어 이해가 가능해 객체, 공간 관계, 포즈 등 시각적 개념을 이해할 수 있고 텍스트로만으로 마스킹 작업이 가능해진다”면서 “뮤즈는 생성된 이미지를 미세 조정, 반전할 필요 없이 사용할 수 있다”고 설명했다.

    최신 뉴스

    더보기