AI · Data · Semiconductor

AI는 왜 ‘손’만 못 그릴까?
  • 박설민 기자
  • 기사입력 2023.03.03 17:09

    손 모양 데이터 혼동이 주원인… 주요 신체 아니라 판단하기도
    강화학습, 세부 명령어 입력 등으로 손 묘사 디테일 향상 가능

    • 만능처럼 보이는 이미지 생성 AI는 사람의 손 묘사에 한계가 있다. 사진은 본지 기자가  ‘미드저니’로 그린 사람 손 관련 그림들/ 미드저니, 박설민 기자
      ▲ 만능처럼 보이는 이미지 생성 AI는 사람의 손 묘사에 한계가 있다. 사진은 본지 기자가 ‘미드저니’로 그린 사람 손 관련 그림들/ 미드저니, 박설민 기자

      ‘챗GPT’ 이전, 인공지능(AI) 열풍의 시발점이 된 것은 ‘이미지 생성 AI’이다. 한두 문장만 입력하면 전문 미술가들처럼 수 초 만에 고품질 그림을 그려내는 AI를 보고 있자면 감탄이 절로 나온다. 관련 산업 성장세도 두드러진다. ‘KBV 리서치’ 등 글로벌시장조사기관들도 오는 2028년 관련 시장 규모가 10억 달러(1조 3,054억 원)를 넘을 것으로 예상한다.

      그런데 만능처럼 보이는 이미지 생성 AI가 인간 화가를 넘지 못하는 영역이 있다. 사람의 ‘손’ 묘사다. 실제로 이미지 생성 AI에게 손 그림을 주문하면 거의 대부분 손가락 숫자가 잘못되거나 뒤틀린 모양으로 그려낸다. 사람 얼굴 위 주름 하나까지 정교하게 묘사하던 AI가 고작 손 하나에 쩔쩔매는 이유는 무엇일까.

      ◇‘주먹’, ‘깍지’ 등 손 모양 구별 못하는 AI

      AI가 손을 제대로 묘사하지 못하는 대표적 원인은 ‘과도한 데이터 학습량’이다. AI의 성능을 높이기 위해 학습시킨 수많은 이미지 데이터가 오히려 AI에게 혼돈을 줄 수 있다는 것이다. 이는 이미지 생성 AI가 그림을 그리는 원리를 살펴보면 이해하기 쉽다.

      이미지 생성 AI의 두뇌를 담당하는 기술은 ‘적대적 신경망(GAN)’이다. GAN은 정교한 거짓 데이터를 만드는 ‘생성자’와 이 데이터의 진위를 파악하는 ‘감별자’가 서로 경쟁하는 AI알고리듬이다. 이미지 생성 AI 중 가장 큰 인기를 끌고 있는 ‘미드저니’나 챗GPT 개발사 ‘오픈AI’에서 개발한 ‘DALL·E’ 역시 GAN 기반으로 제작됐다.

      이 GAN 기반 AI에게 ‘사람의 손을 그려 달라’는 주문을 입력하면, AI는 학습한 수천 만 개의 데이터를 조합해 가장 명령과 가까운 그림을 그린다. 이때 사람 손은 양 손을 깍지 끼거나 악수하는 모습, 주먹 진 모습 등 천차만별이다. 눈, 코, 입, 귀로 비교적 비슷한 구조를 가진 사람 얼굴보다 훨씬 학습이 어려울 수밖에 없다. 때문에 GAN의 감별자는 데이터 진위 파악에 혼동이 생기게 되고, 뒤틀린 손 그림이 만들어지게 된다.

      AI분야 전문가는 “이미지 생성 AI는 워낙 다양한 데이터를 학습하다보니 오히려 세부 묘사엔 어려움을 겪을 수 있다”며 “손뿐만 아니라 ‘글자’ 그림을 AI에게 주문할 경우에도 이와 유사한 현상이 발생하는데, 인간은 글자 하나하나를 필체, 크기, 자음, 모음 등으로 구별하지만 AI는 이를 ‘알파벳’, ‘한글’, ‘한자’ 등 하나의 문자로 뭉뚱그려 인식하기 때문”이라고 설명했다.

    • 미드저니가 그린 인간의 반신 그림. 캔버스 내 산이나 물건 등은 세부 묘사가 우수하지만, 정작 사람의 손 디테일은 떨어짐이 확인된다./ 미드저니, 박설민 기자
      ▲ 미드저니가 그린 인간의 반신 그림. 캔버스 내 산이나 물건 등은 세부 묘사가 우수하지만, 정작 사람의 손 디테일은 떨어짐이 확인된다./ 미드저니, 박설민 기자

      사람의 전신을 그릴 때 발생하는 오류의 원인은 손이 ‘신체 주요 부위’가 아니기 때문이다. 얼굴, 몸통, 다리, 팔 등은 인간의 몸 전체 윤곽을 결정하는 신체 부위다. 우리가 동그라미, 선 몇 개만으로도 인간 형태를 그릴 수 있는 것도 이 때문이다. AI 역시 대부분의 연산 능력을 이 신체 부위 묘사에 집중하게 된다. 반면 손의 경우 조금 세부 묘사가 떨어져도 사람을 묘사하는데 큰 지장은 없다.

      조영주 한국전자통신연구원(ETRI) 시각지능연구실 선임연구원은 “AI입장에선 머리카락과 얼굴, 팔, 다리 등은 사람을 인지하는데 중요한 정보이지만, 손가락은 그렇지 않다”며 “연산 능력에 한계가 있는 디테일이 조금 떨어져도 전체적인 사람 구별에 영향을 미치지 않는 부분은 생략해버리는 경우가 있다”고 설명했다.

    • 세부 명령어 입력을 통해 AI의 손 그림 품질을 높인 모습/ 미드저니, 박설민 기자
      ▲ 세부 명령어 입력을 통해 AI의 손 그림 품질을 높인 모습/ 미드저니, 박설민 기자

      ◇강화학습, 세부 명령어 입력으로 품질 개선 가능

      물론 AI의 손 그림 품질을 높일 수 있는 방법이 없는 것은 아니다. 손 묘사 디테일 향상 관련 학습 알고리듬을 이미지 생성 AI에 적용시키면 된다. 이렇게 하면, AI가 사람의 손이나 전신을 그릴 때, 손 묘사에 좀 더 신경을 쓰게 된다. 하지만 이 경우, AI가 손에만 신경을 집중해 오히려 전체 이미지 품질이 저하될 수 있다는 문제점도 있다.

      조 선임연구원은 “손가락 묘사 관련 강화학습을 시키는 방법은 손 묘사 디테일은 높일 수 있으나, 한정적인 AI의 연산 및 학습 능력을 손가락에만 집중시킬 경우 오히려 다른 부분의 품질이 저하되는 현상이 발생할 수 있다”고 설명했다.

      세부적인 명령어를 입력해주는 것도 AI의 손 묘사 능력을 높이는 방법 중 하나다. AI가 사람의 손을 그릴 때 혼동하거나 생략하지 않도록 정확한 명령어를 인간 디자이너가 입력해주는 것이다. 실제로 기자가 미드저니에 ‘손을 그려줘’라는 명령어를 입력했을 땐, 손가락이 여기저기 뻗어 나온 기괴한 그림이 완성됐으나, ‘5개 손가락을 가진 사람의 손을 그려줘’라고 입력했을 땐 적어도 사람의 손처럼 보이는 그림이 완성됐다.

      조 선임연구원은 “현재 개발된 이미지 생성 AI 모델은 적용된 학습·생성 알고리듬 특성상 손 묘사 오류 현상을 기술적으로 완전히 극복하는 덴 한계가 있다”며 “대신 이 AI를 사용하는 인간 디자이너가 정확하고 세부적인 명령을 내릴 경우, 오류 현상을 완화시킬 수 있다”고 말했다.

    최신 뉴스

    더보기