AI · Data · Semiconductor
GPT-3.5보다 언어능력 8배↑… 환각현상 줄고 이미지 인식도 가능
개발에 사용된 컴퓨팅 자원은 기존 모델의 최대 10000분의 1 수준
-
전 세계 인공지능(AI) 산업계의 눈길이 미국 샌프란시스코에 집중되고 있다. 미국 ‘오픈 AI’가 14일(현지시간) 대규모 언어 AI모델(LLM) ‘GPT-4’를 공개하면서다. GPT-4는 최근 폭발적인 인기를 구사하는 대화형 AI ‘챗GPT’의 전신인 ‘GPT-3.5’의 후속 모델이다. 업계에서는 GPT-4가 ‘알파고’에 이어 새로운 ‘AI 신드롬’을 일으킬 것으로 기대하고 있다.
오픈 AI측이 공개한 내용을 살펴보면 GPT-4는 한 번에 2만5000여 개의 단어를 생성할 수 있다. 약 3000개 단어를 만들어내던 GPT-3.5보다 8배 이상 성능이 향상됐다. 초거대 AI모델의 연산 능력을 나타내는 수치인 ‘매개변수’도 대폭 증가했을 것으로 예상된다. 아직 공개하진 않았으나, 전문가들은 GPT-4의 매개변수가 최대 5000억 개에 이를 것으로 보고 있다. GPT-3.5(1750억 개)보다 약 2.8배 많은 양이다.
이 같은 성능 향상에 힘입어 GPT-4의 문장 처리 및 답변 정확도는 GPT-3.5보다 월등해졌다. 오픈AI는 로스쿨 입학시험(LSAT) 등 미국 내 주요 평가 시험을 GPT-4가 치르도록 했다. 그 결과, 상위 10%에 드는 우수한 성적을 기록했다. 반면 기존 GPT-3.5 모델 성적은 상위 60%에 그쳤다.
‘이미지 분석 능력’도 새롭게 추가됐다. 사진, 그림, 그래프 차트 등을 보고 상세한 설명이 가능하다. 음성, 이미지. 표정 제스처 등 다양한 감각 데이터를 연산할 수 있는 ‘다중 멀티모달’ 기술이 적용됐기 때문이다. 실제로 GPT-4에 줄에 매달린 풍선 사진을 보여주고 ‘줄을 자르면 어떻게 될까’라고 질문하자 ‘풍선이 날아간다’고 답하기도 했다.
GPT 3.5의 치명적 약점이었던 ‘환각(Hallucination)’현상도 대폭 개선됐다. 환각현상은 오류 데이터를 AI가 학습해 틀린 답은 제시하는 현상이다. 챗GPT가 가짜 과학논문 등을 사실인 것처럼 대답하는 것도 환각 현상때문이다. 오픈AI의 사실성 평가에 따르면 GPT-4는 GPT-3.5보다 환각 현상이 약 40% 감소했다. 자살, 탈옥 등 비윤리적인 답변 확률도 0.73%로 6.48%였던 GPT-3.5보다 크게 줄었다.
이처럼 뛰어난 능력을 가진 것과 달리, GPT-4 개발에 사용된 자원은 오히려 크게 줄었다. 3월 15일 발표된 연구 논문에 따르면 오픈AI 연구진들은 GPT-4 개발에 GPT-3의 1000~1만 분의 1 정도의 컴퓨팅 자원을 사용했다. 딥러닝 기법 중 하나인 ‘예측 가능한 스케일링( Predictable Scaling)’ 기술 덕분이다. 초거대 AI모델보다 훨씬 작은 모델을 만든 다음, 어떻게 작동할지 예측하고 매개변수를 편집하는 방식이다.
김수현 한국과학기술연구원(KIST) 인공지능연구단 책임연구원은 “GPT-4와 같은 초거대 AI를 만들 땐 수천 억 개가 넘는 매개변수를 고쳐야 하는데, 이는 매우 많은 시간과 자원이 필요하다”며 “오픈AI는 예측 가능한 스케일링을 통해 최적의 매개변수 및 학습방법을 찾은 것으로 보인다”고 설명했다.
안성원 소프트웨어정책연구소(SPRI) AI정책연구실장도 “GPT-4는 기존의 GPT-3.5 모델을 고도화 시키는 ‘파인튜닝’ 작업으로 제작된 것으로 알고 있다”며 “기존 모델에 축적된 학습데이터에 추가적인 학습을 했기 때문에 훨씬 더 적은 컴퓨팅 자원을 사용한 것으로 추정한다”고 말했다.