Trend
챗GPT 차기 버전 베일 벗는다… “GPT-4 곧 발표”
-
최근 사용자 숫자를 급속하게 늘려가고 있는 대화형 인공지능(AI) ‘챗GPT’의 차기 모델 공개가 예고됐다. 독일 IT매체 하이즈온라인에 따르면, 마이크로소프트(MS) 독일지사는 9일(현지시간) 개최한 ‘디지털 킥오프’ 행사 자리에서 ‘다음 주 챗GPT의 차기 모델인 ‘GPT-4’가 출시될 예정’이라고 밝혔다.
GPT 시리즈는 미국 AI연구소 ‘오픈AI’가 개발한 거대언어모델이다. 1750억 개 이상 파라미터(매개변수)를 기반으로 텍스트 데이터를 학습, 이를 토대로 추론한 결과물을 내는 GPT-3는 2020년 9월 영국 가디언지에 ‘인간, 아직도 무서운가’라는 제목의 칼럼을 썼다. 당시 이 칼럼은 사람이 썼는지, AI로 썼는지 구분이 어렵다고 평가되며 화제가 됐다. 이후 오픈AI는 GPT-3에 강화학습을 적용, 대화형 기술을 고도화한 GPT-3.5 개발하고, 이를 기반으로 ‘챗GPT’라는 대화형 모델을 출시했다. 이 모델은 사람과 자연스럽게 대화하며 원하는 정보를 알려줘 출시 두 달 만에 1억5000만 명 이용자 수를 돌파하는 등, 2016년 알파고 이후 새로운 AI 신드롬을 일으켰다.
오픈AI의 최대 투자사인 MS는 이번 행사에서 차주 공개할 GPT-4에 대해 ‘멀티모달’ 성격이 강할 것이라고 소개했다. 멀티모달은 시각, 청각, 촉각 등 다양한 ‘모달(감각)’을 동시에 받아들이고 사고할 수 있는 AI 모델을 뜻한다. 텍스트를 비롯해 음성, 제스처, 이미지, 표정, 생체신호 등 여러 데이터를 함께 받아들여 결과물을 낸다. 기존 GPT 모델들이 텍스트만 학습하고 결과물을 냈다면 GPT-4는 텍스트뿐 아니라 이미지, 동영상, 생체신호 등 다양한 결과물을 낼 수 있을 것으로 전망된다. 안드레아스 브라운 독일 MS 최고기술책임자(CTO)는 “다음 주 소개할 GPT-4에는 비디오와 같은 완전히 다른 가능성을 제공하는 멀티모달 모델이 있을 것”이라고 예고했다.
멀티모달의 활용도는 높다. 최근 인기인 대화형 AI 모델을 예로 들어보자. 기존 AI는 텍스트 위주로만 사람과 소통하는데 비해, 멀티모달은 이미지와 동영상 등을 보여줄 수도 있고, 이를 활용해 더 폭넓은 대화를 할 수 있다. AI가 사용자의 말을 이해해 관련 동영상을 찾거나 사용자가 보낸 동영상을 재해석할 수 있다. 기술이 고도화되면 음성명령을 알아듣고 동영상을 제작하는 것까지 가능하다.
-
국내에서 유사한 기술로는 LG AI연구원이 개발한 초거대 AI ‘엑사원’이 있다. 엑사원은 텍스트와 이미지, 이미지와 텍스트 양방향 인식이 가능한 멀티모달 AI다. 일례로 ‘세련된 거실 인테리어’라는 키워드를 텍스트로 입력하면 이에 맞춰 기존에 없던 인테리어 이미지를 생성해내고 반대로 인테리어 이미지를 보여주면 어떤 점이 특징인지 글로 설명할 수 있다. 2021년 처음 공개됐다. 현재 이 모델은 텍스트와 이미지, 도표, 그래프 등을 인식하고 연산할 수 있는 것으로 알려졌다. LG는 이를 넘어 동영상, 촉각 정보 등 더 많은 형태의 데이터를 AI가 이해할 수 있도록 기술을 고도화하고 있다. 지난해 4월 서울대 AI대학원과 함께 ‘SNU-LG AI 리서치센터’를 설립해 관련 연구를 수행 중이다.
이번 독일 MS의 발표처럼 차주 GPT-4가 출시된다면, 향후 엑사원과 같은 초거대 AI 기반 멀티모달 AI가 업계에서 대세로 자리잡을 것으로 전망된다. 오픈AI는 새로운 기술을 개발하면 이를 공개해 AI 생태계를 이끌어왔기 때문이다. 국내 AI 관계자는 “GPT-3가 출시한 후 SK텔레콤과 카카오에서는 이를 한국어 버전으로 응용한 거대언어모델을 출시했다”며 “GPT-4가 등장하게 되면 언어모델을 넘어선 멀티모달 모델이 계속 등장할 것으로 예상된다”고 말했다. 이어 “LG AI연구원과 같은 멀티모달 선행 기업은 오픈AI 소스를 응용한 후발주자들을 지속 경계하며 자사 기술을 고도화할 필요가 있을 것”이라고 조언했다.