AI · Data · Semiconductor
KAIST, 희소 행렬 기반 데이터 손실 압축 기술 ‘뉴크론’ 개발
-
‘챗GPT’와 같은 고성능 인공지능(AI) 모델 제작엔 대용량 학습데이터가 필요하다. 이 학습데이터 규모는 일반 데이터 저장장치엔 담을 수조차 없을 만큼 거대하다. 때문에 막대한 데이터센터 구축·운용 비용이 필요하다. 또 데이터 전송 지연 현상으로 인한 AI성능저하도 종종 발생한다.
이 같은 문제를 해결할 수 있는 데이터 초압축 기술을 국내 연구진이 고안했다. 신기정 KAIST 김재철AI대학원 교수팀은 신개념 데이터 손실 압축 기술 ‘뉴크론(NeuKron)’을 개발했다고 9일 밝혔다.
현재 AI에 사용되는 초대용량 데이터는 압축이 어려울 뿐만 아니라, 압축 시 데이터 손상이 발생한다는 한계가 있었다. 이 같은 문제를 해결하고자 신 교수팀은 희소 행렬 기반의 손실 압축 기술 뉴크론을 새롭게 고안했다.
희소 행렬이란 높은 비율의 원소가 0인 행렬을 의미한다. 고용량 데이터를 초저용량으로 압축할 수 있다. 현재 전자상거래 구매 내역, 문서와 단어 간 포함 관계 등 다양한 종류의 데이터 압축 및 저장에도 희소 행렬 기술이 사용된다. 또한 데이터 탐지 및 교정, 매개변수 행렬에도 사용가능해 초경량 AI모델 개발에도 적극 활용 중이다.
연구팀이 고안한 뉴크론은 실세계 데이터에서 흔하게 발견되는 ‘자기 유사성’에 착안한 것이다. 자기 유사성이란 대상의 일부분을 확대해 볼 때, 대상의 전체와 닮은 패턴이 나타나는 성질이다. 여기에 AI알고리듬의 일종인 ‘순환신경망(RNN)’을 적용했다. 이렇게 하면 RNN이 뉴크론 행렬의 원소값을 자기 유사성 기반으로 정확한 추론·저장하는 게 가능하다.
신 교수팀이 개발한 뉴크론 기술을 ‘희소 텐서’ 압축에도 적용했다. 희소 행렬뿐 아니라, 희소 텐서의 압축에도 적용할 수 있다. 행렬이 행과 열로 구성된 2차원 데이터라면, 텐서는 행렬을 3차원 이상으로 일반화한 것이다. 쉽게 말해 3차원 텐서는 행렬을 수직으로 쌓은 형태를 말한다.
연구팀은 이 뉴크론 기반 희소 행렬과 텐서로 2억 개의 영상 시청 내역 데이터를 압축시켰다. 그 결과, 20GB(기가바이트) 용량에 달하는 데이터를 10KB(킬로바이트)까지 압축하는데 성공했다. 이는 기존 희소 행렬 기반 데이터 압축 기술 대비 50배 이상 우수한 압축률이다.
신 교수는 “다양한 실세계 데이터와 AI모델의 매개 변수는 대부분 희소 행렬의 형태로 표현된다”며 “이번에 개발한 데이터 압축 기술은 AI기반 추천시스템, 이상 탐지, 모델 경량화 등 다양한 분야에 활용 가능할 것“이라고 기대했다.
이번 연구 성과는 올해 5월에 미국 오스틴에서 열리는 ‘미 컴퓨터협회 웹 학술대회(ACM WWW)’에서 발표될 예정이다.