Mobillity · Robot

구글 AI ‘트랜스포머’, 로봇을 강화하다
  • 김동원 기자
  • 기사입력 2023.03.07 17:15

    역강화학습 적용, 장애물 통과 능력 40% 상승

    • 이동로봇이 복잡한 환경도 자연스럽게 통행할 수 있는 연구가 구글에 의해 이뤄졌다. /김동원 기자
      ▲ 이동로봇이 복잡한 환경도 자연스럽게 통행할 수 있는 연구가 구글에 의해 이뤄졌다. /김동원 기자

      유명 인공지능(AI) ‘트랜스포머’가 로봇에 적용됐다. 구글리서치는 3일(현지시간) 블로그를 통해 로봇이 집 안이나 거리를 안전하고 자유롭게 돌아다닐 수 있도록 로봇에 트랜스포머 모델을 적용했다고 밝혔다. 그 결과 장애물 통과 테스트에서 90% 성공률을 보이며 기존 모델(50%)보다 높은 성능을 보였다고 설명했다.

      트랜스포머는 구글이 2017년 발표한 AI 모델이다. 최근 큰 인기를 끌고 있는 ‘Chat(챗)GPT’도 트랜스포머를 기본으로 삼고 있다. 지금까지 개발된 언어모델 약 70% 이상이 트랜스포머를 기반으로 개발됐다. 구글이 이런 트랜스포머를 로봇에 적용, 성능을 크게 끌어 올리는 방법을 개발했다.

      ◇로봇, 트랜스포머로 이동 활로 찾다

      최근 공항, 식당 등 다양한 곳에서 로봇이 쓰이고 있지만 아직 이동 문제에서 완벽하지 않다고 평가가 많다. 자율주행 로봇이더라도 테이블, 소파 등 장애물이 많은 지역을 원활하게 다니지 못하기 때문이다. 구글은 이 문제를 극복할 방안을 트랜스포머에서 찾았다. 

      트랜스포머는 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망이다. 구글이 2017년 발표한 논문에서 처음 등장했다. 이 모델은 문장 속 서로 떨어져 있는 단어 데이터의 의미를 감지해 속뜻을 찾아낼 수 있다. 일례로 ‘우리 아이는 빨간색 운동화를 좋아한다. 그래서 그것이 다 닳을 때까지 신었다’는 문장에서 그것은 빨간색 운동화를 뜻하지만, AI는 사람과 달리 그 뜻을 찾아내기 어렵다. 언어학습에 주로 사용되는 재귀신경망(RNN)의 경우 데이터를 순차적으로 이해하기 때문에 그것이 우리인지, 아이인지, 빨간색이니, 운동화인지 알 수 없기 때문이다. 반면 트랜스포머는 데이터 관계를 추적해 그 의미를 학습하기 때문에 그것의 의미를 찾을 수 있다. 트랜스포머의 등장 전에는 맥락을 이해하는 AI를 개발하기 위해선 라벨링된 대규모 데이터 세트로 신경망을 훈련해야 했다. 그만큼 시간과 비용이 많이 소비됐다. 트랜스포머는 대규모 데이터를 라벨링할 필요가 없어 시간과 비용을 아낄 수 있다.

      트랜스포머는 언어모델뿐 아니라 순차적 이미지와 비디오 데이터를 사용하는 애플리케이션 등에 모두 적용할 수 있다. 대표적인 사례가 신약 개발이다. 알파고를 개발한 구글 딥마인드는 트랜스포머 모델을 활용해 단백질 구조 예측 AI ‘알파폴드2’를 개발했다. 이를 활용해 아미노산 사슬을 문자 줄처럼 처리하는 기술을 통해 단백질이 접히는 방식을 설명하고 신약 발견 속도를 높이고 있다. 코로나19 백신 회사로 유명한 아스트라제네카도 트랜스포머 기반 ‘메가몰바트’ 모델을 활용해 신약을 개발하고 있다. 올라 잉크비스트 아스트라제네카 책임자는 “AI 언어모델이 문장 속 단어들의 관계를 학습하는 것처럼 분자 구조 데이터로 훈련된 신경망이 실제 분자 속 원자들의 관계를 학습할 수 있게 하는 것이 목표”라고 밝혔다.

      구글은 이 모델을 로봇 이동에 적용했다. 로봇 움직임에 중추적 역할을 하는 MPC에 트랜스포머 기반 머신러닝(ML) 모델을 적용한 ‘퍼포머MPC’를 개발, 로봇의 원활한 움직임을 구현했다고 밝혔다.

    • 트랜스포머를 기반으로 한 퍼포머MPC는 로봇이 복잡한 공간도 자연스럽게 통행할 수 있게 제어했다. /구글 블로그
      ▲ 트랜스포머를 기반으로 한 퍼포머MPC는 로봇이 복잡한 공간도 자연스럽게 통행할 수 있게 제어했다. /구글 블로그

      ◇역강화학습으로 모범답안 배워… 복잡한 공간 이동 가능

      퍼포머MPC는 AI 학습모델 중 하나인 역강화학습을 활용한 예측 제어 모델이다. 역강화학습은 어떤 행위자의 행동 이력 등을 분석해 그 행동을 설명하는 알고리듬이다. 행위자가 어떤 행동을 수행할 때마다 그 성능에 대한 피드백을 제공해 좋은 결괏값을 내게 하는 강화학습과 반대되는 내용이다. 강화학습은 어린아이를 교육할 때 칭찬과 처벌을 통해 좋은 행동을 하게 한다면, 역강화학습은 해당 행동을 가장 잘하는 사람이 학습하는 내용을 그대로 따라하게 하는 학습이라고 볼 수 있다.

      구글은 이 학습방식을 로봇에 적용했다. 장애물이 많은 복잡한 공간을 자연스럽게 통과하는 데모를 제작한 뒤 트랜스포머 기반 머신러닝 모델이 이를 학습하게 했다. 트랜스포머 모델이 문장 속 단어들의 관계를 추적해 맥락과 의미를 학습하듯이 데모 버전이 장애물을 어떻게 피하는지, 왜 그 경로를 갔는지 의미를 학습해 최적의 경로를 AI가 계산하게 했다. 기존에는 로봇이 좁은 출입문을 통과하거나 장애물들을 피해 갈 때 카메라 센서 등을 활용해 충돌을 최소화해 지정된 구역을 지나가게 했다면, 이제는 각 장애물을 어떻게 피해 가면 효과적인지 모범답안을 학습해 이를 기반으로 장애물을 지나갈 수 있게 된 것이다.

    • 구글은 기존 MPC로 제어하는 로봇은 코너에서 사람을 갑자기 마주쳤을 경우 사람이 돌아가게 했지만, 퍼포머MPC는 자연스럽게 피해갔다고 밝혔다. /구글 블로그
      ▲ 구글은 기존 MPC로 제어하는 로봇은 코너에서 사람을 갑자기 마주쳤을 경우 사람이 돌아가게 했지만, 퍼포머MPC는 자연스럽게 피해갔다고 밝혔다. /구글 블로그

      구글은 이 모델을 기존 MPC와 비교해 성능평가를 진행했다. 로봇이 코너를 지나갈 때 갑자기 사람이 등장하는 상황에서 트랜스포머를 적용한 퍼포머MPC와 기존 MPC가 어떻게 로봇을 제어하는지 실험했다. 그 결과 기존 MPC는 코너 부분을 막아 사람이 앞으로 가지 못하고 뒤로 물러서게 했지만, 퍼포머MPC는 사람을 피해 코너를 자연스럽게 지나가도록 로봇을 제어해 통행에 불편함을 줄였다. 

      구글 측은 “어수선한 집에서 로봇이 충돌 없이 움직이는 실험을 10회 진행한 결과 퍼포머MRC는 10번 중 9번 충돌 없이 이동하는 성과를 냈다”며 “반면 기존 MPC는 5번만 이동에 성공하는 결과를 보였다”고 말했다. 이어 “이번 연구는 로봇 컨트롤러를 설계하는 데 트랜스포머가 중요한 역할을 할 수 있다는 것을 증명한 사례”라며 “이를 기점으로 트랜스포머를 실제 로봇 공학에 적용하는 연구가 계속되기를 바란다”고 밝혔다.

    최신 뉴스

    더보기