Digital Health · Bio

생명과학 다크호스는 ‘합성생물학’, AI 신경망이 혁신 이끈다
  • 박설민 기자
  • 기사입력 2023.01.20 13:12

    단백질 구조예측 모델 ‘알파폴드2’·‘ESM폴드’ 등 학계서 인기
    합성곱신경망·심층신경망 등 AI 신경망 동원해 성능 극대화

    • /Gettyimagesbank
      ▲ /Gettyimagesbank

      우리 몸을 구성하는 세포와 DNA구조는 모두 ‘단백질’로 이뤄졌다. 때문에 단백질 구조를 정확히 알아낼 수만 있다면 우리 몸에 필요한 장기, 세포 등의 ‘생체부품’을 설계해 만드는 것도 가능하다. 이를 학계에서는 ‘합성생물학(Synthetic biology)’이라고 부르기도 한다. 하지만 단백질의 구조를 알아내는 것은 매우 어려운 일이다. 20여 가지 아미노산 사슬을 조합해 만들 수 있는 단백질 구조의 종류는 거의 무한대에 가깝기 때문이다.

      이 같은 문제를 해결하고자 과학자들이 최근 눈길을 돌리고 있는 기술이 바로 ‘인공지능(AI)’이다. AI의 연산·분석 능력을 활용하면 기존 연구 방법보다 훨씬 많은 단백질 구조를 단기간에 찾아낼 수 있기 때문이다. 이에 따라 단백질 구조 예측 AI의 성능을 좌우하는 ‘인공신경망’ 관련 기술 연구 경쟁도 치열해지고 있다. 현재 산·학·연에서 개발되고 있는 여러 AI은 서로 다른 인공신경망을 기반으로 단백질 구조를 예측하고 있다.

    • ‘알파폴드2(AlphaFold2)’가 찾아낸 단백질 구조/ 구글
      ▲ ‘알파폴드2(AlphaFold2)’가 찾아낸 단백질 구조/ 구글

      ◇정확도의 ‘CNN’ vs 속도의 ‘DNN’

      단백질 구조 예측에 가장 특화된 인공신경망 기술은 ‘합성곱 신경망(CNN)’이다. 이는 이미지 데이터 학습 및 인식에 특화된 딥러닝 알고리듬이다. 데이터 입력과 출력 과정에 ‘필터링 기법’이 적용돼, 각 데이터들이 연산 처리에 적합하도록 AI를 자동 학습시킬 수 있다.

      대표적인 CNN 기반 AI모델로는 ‘알파폴드(AlphaFold)2’가 있다. 구글 딥마인드에서 개발한 이 AI모델은 4년 만에 2억 개가 넘는 단백질 구조 예측에 성공했다. 구글은 지난해 7월 알파폴드가 찾아낸 단백질구조 데이터베이스를 모두 공개하기도 했다.

      알파폴드2에는 일반적인 CNN에서 성능이 한층 더 업그레이드된 ‘그래프 합성곱 신경망(GCN)’이 사용됐다. GCN은 이미지에 특화된 CNN의 학습 범위를 ‘그래프 데이터’까지 확장시킨 것이다. 이렇게 하면 단백질 구조에 관해 기존에 나와 있던 연구 논문들의 그래프도(숫자 포함) 학습할 수 있어, AI가 학습할 수 있는 데이터 범위가 훨씬 더 넓어진다. 실제로 알파폴드2는 GCN을 도입한 이후, 기존 70%였던 예측 정확도를 90% 이상까지 끌어올리는데 성공했다.

      하지만 GCN는 학습할 데이터양이 크게 늘어난 만큼, 요구되는 연산량도 크다. 때문에 현재 단백질 구조 예측 AI에 가장 보편적으로 사용되는 신경망은 ‘심층신경망(DNN)’이다. DNN은 일반적인 인공신경망 기술에 데이터의 입력과 출력 과정 사이에 여러 개의 레이어(여러 논리 객체로 구성된 학습층)를 적용한 기술이다. 최근 메타(페이스북)’가 발표한 AI모델 ‘ESM폴드’와 워싱턴대 단백질 디자인 연구소가 개발한 ‘프로틴 MPNN’의 핵심이 되는 것도 DNN이다.

      CNN보다 연산속도가 훨씬 빠르다는 것 DNN의 장점이다. 메타의 ESM폴드는 단 2주 만에 6억 1700여개의 단백질 구조를 예측하는데 성공했다. DNN으로 구현한 ‘자동완성’기능 덕분이다. 단백질을 구성하는 20여개 아미노산의 서열정보를 알파벳으로 표기한 다음, ESM폴드에 학습시켰다. 그 결과, 알파벳만 적어도 아미노산 서열정보 전체를 예측해 새로운 단백질 구조를 만들어낸다. 메타 리브즈(Rives)팀에 따르면 ESM폴드는 1개의 단백질 구조를 예측하는데 알파폴드2보다 약 60배 이상 빠르다고 한다.

      다만 DNN은 ‘과적합’에 쉽게 빠져 정확도가 떨어진다는 한계가 있다. 과적합은 학습한 데이터 내에선 정확한 예측 결과를 제공하지만, 학습되지 않은 범위에선 예측 결과 정확도가 크게 떨어지는 현상이다. 리브즈팀 역시 “ESM폴드가 찾아낸 6억 1700개의 단백질 구조 중 3분의 2는 정확도가 알파폴드2보다 많이 떨어졌다”고 전했다.

    • 심층신경망(DNN) 기반으로 제작된 단백질 구조 예측 AI ‘프로틴 MPNN’와 ‘ESM폴드’가 구현한 3차원 단백질 구조 이미지/ 워싱턴대·메타
      ▲ 심층신경망(DNN) 기반으로 제작된 단백질 구조 예측 AI ‘프로틴 MPNN’와 ‘ESM폴드’가 구현한 3차원 단백질 구조 이미지/ 워싱턴대·메타

      ◇‘로제타폴드’있지만… “국내 단백질 구조 AI기술 갈 길 멀었다” 

      한국의 경우는 어떨까. 국내 과학계에서도 우수한 성능의 신경망 기술 기반 단백질 구조 예측 AI 개발 성과가 존재한다. 백민경 서울대 생명과학부 조교수가 개발한 ‘로제타폴드(RoseTTAFold)’다. 지난 2021년 개발된 로제타폴드는 ‘3-트랙 신경망’을 기반으로 제작됐다. 이 인공신경망은 1차원의 아미노산 사슬 결합, 2차원·3차원의 단백질 구조 정보를 순차적으로 변환·통합하는 신경망이다.

      로제타폴드는 단백질 구조 1개를 찾아내는데 수 시간밖에 걸리지 않을 뿐만 아니라, 정확도 도 90% 이상 높다. 때문에 학계에서는 편의성과 성능 모두를 갖춘 로제타폴드가 알파폴드2 이상의 성능을 낼 수 있다고 평가하기도 한다. 실제로 국제학술지 ‘사이언스’는 2021년 가장 우수한 과학계 성과 중 하나로 로제타폴드 개발을 선정한 바 있다.

      아쉬운 것은 로제타폴드를 제외하면 국내 과학계가 이룬 또 다른 성과는 없다는 점이다. 더욱이 로제타폴드도 백민경 조교수가 서울대로 오기 전, 미국 워싱턴대 단백질 디자인 연구소에서 연구원으로 근무할 당시 개발한 것이다. 이를 제외하면 순수 국내 연구기관에서 개발된 성과는 사실상 없다.

      정부출연 연구기관인 한국생명공학연구원(생명연)에서도 단백질 구조 예측 AI기술을 따로 연구하고 있는 것은 없는 상태다. 이대희 생명연 합성생물학연구센터장은 “현재 센터에선 AI를 중심으로 한 합성생물학 기술 및 단백질 구조 예측 기술 연구를 따로 추진하고 있진 않다”며 “기존에 해오던 연구 분야에 접목하는 방식으로 AI를 활용하고 있다”고 말했다.

      그러면서 이 센터장은 “국내 단백질 구조 예측용 AI 개발 및 AI활용 연구가 지지부진한 이유에 대해 표준화된 데이터 확보의 어려움 때문”이라고 분석했다. 단백질 구조 예측에 사용할 고성능 AI모델 개발에는 막대한 데이터 학습이 필수인데, 국내선 관련 데이터의 정량화·표준화가 부족하다는 것이다.

      이 센터장은 “AI의 학습을 위해선 정렬된 표준화 데이터가 있어야 한다”며 “하지만 현재 국내 바이오 데이터 관련 연구 데이터 대부분은 각 연구자들의 스타일에 맞춰 제작돼, 표준화나 정리가 제대로 이뤄지진 못한 상태”라고 지적했다.

      이어 “그러다보니 AI연구를 위해 받아오는 데이터의 퀄리티를 보장할 수 없다”며 “이 문제를 해결하기 위해 합성생물학연구센터에서는 자체적으로 AI융합 및 개발에 사용될 수 있는 연구 데이터 표준화를 꾸준히 진행 중이다”고 말했다.

    최신 뉴스

    더보기