Digital Health · Bio
UNIST연구팀, ‘딥러닝 기반 염색질 면역 침전 피크 선별’ 기술 개발
-
최근 바이오 산업 분야 주요 트렌드로 자리 잡은 ‘합성생물학(Synthetic biology)’이다. 우리 몸에 필요한 장기, 세포 등의 생체 부품을 인공적으로 만드는 기술이다. ‘코히런트 마켓 인사이츠(CMI)’ 등 글로벌시장조사기관에선 합성생물학 산업 규모가 2030년엔 1004억 달러(약 132조 원)에 달할 것으로 보기도 한다.
이 가운데 국내연구진이 합성생물학의 핵심인 ‘단백질 조립’ 기술력을 한 단계 끌어올릴 수 있는 인공지능(AI) 기술 개발에 성공했다. 김동혁 울산과학기술원(UNIST) 에너지화학공학과 교수팀은 UNIST(총장 이용훈) 에너지화학공학과 김동혁 교수팀은 단백질 결합 부위를 손쉽게 알려줄 수 있는 딥러닝 기술을 개발했다고 23일 밝혔다.
‘단백질 결합 부위’는 유전자의 전사조절영역 내의 단백질이 결합하는 특이적 부위다. 정확한 결합 부위를 알아낸 다음, 단백질을 조립할 수 있다면 원하는 기능을 가진 DNA구조를 만들어낼 수 있다.
이때 단백질 결합 부위를 알아내기 위해 현재 주로 사용되는 기술은 ‘염색질 면역 침전(ChIP-exo)’이다. 이는 항원·항체의 면역 반응성을 이용해 염색체 영역 내 단백질을 분리하는 기술이다. 주로 특정 단백질의 결합 위치를 조사하는데 사용된다. 하지만 실제 단백질이 DNA와 결합하는 부위인 ‘피크’ 판별은 인간 연구자가 하나씩 진행해야 한다. 때문에 대용량의 데이터를 신속·정확하게 처리하지 못하는 한계가 있었다.
김 교수팀은 AI의 뛰어난 연산능력이 이 같은 ChIP 기술의 한계를 극복해줄 것이라 생각했다. 이에 ‘딥러닝 기반 염색질 면역 침전 피크 선별 소프트웨어(DEOCSU)’ 기술을 새롭게 고안했다. DEOCSU는 참조 서열에 정렬된 ChIP-exo 데이터를 통해 피크 후보를 감지한 후, 해당 신호들을 이미지 데이터로 변환시킨다. 이 학습 데이터들을 AI는 ‘합성곱 신경망(CNN)’으로 분석한다. CNN은 이미지 분석에 최적화된 AI알고리듬이다. 선별된 데이터를 통해 AI는 피크의 위치 최적화 및 결합 크기 추정을 진행한다.
연구팀은 DEOCSU를 이용해 대장균의 일종인 ‘K-12 MG1655’ 균주의 단백질 결합 부위 탐색 실험을 진행했다. 그 결과, DEOCSU는 학습에 사용된 데이터뿐만 아니라 미지의 염색질 데이터에 대해서도 정확하게 피크를 선별하는데 성공했다. 또한 대장균 등 원핵생물뿐만 아니라 진핵생물, 고세균에서도 동일한 분석 성능을 보여, 범용성 역시 확인됐다.
공개 데이터베이스(EcoCyc와 proChIPdb)의 정보와 선행된 연구 사례를 이용하여 기존에 공개된 소프트웨어(ChExMix, MACE, MACE-elite, PeakXus)와 비교했을 때도 우수한 성능을 보였다. 특히, 원핵생물 유래의 ChIP-exo 데이터 뿐 아니라 진핵생물과 고세균에서의 분석에서도 그 성능이 유지가 되어 그 범용성 역시 확인됐다.
김동혁 에너지화학공학과 교수는 “이번 연구를 통해 그동안 분석에 어려움을 겪었던 단백질과 DNA의 상호작용을 쉽게 알아낼 수 있는 기술을 개발하는데 성공했다”며 “합성생물학 분야와 미생물·효소로 화학신소재를 개발하는 화이트 바이오 산업에도 응용 가능성이 높을 것”이라고 전했다.
이번 연구 성과는 국제학술지 ‘브리핑스 인 바이오인포메틱스’ 온라인판에 1월 25일자로 게재됐다.