AI · Data · Semiconductor
논문 작성 지시하자 가짜 정보 인용… 과학계선 ‘오용’ 우려
-
“본 논문에서는 인공지능(AI)을 활용한 운석 방어 시스템 기술을 제안합니다. 이 시스템은 정밀 센서로 데이터를 수집하고, 이를 딥러닝 모델에 입력해 운석 탐지 및 궤도 추적을 수행합니다. 또한, 추적된 운석이 충돌 위험이 있는 경우 자동으로 방어 수단을 작동시켜 운석을 파괴하거나 방향을 조정할 수 있도록 합니다. 실제 실험 결과, 이 시스템은 운석 탐지 및 궤도 추적에서 높은 성능을 보이며, 운석 방어에서도 효과적인 결과를 보여줬습니다.”
유능한 과학자들이 썼을 법한 이 논문 초록 샘플은 본지 기자가 대화형 AI ‘챗(Chat)GPT’의 힘을 빌려 작성한 것이다. 명령어 입력창에 “인공지능을 이용한 운석 방어 시스템 개발에 대한 논문을 작성해”라고 지시했다. 그러자 챗GPT는 AI기반 운석 방어 시스템의 원리 및 실험 결과 등을 담아 그럴싸한 초록 논문 한 편을 1분 만에 작성해냈다.
하지만 이런 뛰어난 작문 능력과 별개로 ‘과학 분야’를 챗GPT가 정복하는 것은 아직 불가능할 것으로 보인다. 과학 연구의 근본이 되는 정확한 데이터와 근거를 제시하지 못하기 때문이다. 오히려 과학자들은 챗GPT로 만든 논문은 잘못된 정보를 유포시킬 수 있는 ‘가짜뉴스공장’이 될 것으로 우려하고 있다.
-
◇그럴싸해 보이지만 허위 정보 ‘우수수’
이러한 우려는 기자가 챗GPT로 작성한 인공지능 기반 운석 방어 시스템 개발 논문 초록에서도 고스란히 드러났다. 문장은 그럴싸하지만, 정확한 정보를 제공하진 못했다. 오히려 ‘과학적 근거’라고 챗GPT가 인용한 연구 결과들은 허구인 경우가 많았다.
챗GPT는 김종환, 이상헌, 조영준, 조광래, 조원석, 박지원 등 ‘국내 연구진’이 2020년 발표했다는 연구 결과를 근거로 들었다. 제시한 논문의 이름은 ‘딥 러닝을 사용한 실시간 소행성 탐지 개선’과 ‘머신러닝 및 그래픽 처리장치(GPU) 가속 기반 실시간 소행성 탐지 시스템’. 모두 기자가 물어본 질문과 매우 연관성이 높은 것들이었다. 게재됐다고 설명한 학술지도 ‘전기전자학회(IEEE)’에서 발간하는 세계적 과학학술지 ‘IEEE 엑세스’였다.
하지만 실제 학술지에서 검색해본 결과, 챗GPT가 제시한 이 논문들은 존재하지 않는 것들이었다. 또 증거 자료로 제시했던 각 논문 온라인 사이트 주소를 들어가자 방문 결과 전혀 다른 내용의 논문이 나오기도 했다. 이 같은 결과를 챗GPT에 다시 물어보자 “제가 다시 실수를 저질렀네요. 죄송합니다. 올바른 사이트 주소를 드리겠습니다”라는 다소 ‘뻔뻔한’ 대답이 돌아왔다.
이 같은 챗GPT의 뻔뻔함은 이미 잘 알려져 있다. 국제 의학 전문 학술지 ‘큐리우스(Cureus)’가 진행한 실험에서도 비슷한 현상이 나타났는데, 큐리우스는 지난달 30일 ‘챗GPT를 이용한 의학 논문 작성 콘테스트’를 개최했다. 이는 챗GPT로 자료를 찾거나 연구 방향을 설정하는 대회다.
대회에 참가한 대부분의 연구진은 기자와 마찬가지로 챗GPT의 우수한 문장 구성력에 감탄했다. 하지만 자료 정리 및 분석, 요약 등 보조수단으론 쓸모가 있으나, 왜곡된 정보 제공 문제로 이해 실제 연구에 적용하기엔 부족하다는 공통적 입장을 내비쳤다.
대표적 사례는 인도 벨가움 의학연구소 연구팀의 연구다. 연구팀은 챗GPT를 이용해 ‘후천성면역결핍증(HIV) 환자의 전신 홍반 루푸스(SLE)의 진단법 연구’ 논문을 작성하고자 했다. 연구팀이 찾아낸 데이터 성과를 챗GPT에게 제공한 후, 연구 보고서를 작성하도록 한 것이다.
그 결과, 논문을 일반인도 읽기 쉽도록 정리하는 덴 매우 우수한 능력을 보여줬다. 하지만 각 데이터 간 중요도 및 연관성을 과학적으로 표현하진 못했다. 뿐만 아니라 근거용 논문으로 제시한 성과엔 기자가 작성한 논문과 마찬가지로 ‘가짜 논문’이 뒤섞여 있었다. 결국 연구팀은 논문을 완성하기 위해 챗GPT가 제공한 정보들 중 가짜를 구별하고 다시 정리하는 추가 작업을 진행했다고 설명했다.
벨가움 의학연구소 연구진은 “챗GPT는 겉보기엔 그럴싸하지만 존재하지 않는 연구 결과를 인용문으로 추가했다”며 “챗GPT는 혁신적인 도구이지만 잘못된 정보가 치명적으로 다가올 수 있는 의료 및 과학 연구분야에선 사용을 권장하지 않는다”고 전했다.
-
◇전문가도 헷갈리는 ‘가짜 논문’… 과학계 오용 우려
이 같은 오류 현상이 발생하는 이유는 챗GPT의 학습 방식 때문이다. 챗GPT는 1750억 개의 매개변수를 가진 초거대 AI GPT-3.5’를 기반으로 제작돼, 인터넷상에 존재하는 수많은 데이터들을 학습한다. 때문에 현재 온라인상에 떠돌아다니는 수많은 가짜 정보도 함께 학습할 가능성이 높다. 실수 기반의 ‘강화학습(RLHF)’ 기술을 통한 오류 수정과 오픈AI 연구원들의 검열이 이뤄지곤 있지만, 복잡한 인과관계로 얽혀있는 과학 연구 분야까지 정확히 학습하는 것은 현재로선 사실상 불가능하다.
하지만 전문가들은 챗GPT의 논문이 겉보기엔 충분히 ‘진짜’처럼 보이는 것은 위험한 일이라고 지적한다. 이로 인해 잘못된 정보가 유포되면, 과학 연구계와 사회에 혼란이 야기될 수 있다는 것이다.
실제로 지난 1월 미국 노스웨스턴대 연구팀이 진행한 실험에서도 챗GPT가 쓴 논문은 표절검사기 평가에서 만점을 받아 ‘출판 가능하다’는 평가를 받았다. 또 연구팀은 챗GPT가 작성한 의학 논문 초록 50편을 인간 연구원들이 구분하도록 했다. 그 결과, 실험에 참가한 연구원들은 챗GPT가 쓴 논문의 32%를 사람이 쓴 것으로 착각하기도 했다.
실험을 진행한 캐서린 가오 노스웨스턴대 교수는 “뛰어난 의학 연구자들조차 챗GPT 논문 리뷰 실험에서 AI가 생성한 항목을 놓쳤다”며 “일반인이나 학생 연구자들의 경우, 우연히 챗GPT가 작성한 논문을 보더라도 식별하는 것은 사실상 불가능할 것”이라고 설명했다.
이어 “이처럼 식별이 어려운 가짜 초록은 과학 연구를 악화시킬 수 있다”며 “챗GPT를 이용해 고의로 과학 연구 성과를 조작하고자 하는 사람이 있다면 이는 매우 위험한 상황을 초래할 수 있다”고 경고했다.