생성형 인공지능 GPT-4, 한의사 국가고시에서 합격선에 근접

김창업 가천대 교수 연구팀, 한의학 인공지능 적용 테스트
한국 특유의 의료 정책 및 임상지침 반영에는 한계

[한국대학신문 이정환 기자] 가천대학교(총장 이길여) 한의과대학 김창업 교수 연구팀은 생성형 인공지능 모델(generative AI model)인 GPT-4가 한의사국가시험에서 합격선에 근접한 성적을 거두었다고 밝혔다.

GPT-4는 ChatGPT를 개발한 OpenAI에서 지난달 14일 공개한 생성형 거대언어모델 (generativelarge language model)로, ChatGPT보다 우수한 성능으로 변호사 시험, 생물 올림피아드 등 각종 시험에서 사람을 능가하는 퍼포먼스를 보여줘 큰 주목을 받고 있다. 뿐만 아니라 미국 의사시험에서 이미 높은 성적을 기록해 의료 인공지능 개발에 활용할 수 있을 것인지에 대한 논의가 활발히 이루어지고 있다.

김창업 교수 연구팀은 이러한 모델을 한의학 인공지능 개발에도 적용할 수 있을지를 평가하기위해 테스트한 결과, GPT-4는 2022년 시행된 한의사 국가시험에서 평균 57.29%의 정답률을 기록하였으며 이는 합격선인 60%에 근접하는 성적이다. 이러한 결과가 의학 혹은 한의학 분야에 대한 별도의 추가 훈련 없는 사전학습 모델만으로 이루어졌다는 점에서 주목할 만하다.

특히, 이번 연구에서는 한국 의료에 인공지능을 적용할 때 발생할 수 있는 문제점 역시 발견됐다는데 의미가 있다. GPT-4는 과목별로 정답률의 차이가 크게 나타났다. 이 중 국제적으로 표준화된 진단기준에 대한 문제가 주로 출제된 신경정신과학과목은 GPT-4가 83.75%의 높은 정답률을 보였다.

반면, 서양의학 뿐 아니라 중의학과도 차별화되는 이론을 다루는 내과학2 과목은 28.75%로 가장 낮은 정답률을 나타냈다. 특히, 한국의 의료법을 다루는 보건의약관계법규 과목은 한의학과 직접적인 연관이 없음에도 48%로 낮은 정답률을 나타냈다.

이에 대해 김창업 교수는 “영미권에서 생산된 데이터로 학습된 GPT-4는 전 세계에서 통용되는 지식에 대해서는 충분히 학습했지만, 한국에서만 적용되는 의료법이나 보험 체계, 한국에서 권장되는 임상 지침 등에서는 충분히 학습하지 못했을 수 있다”고 밝혔다.

이 연구에 참여한 김창업 교수와 장동엽 연구원은 이번 연구의 의의에 대해 “대중화되고 있는 거대언어모델을 활용한 한의임상현장에서의 자동화된 데이터 수집, 한의임상보조 인공지능, 한의대생이나 한의사의 진료 기술을 훈련할 수 있는 학습용 인공지능 개발 등 다양한 발전 가능성을 확인했다”고 밝혔다. 또한 ”한의학에 대한 AI 개발뿐 아니라, 각 국가의 상황에 맞는 의료 인공지능 개발에 참고할 수 있는 기초 자료로 활용되기를 희망한다“고 밝혔다.

이번 연구는 3월 31일 학술지 공식 출판 전(preprint) 논문을 공유하는 ‘아카이브(arXiv)’에 ‘Exploring the Potential of Large Language models in Traditional Korean Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare (doi:https://doi.org/10.48550/arXiv.2303.17807)’라는 제목의 논문으로 공개됐다.