강재우 교수팀, X-ray 영상과 언어정보 동시 학습하는 시각언어 인공지능 모델 개발

[한국대학신문 이정환 기자] 고려대학교(총장 김동원) 컴퓨터학과 강재우 교수 연구팀이 흉부 X-ray 영상에 대한 검사결과를 요약하는 인공지능 시스템 국제경진대회 RadSum에서 미국 스탠포드대 (Stanford University), 독일 지멘스 (Siemens), 영국 유니버시티 칼리지 런던 (University College London), 미국 텍사스 대 샌 안토니오 (The University of Texas at San Antonio) 등을 제치고 1위를 달성했다. 고려대 팀은 김강우, 김하정, 김찬휘, 성무진, 김현재 등 대학원생과 지도교수인 강재우 교수로 구성됐다.

RadSum 대회는 스탠포드 의료 이미지 인공지능 센터(AIMI; Center for Artificial Intelligence in Medicine & Imaging)에서 주관하는 대회로, 강재우 교수 연구팀이 참여한 MIMIC-CXR 챌린지는 흉부 X-ray 영상과 검사소견을 기반으로 진단을 추론하는 과제를 수행한다. 예를 들어, 아래 사진과 같은 흉부 X-ray 영상과 임상의가 작성한 검사소견(‘Findings’)을 기반으로 최종 결론에 해당하는 추정진단 (‘Impression’)을 생성해야 한다.

문제 예시.
RadSum 챌린지의 문제 예시.

대부분의 참가팀들이 ChatGPT의 뿌리 기술인 Transformer 구조의 언어모델을 사용해 텍스트 형태의 검사소견만을 입력으로 받아 진단을 생성한 반면, 강재우 교수팀은 X-ray 영상의 시각정보와 검사소견의 언어정보를 동시에 활용하는 시각언어모델 CheXOFA를 개발해 대회에 참가했다. CheXOFA 역시 Transformer에 기반한 모델이나 텍스트 뿐만 아니라 이미지, 영상 등도 같이 입력 및 출력(생성) 할 수 있도록 확장된 멀티모달 인공지능 모델이다.

CheXOFA는 약 23만 장의 흉부 X-ray 영상과 임상의들이 작성한 약 12만 건의 검사결과를 사전학습했으며, 입력된 영상과 소견으로부터 진단을 생성하는 본 대회에서 활용되었던 기능 이외에도 X-ray 영상만을 입력으로 받아 영상에 대한 검사소견을 생성하는 등 다양한 태스크를 수행할 수 있다.

기념촬영을 하고 있는 고려대 컴퓨터학과 연구팀. 왼쪽부터 성무진 석박사통합과정(고려대), 김강우 석박사통합과정(고려대), 강재우 교수(고려대), 김하정 석사과정(고려대), 김찬휘 석사과정(고려대), 김현재 박사과정(고려대).
기념촬영을 하고 있는 고려대 컴퓨터학과 연구팀. 왼쪽부터 성무진 석박사통합과정(고려대), 김강우 석박사통합과정(고려대), 강재우 교수(고려대), 김하정 석사과정(고려대), 김찬휘 석사과정(고려대), 김현재 박사과정(고려대).

RadSum 대회는 2023년 1월에 학습 데이터를 공개하고 이후 3개월간 참가팀들이 각자의 방식으로 인공지능 모델을 개발해 학습시켰다. 4월 6일 테스트 데이터가 공개된 이후 4월 28일까지 리더보드가 운영되며 각 참가팀들의 인공지능 모델의 성능 경합이 이뤄졌다. 대회 최종 순위와 우승팀은 현재 캐나다 토론토에서 개최 중인 세계 최고 권위 인공언어지능 학회인 ACL(Association for Computational Linguistics)의 BioNLP 2023 워크샵에서 현지시각 7월 13일에 발표됐다.

이번 대회는 고려대 연구팀을 중심으로 마이크로소프트 연구소 아시아 (Microsoft Research Asia), 아이젠사이언스, 카이스트, 베이징 항공항천대학 (Beihang University) 연구원들이 힘을 보태 다국적팀을 구성해 참가했다.

저작권자 © 한국대학신문 무단전재 및 재배포 금지