AI가 교수 강의자료까지 빼간다… 대학 데이터 무단 학습 막을 장치 없다
강의·연구 데이터, AI 자동 수집에 무방비… 교수 권리 보호장치 없어 정부·대학, 대응 시스템 미흡…법·제도는 여전히 AI 이전 시대 머물러 전문가들 “저작권 명확화, 데이터 관리 체계 구축…관련 연구 시급해”
[한국대학신문 김의진 기자] 대학교수들이 생산하는 강의자료나 논문 이미지, 실험데이터가 인공지능(AI) 기업의 학습 과정에서 무단으로 활용될 수 있다는 지적이다. 강의 플랫폼이나 학술 DB 등에 업로드된 자료들이 스크랩 형태로 수집될 수 있지만 이를 통제할 근거가 사실상 없는 것이다. 데이터가 AI 시대의 핵심인 만큼 이를 만들어내는 교수들의 권리를 보호하는 제도적 장치가 필요하다는 목소리가 높이지고 있다.
14일 교육계에 따르면 국내 대학 대부분이 교수들의 강의자료나 실험데이터의 소유권을 내부 규정으로 정해두고 있지만 AI가 학습 목적으로 자료를 활용하는 것에 대해서는 사실상 거의 작동하지 않고 있다. 대학 연구윤리 규정이나 원격수업 저작권 가이드라인 등이 원론적인 저작권 개념에만 머무르는 탓에 최신 AI 기술 환경과는 거리가 멀다는 지적이다.
학회 홈페이지 등에 공개되는 논문이나 연구보고서도 마찬가지다. 교수·연구자들은 연구 결과를 공유하기 위해 학술 플랫폼 등에 논문을 포함해 실험 사진이나 그래프, 이미지 등을 첨부한다. 연구자들의 실험 성과를 공유·공개하며 학문 발전에 기여하는 자연스러운 과정이다.
전문가들은 논문에 들어가는 이미지·데이터 등이 공개되는 직후 AI의 학습데이터로 활용될 가능성은 충분하다고 강조한다. AI 기업들은 온라인에 공개된 자료를 자동으로 수집해 데이터셋을 만들기 때문이다. 특히 교수·연구자들은 AI 학습 과정에서 자료가 쓰였는지조차 알 방법이 없다.
이광형 한국과학기술원(KAIST) 총장(대통령소속 국가지식재산위원회 민간위원장)은 이날 본지와 통화에서 “AI가 자료를 인용하는 방식은 사람이 하는 것과 완전히 다르다”며 “AI는 수만, 수십만 건의 자료를 통째로 읽고 패턴을 한꺼번에 학습하기 때문에 강의자료나 논문·연구보고서가 AI 학습에 이미 쓰였는지, 어느 정도나 활용됐는지 흔적을 찾기도 어렵다”고 설명했다.
이 총장은 이어 “교수들의 데이터는 보통 5~10년간 연구하면서 쌓은 내용과 경험이 그대로 들어 있는 지식재산”이라며 “AI 시대에 현재로선 AI 학습을 알아낼 방법도, 현행 규정상 이를 통제할 수도, 대학·교수의 소유권을 어떻게 지켜야 하는지 근거도 거의 없다. 무방비로 놓여 있는 셈”이라고 말했다.
■ AI는 이미 대학 자료 학습 중… 막을 법적 근거 無 = 실제로 대학에서나 교수가 설령 AI 학습에 자료가 쓰이는 것을 알았다고 해도 이를 멈춰달라 요구하기 위한 법적 보호장치도 마땅치 않다. 현행 ‘저작권법’ 등에 명확한 절차가 제시돼 있지 않기 때문이다. AI가 논문 속 그래프를 학습에 사용해도 되는지, 연구자는 이를 막기 위해 요구할 권리가 있는지 등에 대한 명확한 답을 줄 기준이 없는 것이다.
전문가들은 현행 관련 법과 규정들이 애초 AI 기술이 등장하기 훨씬 이전에 만들어진 탓에 현재의 AI 시대 상황을 전혀 대응하지 못하는 것이라고 설명한다. AI 기술이 대학의 자료들을 학습용 데이터로 쓸 수 있다는 가능성을 아예 상상조차 하지 못할 때 만들어진 법·규정들이 현재까지 이어지고 있다는 이야기다.
강인구 법무법인 테헤란 변호사는 통화에서 “현행 법·규정들이 만들어질 당시에는 AI가 자료를 학습에 활용하는 문제는 전혀 다뤄지지도, 상상하지도 못했던 시절이었던 것”이라며 “AI가 자료를 학습에 쓰는지 여부를 통제할 방법도, 뒤늦게 문제 제기를 하기 위한 확실한 법적 근거도 없는 상태”라고 설명했다.
강 변호사는 이어 “현행법상 의지할 수 있는 것은 사실상 ‘저작권법’에서 공정이용 규정으로 볼 수 있는데 워낙 범위가 넓고 해석 여지도 많아서 실제 분쟁이 생기면 법원 판단을 기다리는 수밖에 없다”며 “교수·연구자 개인이 예측하기 어렵고 대학도 명확한 기준을 제시하기 힘든 이유”라고 말했다.
교수·학생이 일상적으로 사용하느 교육용 AI 서비스들이 데이터를 수집할 가능성이 있다는 우려도 커지고 있다. 대학 LMS(학습관리시스템)에 올리는 PDF 강의자료, 수업용 슬라이드 PPT 파일, 영상 등이 이미 웹 기반 시스템에서 돌아가는 만큼 보안 수준이 낮은 플랫폼에서는 외부 크롤링(데이터 수집)을 차단하기 어렵다는 것이다.
이광형 총장은 “교수들은 수업을 위해 학생들에게만 보여준 자료라고 생각하지만 엄밀하게 기술적으로는 완전히 안전하다고 보기는 어렵다”며 “학생들도 리포트 작성이나 문제 풀이를 위해 AI 도구에 자료 일부를 그대로 업로드할 때가 있는데 교수 강의자료나 과제 내용이 그대로 외부 서버에 저장될 가능성이 있는 것”이라고 설명했다.
■ 정부도 대응 부족… 데이터 관리 시스템 시급 = 정부의 제도적 대응도 속도를 내지 못하고 있다. 대학 자료가 AI 학습에 활용되는 문제를 어느 부처가 책임져야 하는지도 명확하지 않다는 지적이다. 교육부는 AI 교육 혁신을, 과학기술정보통신부는 AI 경쟁력 확보를, 문화체육관광부는 저작권을 각각 맡고 있지만 정작 대학을 AI로부터 어떻게 보호할지는 대응하지 못하고 있다는 것이다.
김경진 전 국회의원은 본지에 “문제를 총괄해서 다루는 컨트롤타워가 사실상 없기 때문”이라며 “정부 부처 간 경계에 걸린 사안은 (컨트롤타워 없이는) 빠르게 해결할 수 없고 공중에 뜬 상태로 남게 된다”고 지적했다.
전문가들은 대학 스스로가 데이터 관리 시스템을 갖추는 것이 가장 중요하다고 강조한다. 강의자료의 저작권 귀속을 명확히 하고 연구 데이터를 관리하는 전담조직이 필요하다는 것이다.
강인구 변호사는 “AI 기업이 자료를 가져가 활용할 수 있는 시대에서는 현재처럼 저작권 소유가 모호할 때 가장 큰 위험이 된다”며 “자료가 누구 것인지 저작권을 명확히 해야 권리 침해 여부를 판단할 수 있다”고 강조했다.
강 변호사는 이어 “연구 자료와 데이터는 AI 학습에 특히 가치가 높기 때문에 시스템적으로 관리할 필요가 있다”며 “누가 자료를 보관할 것인지 책임자나 전담조직에 대한 대학 차원의 기준을 세울 필요가 있다”고 조언했다.
이광형 총장도 “AI 기업들이 필요로 하는 것은 방대한 지식 데이터인데 현재로선 교수·연구자가 데이터를 제공해도 어떤 대가도 받지 못한다”며 “AI 발전의 밑바탕이 되는 교수·연구자의 지식이 존중받는 환경이 마련될 수 있도록 관계 당국의 더 많은 연구가 필요하다”고 강조했다.