‘생성형 AI시대’ 도래…국내 인문학 정보·데이터, 어떻게 제대로 알릴 수 있을까

ChatGPT의 부정확한 정보·가짜뉴스, 허위·조작 시대 불러올 수 있어
‘생성형 AI의 인간 학습 모방하는 ‘딥러닝 방식’ 지적돼
전문가들 “디지털 리터러시 중요, 한국학·인문학 영역에 대한 상식 필요” 강조

[한국대학신문 임지연 기자] 2022년 11월 미국 오픈AI가 개발한 생성형 AI ‘ChatGPT’의 등장은 놀라움과 충격을 줬다. ChatGPT는 출시 두 달 만에 이용자가 1억 명을 돌파, 관심과 호응을 얻으며 인류와 AI의 공존 시대에 들어섰음을 보여줬기 때문이다.

그러면서도 한편으로는 ChatGPT의 부정확한 정보와 가짜뉴스로 인해 허위와 조작의 시대를 불러올 수 있다는 우려를 표하기도 한다. 글로벌로 시야를 넓혀보면 K-콘텐츠에 대한 세계적인 관심이 매우 높은 현 상황에서 생성형 AI는 외국인들에게 한국을 접하는 통로와 도구의 역할을 할 것이 자명하기 때문이다.

그렇기에 전문가들은 생성형 AI에 국내 인문학 정보·데이터를 효과적으로 제공하고, 학습시키는 방안이 모색돼야 한다고 입을 모은다. AI가 제공하는 정보, AI를 통해 인간이 얻는 정보는 국가브랜드 파워와 호감도, 기업 이미지와 상품 매출 등에 큰 영향을 미칠 수 있어서다. 또한 생성형 AI가 세계인의 정보 취득 입구가 된다면 정확한 데이터와 정보를 생성형 AI에게 제공하고 학습하게 하는 것이 국가나 기업의 중요한 전략 과제가 될 것이라는 이유다.

■ 엉뚱한 ChatGPT의 대답, 사실로 받아들일 수 있어…‘디지털 리터러시’ 중요 = 지난 12일 국회의원회관에서 국회 교육위원회 국민의힘 간사 이태규 의원과 한국학중앙연구원, 한국고전번역원이 공동으로 개최한 ‘인공지능 시대의 인문학 세계전략 토론회’에서 김바로 한국학중앙연구원 교수는 “ChatGPT는 어떤 질문에도 답을 하도록 프로그래밍 돼 있어 없는 사건을 물어도 엉뚱한 대답이라도 하도록 설계돼 있다”며 “인문학적 소견이 있는 한국인이 답을 봤다면 문제가 있다고 생각하지만, 외국인은 사실로 받아들일 가능성이 높다. 이것이 생성형 AI에 국내 인문학 정보·데이터를 효과적으로 제공하고, 학습시키는 방안이 모색돼야 하는 이유”라고 짚었다.

그렇다면 왜 이런 문제가 생기는 걸까? 김 교수는 인간의 학습을 모방하는 형태의 ‘딥러닝’을 통해 생성형 AI가 학습하기 때문이라고 지적했다. 인간에게 개 사진을 보여주면 ‘개’라고 대답하지만 왜 ‘개’라고 생각하는지 설명하지 못하는 것처럼, 딥러닝 역시 이유를 설명하지 못하기 때문이라는 것이다. 이에 김 교수는 생성형 AI에 국내 인문학 정보·데이터를 효과적으로 제공하기 위해서는 인문데이터 구축 및 통합, 알리기가 핵심이라고 봤다.

현재 한국학중앙연구원에서는 데이터 아카이브를 운영하고 있다. 주로 한국학 관련 데이터를 구축하고 있는데, 연구자와 일반 대중을 우선시 해 그대로 AI에 적용하기는 어렵다. 우리가 이순신과 충무공을 동일인물로 인지하는데, AI는 학습을 하지 않으면 동일인물이라는 모른 것과 같은 이치다. 하지만 해당 데이터를 가공할 재정, 인력 등 여력이 부족한 실정이다.

오픈소스를 관리하는 플랫폼의 부재도 지적됐다. 현재 많은 기업들은 수많은 생성형 AI를 만들고 있고, 그 기반이 되는 것이 오픈소스다. 이에 올바른 내용의 오픈소스가 제공돼야 하지만 한국공공데이터는 AI형식에 맞춰 적극적으로 오픈소스를 제공하지 않고 있으며, 이를 관리하는 것 역시 어려운 상황이다.

김 교수는 “오픈소스 관리, 플랫폼 구축만큼 중요한 것은 생성형 AI를 활용할 수 있는 교육을 하는 것이다. 똑같은 질문도 대상에 따라 극명하게 답이 나오기 때문”이라며 “제대로 된 대답이 나오도록 하려면 디지털 리터러시가 중요하다. 또한 이에 상응하는 한국학, 인문학 영역에 대한 상식이 있어야 한다”고 강조했다.

지난 12일 국회의원회관에서 국회 교육위원회 국민의힘 간사 이태규 의원과 한국학중앙연구원, 한국고전번역원이 공동으로 개최한 ‘인공지능 시대의 인문학 세계전략 토론회’가 진행되고 있다. (사진=이태규 의원실)

■ “텍스트 양 늘리거나 보다 정확한 정보 쌓아야” = 김현종 한국학중앙연구원 교수는 ‘생성형 AI로 읽은 한국 역사지리’ 발제를 통해 “AI는 텍스트 중심으로만 지식을 습득하기 때문에 역사지리 정보에 대한 특성, 내재적인 특성을 이해하지 못한다”며 “텍스트에 대한 양을 늘리거나 역사지리 정보에 대한 보다 섬세하고 정확한 정보를 쌓아야 한다”고 강조했다.

김 교수에 따르면 지리학에서는 GPT 등장 이전에도 AI 기술을 활용한 연구가 많이 진행돼 왔다. 주로 지리정보시스템(GISystems, 최근에는 지리정보과학 GIScience) 분야에서 연구되고 있으며, 이를 GeoAI라는 분야로 전문화하고 있다.

지리정보는 매시간 변화 누적되는 빅데이터로, 활동하는 7000여 개의 인공위성 정보, 각종 장소 기반 센싱기술(유비쿼터스), 소셜네트워크와 연동된 개인 지리정보 등 엄청난 양의 정보가 쌓인다. 그러나 정보의 양이 너무 많고 다양해 한 사람, 한 시스템이 개별적으로 판단, 분류, 분석하기에는 어려움이 있다. GeoAI는 지리 공간 데이터 추출 등 이런 정보들을 딥러닝으로 자동화하고, 기계학습(ML, Machine Learning)을 통해 공간 예측 분석 등을 수행한다.

GeoAI에서도 거대언어모델(LLM)과 결합해 지리정보를 취득, 분석하는 연구가 많이 시도되고 있으며, 특히 GPT가 프로그래밍이 가능하다는 점에 착안해 공간분석(클러스터, 공간회귀분석 등)에 대한 질의를 파이썬 코드로 작성하고 이를 통해 공간분석 알고리즘을 활용하는 응용 사례가 늘고 있다.

그러나 김 교수는 “대표적 언어모델인 ChatGPT와 Bard가 역사지리정보에 있어 정확한 정보를 제공하고 있지 않다”며 생성형 AI의 환각 문제(hallucinations problem) 역시 역사적 사실을 제시함에 있어 치명적 문제를 가지고 있다고 지적했다. 문제는 이에 대한 원인을 추적하고 수정할 방안을 찾을 수 없다는 점이다.

김 교수는 “GPT의 지속적인 학습과 업그레이드로 인해 이전에 문제가 있었더라도 그 문제를 다시 재현하기 어려운 경우도 많다. 관동8경을 질문할 때마다 제시하는 장소가 달라지고, 일본의 관동 지방의 명승지를 제시하기도 한다”며 “오답의 원인은 현재의 지리정보가 아닌 과거의 역사지리정보의 내재적인 특성인 지명의 시공간 연결의 맥락과 변화 가능성 때문이다. 역사 지리 정보에 대한 보다 섬세하고 정확한 정보를 쌓을 필요가 있다”고 분석했다.

상단영역

본문영역