우리의 '채팅'이 국력이 되는 '말뭉치 구축'

국립국어원 말뭉치 구축사업

 

 

 

국어에 관심많은 나는 과연 국어전공으로 취업이나 할 수 있을 지 걱정하며 이런저런 검색을 하던 중 재미있는 사실을 발견했다. 우리 말에 대한 데이터 구축이 인공지능 개발에 매우 중요한 자원이 된다는 것이다.
 

지금도 우리는 휴대폰을 손에 들고 누군가와 메신저 대화를 나눈다. 그런데 이런 일상의 대화들이 한데 모이면 4차혁명 시대 인공지능에게 우리말을 가르치는 언어자원이 된다니 신기하지 않은가?

 

"여러분이 메신저를 통해 나눈 일상 대화는 인공지능 기술 개발과 연구에 필요한 기초 자료로 유용하게 활용됩니다. 대한민국이 4차 산업혁명을 선도하는 나라가 되도록 여러분들의 대화를 제공해주세요."
(인용 : https://m.blog.naver.com/PostView.nhn?blogId=msgcorpus&logNo=221603089267&navType=tl )

국가연구기관인 국립국어원이 주도하는 '국립국어원 메신저 대화 자료 수집 및 말뭉치 구축 사업’에 참여하고 있는 한 벤처기업이 블로그에 올린 글이다.

'말뭉치'란 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치이다. 조건만 만족하면 작게는 시집 한 권이나 소설 한 편으로부터 1억 어절 이상의 말이나 글로 표현된 각종 자료까지, 다양한 크기의 자료 모음이 모두 말뭉치라는 이름으로 묶일 수 있다. 원래는 언어학 연구자들이 쓰던 개념인데 인공지능의 발달과 함께 공학자들도 관심을 갖게 됐다. 사람들과 자연스럽게 대화하는 인공지능을 만들기 위해서는 컴퓨터가 이해하고 처리할 수 있도록 가공된 대규모의 언어 자료, 즉 말뭉치가 많이 필요하기 때문이다. 많으면 많을수록 좋다고 한다. 데이터가 많을수록 인공지능이 이해할수있는 자연어의 정확도가 높아지기 때문이다.

 

그래서 선진국들은 자국 언어를 말뭉치 데이터화하는 사업을 국가차원에서 서둘러왔다. 국립국어원에 따르면 2018년 12월 기준으로 일본은 150억 어절, 중국은 800억 어절, 미국은 3,000억 어절의 말뭉치를 이미 디지털 데이터로 구축해 인공지능 기술에 적용하고 있다.

이에 비해 우리나라는 같은해 기준으로 10억어절 구축에 그치고 있다. 지난 1998년부터 ‘21세기 세종계획’을 시작했다가 2007년 이후 10년 이상 사업이 중단됐었기 때문이다. 말뭉치 구축에 대한 인식부족이 선진국들과의 엄청난 격차를 벌인것이다. 다행히 2018년부터 다시 사업이 재개됐다. 최근 코로나19 위기속에 일자리를 안들기 위해 편성된 정부의 '한국판 뉴딜' 사업예산속에 우리말 말뭉치 구축 사업이 포함돼 다행이라고 할 수 있다.


우리말 말뭉치 구축이 늦어진다면 우리 후손들은 영어나 중국어는 잘 알아듣는데 우리말은 잘 못 알아듣는 인공지능 앞에 답답해할지도 모른다. 국어국문학 등 우리말 전공자들이 일할 수 있는 미래 일자리 기회를 놓칠지도 모른다. 세종대왕께서 창제하신 우리 말글의 빛나는 언어자원들을 4차 혁명 시대에 맞게 디지털 자원화시키는게 우리 청소년들의 몫이 아닐까.

이 기사 친구들에게 공유하기