컨텐츠 바로가기

05.20 (월)

[특별기고] 경쟁력 있는 데이터 혁신 생태계를 위한 조건

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
파이낸셜뉴스

데이터는 새로운 원유다. 데이터의 중요성을 강조하는 데 이보다 좋은 비유는 없다. 정부가 발표한 디지털 뉴딜의 주요 정책도 데이터가 핵심이다. 구글, 아마존, 페이스북과 같은 IT기업의 급속한 성장은 19세기 중엽 석유산업의 호황과 비교되고 원유를 탐사·채굴·수송 및 판매에 이르는 일련의 과정은 데이터산업과 유사하다고 말한다.

그런데 데이터는 원유가 아니라는 주장도 있다. 원유는 특정한 목적으로 사용하면 사라지는 유한의 자원이다. 반면 데이터는 사라지지 않는 무한재다. 데이터는 재사용이 가능하고 같은 데이터를 다른 목적으로 사용할 수 있다. 가령 의료영상 이미지(MRI)는 의사가 환자를 치료하는 데 사용하고 동시에 환자가 의료보험을 위해 사용할 수 있다.

디지털 뉴딜을 통해 데이터에 대한 기대는 더욱 높아질 것이다. 마이데이터의 활용을 위한 데이터 3법이 개정됐고 대규모 인공지능 학습용 데이터와 빅데이터 플랫폼도 본격적인 사업을 앞두고 있다. 정부가 한국판 뉴딜의 성공을 위해 데이터사업에 중점을 두고 추진하는 것은 시의적절한 판단이라고 본다. 다만 최근 흐름은 데이터를 원유와 같은 관점의 소비재로 인식한다는 우려도 있다. 대규모 데이터 구축이 끝이 아니라 경쟁력 있는 데이터 생태계를 만들기 위해 새로운 방식의 혁신이 필요하다.

첫째, 디지털 뉴딜은 전통적인 사업 추진과 양적 평가가 아닌 데이터 전주기의 생태계를 고려한 제도와 관리방안 혁신을 포함해야 한다. 국가적으로 필요한 데이터의 선정, 구축, 배포와 활용에 이르는 전 단계에서 합의 가능한 가이드라인을 수립해야 하고 데이터 관련규정, 지침과 사업 방식에 대한 개선이 필요하다. 산업, 연구, 커뮤니티가 참여해 데이터를 활용하고 경험을 공유할 수 있는 실질적 협력체계를 구축해야 한다.

둘째, 데이터와 기술에 대한 균형 있는 정책 추진이 필요하다. 만약 구글이 딥마인드를 인수하지 않았다면 대규모 클라우드 기반의 알파고와 이세돌의 대국은 성공하지 못했을 것이다. 만약은 데이터, 알고리즘, 인프라에 공통적으로 적용될 수 있다. 유행에 민감한 특정한 기술이나 데이터에 치우치지 않고 균형 있는 접근이 필요하다. 이미지넷(ImageNet)은 1400만여개의 고화질 이미지와 더불어 워드넷(WordNet) 기반의 상세한 메타데이터를 제공함으로써 심층 신경망 기법을 발전시키는 데 중요한 역할을 했다. 수요 중심의 데이터 발굴과 함께 정부의 데이터 현황을 파악하는 데이터맵을 정의하고 인공지능 기술과 인프라를 결합하는 정책이 추진돼야 한다.

셋째, 양질의 고품질 데이터가 무엇인지 정의해야 한다. 거의 모든 산업 분야에서 데이터가 필요한 상황이지만 분야에 따라 요구되는 데이터 형식과 기준이 다르다. 텍스트와 이미지, 비디오 형식의 데이터에서 필요한 데이터, 한국어와 영어에 대한 데이터는 품질기준이 다를 수 있다. 기존에 사용됐던 보편적인 틀로 데이터 품질을 평가하는 것이 어렵기 때문에 데이터 사용자와 전문가가 공동으로 요구사항을 정의하고 데이터 구축과 평가 단계에 대한 가이드라인을 수립해야 한다.

데이터의 가치는 공유되고 사용될수록 높아진다. 정부의 디지털 뉴딜은 어떤 지향점을 갖고 있는가. 원유와 다른 데이터의 본질을 이해하고 국가 데이터 정책의 목표를 명확하게 추진해야 한다. 양질의 데이터 확보는 새로운 국가 경쟁력 요소가 될 것이다.

김학래 중앙대 문헌정보학과 교수

※ 저작권자 ⓒ 파이낸셜뉴스. 무단 전재-재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.