컨텐츠 바로가기

좋은 데이터가 AI 성능 결정… 정부, 학습 데이터 정책 연이어

0
댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

<이미지를 클릭하시면 크게 보실 수 있습니다>


정부가 인공지능(AI) 기술 경쟁력 확보를 위한 '데이터 기초 체력 다지기'에 힘을 쏟고 있다. AI 개발에 필수적인 학습 데이터세트 구축을 위한 품질인증 제도를 출판하고 기존 'AI 허브'를 통해 제공되던 데이터의 유통과 활용까지 지원한다는 방침이다.

17일 IT업계에 다르면 과학기술정보통신부가 학습 데이터세트와 관련한 인프라 구축을 위해 품질인증과 연구 지원부터 제공 체계에 이르기까지 전반적인 정비에 들어갔다.

이날 한국산업기술시험원(KTL)은 김경민 이화여자대학교 교수와 공동으로 AI 데이터 품질 국제표준을 개발해 지난 2월 국제표준화기구(ISO)에 공식 출판했다고 발표했다. 출판된 국제표준은 AI와 데이터 분석에 활용되는 데이터의 품질을 체계적으로 관리하는 국제 지침인 'ISO/IEC 5259-5:2025'다. 이번 국제표준 개발은 AI 및 데이터 분석에서 신뢰성 확보가 중요한 과제로 떠오름에 따라, 체계적인 품질 기준을 마련하기 위해 추진됐다.

해당 표준은 AI 및 데이터 분석의 신뢰성을 확보하기 위한 필수 기준이다. 데이터 수집부터 폐기까지 전 과정에서 적용 가능한 품질을 유지하고 적절한 통제 및 운영 원칙을 제공한다.

송태승 KTL 디지털산업본부장은 "이번 'ISO/IEC 5259-5' 표준 출판은 데이터 기반 산업 환경에서 신뢰성 있는 의사결정을 지원하기 위해 꼭 필요한 값진 성과"라고 설명했다.

정부는 데이터 품질 표준과 별도로, 학습용 데이터의 체계적인 제공을 위한 통합 시스템도 구축할 예정이다.

생성형 AI 개발에서 고품질 데이터의 확보 및 제공 방식이 중요한 과제로 떠오르면서, 정부는 2017년부터 '인공지능 학습용 데이터 구축사업'을 추진해 왔다. 현재까지 833종의 AI 학습용 데이터를 AI 허브에서 개방했으며, 올해는 70종의 신규 데이터를 추가한다.

한국지능정보사회진흥원(NIA)은 지난 5일 AI 학습용 데이터 통합 제공 체계 구축 방안 마련을 위한 사업 제안 요청서(RFP)를 공개했다. 사업 핵심 목표는 생성형 AI 확산에 따라 대규모 학습 데이터를 보다 효과적으로 관리·제공할 수 있는 방안을 마련하는 것으로, 총 사업 예산은 약 10억원으로 책정됐다.

정부는 허깅 페이스(Hugging Face)와 같은 데이터, AI 모델 공유 기반을 마련하고, 거대언어모델(LLM) 성능을 평가할 수 있는 리더보드 기능을 도입하는 방안도 검토할 계획이다.

정부의 학습 데이터세트와 관련한 정책을 적극 추진하는 데에는 AI 기술 경쟁력의 핵심이 고품질 학습 데이터에 있기 때문이다.

최근 잇따라 발표되는 연구논문에 따르면 거대언어모델(LLM)과 생성형 AI의 성능은 학습 데이터의 질과 직결된다. 이 때문에 AI 데이터는 단순한 연구 지원을 넘어 국가 AI 기술 경쟁력을 결정하는 핵심 요소로 자리잡게 됐다. 이미 미국, EU, 중국 등 주요국들은 국가 차원에서 AI 학습 데이터를 통합·관리하고, 고품질 데이터 구축을 위한 연구·투자를 확대하고 있다.

이러한 흐름에 맞춰 한국도 국가 주도의 AI 학습 데이터 정책을 통해 국내 AI 생태계를 성장시키고, 글로벌 AI 시장에서 경쟁력을 갖추려는 전략을 추진하고 있다. 정부는 AI 학습 데이터 품질 인증 제도를 마련하고 기존 AI 허브를 통해 제공되던 데이터 유통체계까지 개편해 국내 기업의 AI 기술 성장의 초석을 마련한다는 방침이다.

과기정통부 관계자는 "AI 데이터는 인공지능 모델의 성능을 좌우하는 핵심 요소로, 체계적인 데이터 제공 시스템 구축이 필수적"이라며 "이번 사업을 통해 AI 생태계의 경쟁력을 높이고, 글로벌 시장에서의 경쟁 우위를 확보할 것"이라고 밝혔다.


기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.