개인정보보호위원회는 합성데이터(Synthetic data)의 안전한 생성과 활용을 지원하기 위해 '합성데이터 생성·활용 안내서'를 발간했다고 19일 밝혔다.
합성데이터란 특정 목적을 위해 원본데이터의 형식과 구조, 통계적 분포 특성과 패턴을 학습해 생성한 모의(simulated) 또는 가상(artificial) 데이터를 말한다. 컴퓨터 시뮬레이션 또는 알고리즘에 의해 생성된다. 가상의 데이터이기 때문에 원본데이터에 있는 개인 식별정보나 민감정보를 노출하지 않고 데이터를 자유롭게 공유해 활용할 수 있다는 이점이 있다.
이에 데이터의 안전한 활용을 위해 합성데이터를 생성하고 활용하는 사례가 늘고 있다. 다만 그간 현장에서 적용 가능한 기준이나 참고할 만한 선례가 부족했다. 이에 따라 개인정보위는 지난 5월 관련 실증사례를 담은 '합성데이터 생성 참조모델'을 발표한 데 이어, 이번에는 해당 사례를 바탕으로 합성데이터 생성 절차와 관련 법령 준수사항을 수록한 안내서를 발간했다.
안내서는 각계 전문가가 참여한 연구반에서 안을 만들고, 이후 외부 전문가의 추가 의견수렴을 거쳐 완성됐다. 안내서에서는 개인정보 식별 가능성에 실질적으로 대응할 수 있도록 합성데이터 생성·활용 단계를 △사전준비△합성데이터 생성 △안전성·유용성 검증 △심의위원회 평가 △활용과 안전한 관리로 제시했다.
아울러 합성데이터 생성·활용 주체와 관련된 적법절차, 원본데이터의 전처리 방식, 안전성·유용성 검증방법과 지표 등 생성·활용 단계별 세부절차를 안내했다. 또 생성과정 전반에 대한 체크리스트와 문서 예시를 함께 제시해 담당자 등이 쉽게 이해할 수 있도록 했다.
이와 함께 최근 수요가 증가하는 비정형 합성데이터(이미지)에 대해서도 절차와 유의사항들을 안내하고 있으며, 특히 불특정 다수 등 일반대중 공개를 위한 합성데이터는 안전성에 중점을 둬 생성·검증하고 심의위원회 평가 등을 거쳐 익명정보로 활용할 수 있다는 점도 밝혔다.
개인정보위는 이에 앞으로 산업현장, 연구소 등에서는 합성데이터 관련 절차나 서식, 방법론, 법령 준수사항 등을 참고하고자 할 때 안내서를 활용할 수 있다고 설명했다. 정형·비정형 합성데이터별 세부 사례는 지난 5월 발간한 '합성데이터 생성 참조모델'에서 확인할 수 있으며, 참조모델의 합성데이터는 '가명정보 지원 플랫폼'에서 내려받을 수 있다.
양청삼 개인정보위 개인정보정책국장은 "프라이버시 강화 기술로서 합성데이터의 잠재력에도 불구하고, 활용 기준, 방법, 절차 관련 내용이 체계화되어 있지 않아 산업·연구현장에서 느껴왔던 애로사항들이 이번 안내서를 통해 해소되기를 기대한다"고 말했다.
아주경제=윤선훈 기자 chakrell@ajunews.com
- Copyright ⓒ [아주경제 ajunews.com] 무단전재 배포금지 -
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.