공공데이터와 AI 결합…신약개발·인사검증의 꿈

한겨레 원문
입력

2024.03.16 12:00

최종수정

2024.03.16 12:45

주소복사가 완료되었습니다

고학수 개인정보보호위원회 위원장(가운데)이 지난 1월24일 정부서울청사에서 열린 개인정보위 전체회의에 참석해 안건을 설명하고 있다. 연합뉴스

<이미지를 클릭하시면 크게 보실 수 있습니다>

정보주체의 개인정보 통제권을 강화하는 개인정보보호법이 지난 15일부터 시행됐다. 개정된 법률에선 인공지능 등 자동화된 시스템이 권리·의무에 중대한 영향을 끼칠 정도로 개인정보를 처리하면 정보주체가 이를 거부하거나 설명을 요구할 수 있게 했다. 기업이나 공공기관이 개인정보를 입수한 뒤 인공지능을 이용해 개인에게 불이익을 주는 행위가 쉽지 않게 된다.

“인공지능이 알아서…” 핑계 안 통해

현실의 사례를 들면 이해하기 쉽다. 직원을 채용할 때 사람의 개입 없이 인공지능이 합격과 불합격을 가를 수 있다. 인공지능이 자동적으로 택시나 배달 라이더 배정을 끊을 수 있고 게임 계정도 정지할 수 있다. 이럴 때 어떤 개인정보가 결정 내용에 어떻게 관계되는지 쉽게 확인하고 이해할 수 있도록 공개해야 한다. 이를 이행하지 않으면 입사 응시자나 플랫폼·게임 사용자는 결정을 거부할 수 있다. 사업자(개인정보처리자)가 이를 수용하지 않으면 손해배상 책임이 생긴다. 사업자가 알고리즘이나 ‘인공지능의 결정’이라는 핑계를 대며 책임을 회피하는 일이 까다롭게 된 것이다. 최종적으로는 판례가 확립돼야 구체적인 변화와 효과가 어느 정도인지 드러나겠지만, 우리 삶의 모습을 여러모로 바꾸리라는 점은 분명하다. 개인정보보호위원회는 오는 18일 새 개인정보보호법 설명회를 연다.

양질의 공공 데이터가 전산화된 우리나라에선 인공지능 시대의 개인정보 처리는 깊은 고민거리를 던져준다. 개인정보 보호가 강조되면서, 공공 데이터를 활용해서 얻을 수 있는 편익과 사생활 보호의 가치 사이에서 갈등을 겪는다. 건강보험심사평가원(심평원)에 있는 전국민 진료·처방 기록은 제약·건강 사업에 있어서 막대한 경제적 가치를 지닌다. 인공지능 학습 데이터로 쓰면 국민 건강을 위한 신약 개발의 속도를 높일 수 있다고 하지만, 개인정보 침해 우려 때문에 반대하는 여론도 만만치 않다.

현재 우리나라에선 수집한 개인정보를 가명정보나 익명정보로 바꾸면 수집한 목적과 달리 사용할 수 있다. 가명정보는 별도의 추가 정보와 결합하면 개인을 특정할 수 있는 정보를 뜻하고, 익명정보는 근본적으로 특정 개인의 정보를 복원할 수 없거나 그에 버금갈 정도로 어려운 정보를 뜻한다. 익명정보는 사용에 제한이 없지만 가명정보의 경우 추가 정보와의 결합은 반드시 지정 기관에서만 해야 하고, 결합된 정보의 반출도 승인이 필요하다. 언제나 그렇듯 불안과 불편이 함께한다. 기술이 발달해서 익명정보가 가명정보로 변환될 가능성도 배제할 수 없고, 한번 반출된 결합정보를 끝까지 안전하게 관리하려면 엄청난 인력과 비용도 소모된다. 연구자가 연구 과정에서 새롭게 떠오른 의문 때문에 새 결합항목이 필요해지면, 처음부터 다시 연구 심사를 받아야 하는 불편함도 있다.

☞한겨레S 뉴스레터 구독하기. 검색창에 ‘한겨레 뉴스레터’를 쳐보세요.

☞한겨레신문 정기구독. 검색창에 ‘한겨레 하니누리’를 쳐보세요.

공직자 재산 검증을 인공지능이

상상력을 발휘하면 생성형 인공지능 기술을 이용해 공공 데이터를 누구나 자유롭게 활용하는 방법을 찾을 수 있다. 합성데이터는 인공지능이나 알고리즘을 이용해서 실제 데이터와 수학적·통계적 특성 등이 같도록 인공적으로 만들어내는 데이터다. 그렇게 만든 합성데이터는 새 인공지능 모델을 훈련시킬 때 널리 사용된다. 생성형 인공지능을 훈련시켜 심평원이 보유한 의료정보를 기반으로 수십억명의 합성데이터를 만들 수 있다. 진짜 사람과는 절대로 일대일로 대응되지 않는 ‘가상 인간’의 데이터를 추출해 개인정보 유출 걱정 없이 연구분석용 데이터로 활용할 수 있는 것이다. 비용은 사용자가 부담하면 된다. 특정 연구에 필요한 합성데이터를 생산하는 데 필요한 직간접 비용을 첫번째 수요자가 부담하고, 합성데이터를 사용하는 후속 수요자들이 등장해서 비용을 분담해 첫번째 수요자에게 환급할 수 있다. 공공 연구지원을 받은 수요자라면 연구지원 기관에 돌려주면 되고, 상업용 연구라면 구태여 환급하지 않고 건강보험 재정에 투입하는 방안도 가능하다.

합성데이터를 생성하는 최적 방식을 찾는 게 가장 중요한데, ‘공통 과제 프레임워크’(Common Task Framework) 방식을 활용할 수 있겠다. 이는 공개된 학습데이터 집합을 활용해서 특정 과제를 누가 잘 해결하는지를 겨루는 것이다. 인공신경망 인공지능이 급속도로 발전할 수 있었던 것도 이런 경쟁 덕이었다. 특정 질병을 보유한 집단, 그리고 이 집단과 인구학적 특성이 동일한 대조 집단의 데이터를 가명·익명화해서 소규모로 공개하고, 그 데이터를 활용해 합성데이터를 만드는 생성 인공지능의 성능을 겨루는 일을 반복하면 급격하게 기술이 발달할 수 있다. 매년 새 데이터를 추가해서 예후 예측 능력을 겨룰 수도 있고, 대상 질병을 바꿀 수도 있다. 또 주목받은 생성형 인공지능의 약점을 찾는 대회를 열 수도 있다. 그렇게 10년 정도 반복한다면 원래 목적도 달성하고 파생 인공지능과 기술을 얻을 수도 있다. 개인정보 유출 걱정 없는 합성데이터 생성이 불가능하다는 최악의 결론이 나더라도 말이다.

익명화 또는 가명화용 비실명 처리 기술과 합성데이터 생성 기술은 공공 데이터를 활용할 수 있는 가능성도 열어준다. 현재 출생 데이터는 지리적으로는 읍·면·동 단위, 가족 구성원 상황과 부모 나이까지 수집된다. 이렇게 촘촘한 데이터는 개인정보 보호 문제 때문에 공개할 수 없다. 이 정보도 개인을 특정할 수 없을 정도로 방대한 합성데이터로 변환해서 공개한다면 어떨까.

정보가 이렇게 처리된다면 공직자 인사검증에 활용할 수 있다. 고위공직자 재산 검증 과정에선 불법적인 부의 이전이 없었는지, 세금을 제대로 냈는지가 항상 쟁점이 된다. 이를 살피기 위해선 직계 존비속의 재산도 들여다봐야 하지만 독립생계를 이유로 고지를 거부하면 더 이상의 검증은 불가능하다. 그렇다면 국세청·금융정보분석원에 축적된 데이터를 가명화한 뒤 학습시켜 독립생계 영위 정도를 가늠하는 인공지능을 만들면 어떨까. 사람은 전혀 들여다보지 못하는 직계 존비속의 금융정보를 이 인공지능이 전자적으로 수집해 분석한 뒤 자료를 바로 삭제하고 독립생계 여부를 둘러싼 의문점을 출력하는 방식이다. 인공지능으로만 독립생계 여부를 판단해서도 안 되지만 어떤 부분에서 추가 소명이 필요한지 통보하는 정도는 충분히 가능하겠다. 이렇게 상상력을 발휘하면 인공지능을 활용해 개인정보 노출을 줄이면서 공익을 실현하는 방식이 가능하다.

과학저술가
서울대학교 물리학과를 졸업하고 과학사 및 과학철학협동과정에서 박사 학위를 취득했다. 가톨릭대학교 교양교육원 초빙교수를 거쳐 현재 동국대학교 다르마칼리지에 재직 중이다.

▶▶한겨레의 벗이 되어주세요 [후원하기]
▶▶한겨레 뉴스레터 모아보기 ▶▶[기획] 누구나 한번은 1인가구가 된다

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

09.28 (토)

공공데이터와 AI 결합…신약개발·인사검증의 꿈

한겨레 주요 뉴스