컨텐츠 바로가기

04.28 (일)

“데이터 리터러시, 데이터 악용한 차별과 혐오 막는다”

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[경향신문]
데이터 산업 활성화는 정치권에서 이견이 없는 사안이다. 문이 열리면 데이터 육성 논의도 속도를 낼 것으로 보인다. 이 과정에서 데이터 규제는 대량으로 풀릴 가능성이 높다. 규제 완화를 통해 대량의 데이터를 시중에 풀고 거래를 늘려 데이터 산업을 키운다는 것이 정치권의 구상이다.

정치권에서 거론되는 데이터 관련 정책들은 산업 육성에 초점을 맞춰 설계됐다. 전문가들은 데이터 거래 활성화뿐 아니라 데이터 해석 능력, 이른바 ‘데이터 리터러시(literacy)’가 중요하다고 말한다. 데이터 정책은 무엇을 염두에 두고 설계해야 할까. 빠띠(parti) 민주주의랩 데이터팀에서 활동하는 박지환 변호사(40)의 이야기를 들었다. 박 변호사는 정부혁신전략추진단 민간위원으로도 참여하고 있다. 인터뷰는 7월 1일 서울 마포구 박 변호사의 사무실에서 진행됐다.

경향신문

박지환 변호사가 서울 마포구 사무실에서 인터뷰를 하고 있다 / 권도현 기자

<이미지를 클릭하시면 크게 보실 수 있습니다>


-왜 데이터 리터러시가 중요한가.

“데이터에 숨겨진 의미를 찾아내고 해석하는 능력이 데이터 문해력, 리터러시다. 데이터는 이미 ‘내 삶을 바꾸는 정책’에 깊숙이 들어와 있다. 정부 지자체, 기관에서 데이터를 기반으로 정책을 만든다. 그런데 정책의 근간인 데이터를 해석하지 못하면 정책을 이해하지 못한다. 당연히 비판과 감시도 어렵다. 데이터 전문가 수준은 아니더라도 데이터로 의사를 결정하는 주체와 소통은 할 수 있어야 한다.”

-데이터를 해석할 수 있는 능력이라니. 어렵게 느껴진다.

“모든 국민이 데이터를 잘 다뤄야 한다는 말이 아니다. 물론 그러면 더 좋겠지만. 핵심은 시민사회에서 ‘데이터 해석 능력이 필요하다’는 사실을 인식하는 것이다. 시민 사이에서 데이터 리터러시가 필요하다는 점에 공감대가 생기면 전문가와 함께 데이터 기반 행정 감시도 가능하다. 예컨대 ‘올빼미 버스(심야버스)’의 사례를 보자. 올빼미 버스 노선은 빅데이터 기반으로 결정한다. 버스 노선은 이용자 입장에서 굉장히 민감한 사안인데 노선을 빅데이터를 기반으로 정했다고 하면 이용자들은 쉽게 수용한다. 그렇다면 빅데이터로 정한 노선은 문제가 없느냐. 그렇지 않다. 버스 노선을 정할 때 활용한 데이터와 해석 방식이 무엇이냐에 따라 불편한 노선이 생길 수 있다. 그럼에도 빅데이터로 만든 노선은 오류가 없을 것이라는 믿음 때문에 누구도 문제 제기를 하지 않을 수 있다. 데이터 해석하는 능력이 없다면 비판과 감시도 할 수 없다. 지금 단계에서는 데이터 리터러시의 필요성을 알리는 게 중요하다.”

-데이터를 잘못 쓰면 버스 노선보다 큰 문제가 생길 수 있겠다.

“그렇다. 데이터를 사회적 약자나 특정 커뮤니티를 차별하고 배제하는 수단으로 해석하는 경우도 나타난다. 미국 법원에서 사용하는 알고리즘 중에 ‘콤파스(COMPAS)’라는 게 있다. 피고의 여러 데이터를 점수로 환산해 재범 가능성을 계산한 뒤 판사에게 구속 여부를 추천한다. 그런데 콤파스는 흑인의 재범 가능성을 실제보다 높게 판단하고 백인은 실제보다 낮게 산출했다. 알고리즘이 범행 뒤 검거되는 비율을 택했기 때문이다. 미국에서 범행 뒤 체포되는 흑인 비율은 백인보다 높다. 이런 부분을 고려하지 않고 데이터로 잡아서 생긴 결과다. 데이터 기반 의사 결정 과정에서 사회적 배경과 문제를 생각하지 않고 데이터를 채택할 경우 큰 부작용을 초래할 수 있다.”

-미국 법원 얘기를 들으니 공공기관에 데이터 리터러시가 더 시급할 것 같은데.

“공공부문은 특히 더 데이터를 잘 써야 한다. 정부에서 내는 정책 보도자료도 변화가 필요하다. 예컨대 최근 정부가 도심 도로의 최고속도를 시속 60㎞에서 50㎞로 낮춘다고 했더니 시민이 반발했다. 보도자료에 이걸 왜 줄였는지에 대한 근거를 데이터 형태로 제공하지 않았기 때문이다. 종로 일대에서 최고속도를 낮추는 실험을 했더니 사고가 얼마나 줄었는지, 평균속도는 어떻게 변했는지에 대한 원데이터(raw data)를 그대로 공개했어야 한다. 정책을 만들 때 데이터를 기반으로 정교하게 잘 만들어야 하고, 국민을 설득할 때도 데이터 기반으로 설명할 필요가 있다. 데이터를 시각화하고 알기 쉽게 풀어내는 것도 데이터 리터러시에 해당한다. 정부도 데이터 리터러시의 필요성을 알고 있다. 준비 단계지만 여러 가지 고민도 하고 있는 것으로 안다. 중간 관리자급 공무원들을 대상으로 데이터 관련 교육도 하고 데이터 직렬을 확대하는 방안도 준비 중이라고 들었다.”

-일반 시민 입장에서 데이터 활용이 쉽지 않다.

“민간 기업들은 자신들이 수집한 양질의 데이터를 잘 가공해서 쓴다. 그런데 시민은 어렵다. 쓸 만한 데이터가 없고 찾기도 힘들다. 물론 우리나라 공공 데이터 부문은 잘 정비돼 있다. 경제협력개발기구(OECD)에서도 최상위권이다. 개방 수준도 놓고 법령도 잘 갖춰져 있다. 그런데 양질의 데이터를 국민이 쉽게 접근해서 활용할 수 있느냐. 그건 아니다. 공개된 통계자료도 많고 공개청구 시스템도 있는데 정작 데이터를 받아보면 품질이 떨어지는 경우가 적지 않다. 외형은 갖췄는데 실속이 없다. 데이터 활용 경험이 부족하다 보니 제공하는 쪽도 사용하는 쪽도 서툴다. 이런 문제를 중간에서 조율하는 데이터 중간지원 조직이 필요한 이유이기도 하다.”

-정치권에서 데이터 산업 활성화 논의가 활발하다. 방향을 잘 잡았나.

“기본적으로 데이터 산업 활성화가 필요하다는 데는 동의한다. 그런데 데이터의 산업적 활용에 대한 비중이 너무 크다. 데이터청을 만들고 거래소의 외형을 만드는 것 그 자체는 어려운 게 아니다. 플랫폼을 만들고 규제를 풀면 거래 규모는 커질 것이다. 그런데 데이터는 유통이 많이 되는 것으로 끝나는 게 아니다. 공익적으로 의미 있는 데이터 활용 사례가 함께 늘어나야 하는데, 이를 위해서는 데이터의 보호와 공유 사이에 균형을 잡을 수 있도록 기반이 되는 정책이나 데이터 라이선스도 함께 마련해야 한다. 그런 고민이 안 보인다. 기업이 주체가 되는 데이터 거래 외에도 데이터에는 여러 분야가 있다. 시민이 주체가 되는 데이터의 공익적 활용 분야도 커다란 한 축이다. 그럼에도 공익적 활용에 대한 논의는 의제에서 빠져 있다.”

반기웅 기자 ban@kyunghyang.com

▶ 장도리 | 그림마당 보기
▶ 경향 유튜브 구독▶ 경향 페이스북 구독

©경향신문(www.khan.co.kr), 무단전재 및 재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.