컨텐츠 바로가기

11.23 (토)

이슈 인공지능 윤리 논쟁

AI챗봇 '이루다' 개발사, 실명 포함 카톡 1700건 온라인 공유

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[머니투데이 백지수 기자]

머니투데이

AI 챗봇 이루다 이미지 /사진=스캐터랩

<이미지를 클릭하시면 크게 보실 수 있습니다>



개인정보 유출 논란에 휩싸인 AI(인공지능) 챗봇 '이루다' 개발사 스타트업 스캐터랩이 개인의 실명 등에 대해 비식별화 조치를 하지 않은 카카오톡(카톡) 대화 데이터 약 1700건을 개발자 오픈소스 플랫폼에 올려 논란이다.

스캐터랩은 앞서 수집한 카톡 데이터를 AI 개발에 활용할 당시 원본 데이터에서 개인을 알아보지 못하도록 비식별화 조치를 거쳤고 원본 데이터에는 정해진 인물만 접근할 수 있다고 해명한 바 있다.

13일 업계에 따르면 스캐터랩은 2019년 10월부터 개발자 오픈소스 플랫폼 '깃허브(GitHub)'에 자사가 구현한 '문장 생성 모듈' 프로젝트 데이터셋(data set)을 공개했다.

깃허브는 IT 개발자들이 컴퓨터 프로그램 소스코드와 개발 과정 등을 공유하는 소통 공간이다. 개발자들이 최신 기술이나 미흡한 소스코드에 대해 의견을 나누고 함께 기술을 개발하려는 목적으로 이용되고 있다.

스캐터랩은 데이터셋 설명에 "한국어의 경우 '연애의 과학'에서 추출된 대화 데이터를 활용했다"고 적시했다. 스캐터랩은 앞서 카톡 대화 텍스트 데이터 기반 연애 심리 분석 모바일앱 '연애의 과학'을 통해 수집된 카톡 대화 데이터를 AI 이루다의 중추 알고리즘을 개발하는 데 사용했다고 밝힌 바 있다.

스캐터랩이 깃허브에 공개한 데이터셋에는 약 1700줄의 텍스트가 담긴 100여건의 일대 일 대화 묶음이 담겼다. 이중에는 실명이 필터링되지 않은 대화 내용 20여건이 포함됐다. 대화 참여자들의 직업이나 행동반경, 관계성, 기저 질환 등 건강 정보를 유추할 수 있는 대화 내용도 포함돼 있었다.

머니투데이

스캐터랩이 지난해 오픈소스 플랫폼 '깃허브'에 공개한 '문장 생성 모듈' 프로젝트 데이터셋의 설명.

<이미지를 클릭하시면 크게 보실 수 있습니다>



이 데이터셋은 이날 오전 한 개발자가 페이스북 텐서플로우 커뮤니티에 관련 사실을 폭로하면서 알려졌다. 이 개발자는 폭로 후 15분 만에 글을 삭제했다. 이 개발자는 "모두가 접근할 수 있는 곳에 고객의 사적 대화 100건을 올리는 것은 문제의 소지가 있는 듯하다"며 "비식별화도 제대로 이뤄지지 않았다"고 지적했다.

논란이 되자 스캐터랩은 현재 깃허브에서 이 게시물을 삭제했다. 스캐터랩은 전날 언론에 개인정보 유출과 관련해 "개별 문장 필터링 조치에도 문맥에 따라 인물의 이름이 남아있다거나 하는 부분이 발생한 점에 사과드린다"고 밝혔다.

백지수 기자 100jsb@mt.co.kr

<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.