컨텐츠 바로가기

09.06 (금)

"여보세요" 한 마디로 다 털린다…3초 만에 목소리 베껴 가족도 속여

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

3초 음성 샘플로 말투·문장 구현 가능

과기부, 음성 워터마크 제도화 추진

짧은 통화로도 인공지능(AI)을 이용해 보이스피싱에 악용될 수 있기 때문에 모르는 번호로 전화가 왔을 때 먼저 말을 하면 안 된다는 글이 올라와 화제다.

20일 대학생 익명 커뮤니티 '에브리타임'에 게재됐던 '교수님 덕분에 보이스피싱을 피했다'는 제목의 글이 주목받고 있다.
아시아경제

보이스피싱.[사진=아시아경제DB]

<이미지를 클릭하시면 크게 보실 수 있습니다>


해당 글에 따르면 "전화를 받았는데 건 사람이 계속 한마디도 안 했다"며 "'여보세요'라고 하려다가 수업 때 '모르는 번호로 전화가 왔을 때 (전화를 건 사람이) 아무 말도 하지 않으면 절대 말하지 마라'고 했던 교수님 말씀이 생각나 바로 끊었다"고 했다.

그는 "(이때 말했다면) 목소리를 따서 가족에게 사기를 치려는 것이라고 한다"며 "교수님 아니었으면 큰일 날 뻔했다"고 설명했다.

해당 글에 등장한 조수영 숙명여대 교수는 19일 한겨레와의 통화에서 "'4차산업혁명과법' 강의 중 기술 발달에 따라 지능화되는 보이스피싱 범죄 예방의 방법 가운데 하나로 이 내용을 언급했다"며 "최근 보이스피싱 범죄 집단이 통화 목소리를 녹음하고 이를 다른 텍스트와 결합해 새로운 음성을 만들어 협박에 이용하는 사례가 많다"고 밝혔다.

조 교수는 "'여보세요, 누구시죠' 등 짧은 단어 두 세 마디만 말해도 악용될 수 있다"고 했다. 학습된 목소리를 사용해 '교통사고 등 급한 상황이 생겼으니 돈을 보내달라'고 가족이나 친구 등에게 요구하는 식이다.

짧은 음성으로 특정인의 목소리를 흉내 내는 딥보이스는 인공지능 기반 딥러닝으로 목소리를 학습한 뒤 문자 음성 자동 변환(TTS) 등으로 하지 않은 말을 만들어내는 기술이다.

미국 컴퓨터 바이러스 백신 업체 맥아피에 따르면 3초 분량의 음성 샘플만 있으면 특정인의 말투, 문장을 어느 정도 구현해낼 수 있다. 실제 음성과 합성으로 만들어진 음성을 분간하기는 쉽지 않고, 기술이 정교할수록 실제 대상인지 진위 파악은 더 어려워진다.

실제로 지난 2021년 10월 아랍에미리트(UAE)의 한 은행은 평소 거래하던 대기업 임원의 목소리를 흉내 낸 딥보이스 보이스피싱에 속아 3500만달러(약 420억원)를 송금하는가 하면 지난해 3월에는 캐나다에서 가짜 아들 목소리에 속은 부모가 2만1000캐나다 달러(약 2000만원)를 송금하기도 했다.

과학기술정보통신부는 딥보이스에 대응하기 위해 음성 워터마크 제도화를 추진할 계획이다. 생성 음성을 서비스하는 미국의 AI 스타트업 리젬블 AI에서 고안한 음성 워터마크는 음성의 음파를 분석해 자동으로 그 음파보다 작은 음역을 구별해주는 기술이다. 실제 소리와 구별하기 어려운 것은 물론 비슷한 대역의 음성 정보와 연결돼 제거하기 어렵다.

이소진 기자 adsurdism@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.