컨텐츠 바로가기

잘 적어야 살아남는다 … AI '적자생존' 경쟁

0
댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

게티이미지뱅크

<이미지를 클릭하시면 크게 보실 수 있습니다>


음성인식 기술이 일상 깊숙이 스며들고 있다. 회의록 작성, 강의 요약, 인터뷰 정리 등 다양한 분야에서 활용되며 관련 시장도 빠르게 성장 중이다.

세계 시장에서는 미국의 '오터(Otter)'가 독보적 위치를 차지한 가운데 액션파워의 '다글로', 더플레이토의 '티로', 네이버의 '클로바노트' 등 기술력을 갖춘 국내 기업도 경쟁에 뛰어들었다. 특히 다글로, 티로 등 스타트업은 강력한 음성인식 기술을 바탕으로 활용 시 편의성을 제공하는 다양한 기능을 출시하며 고객의 마음을 사로잡고 있다.

각 애플리케이션의 성능을 비교하기 위해 간단한 실험을 진행했다. 적당한 소음이 발생하는 회의실에 노트북을 두고, 각 앱을 작동시킨 뒤 한글, 영어, 사투리(한글) 대화가 포함된 5~10분 분량의 유튜브 영상을 재생하는 방식이다. 실험에는 1962년 존 F 케네디 미국 대통령의 유명한 연설 '우리는 달에 가기로 선택했습니다', 여러 사람이 등장해 사업 모델을 발표하고 투자 여부를 결정하는 미국 TV 시리즈 '샤크 탱크' 에피소드 등 영상을 활용했다.

네 가지 앱 모두 영상 속 언어를 텍스트로 변환하는 능력은 뛰어났다. 다글로, 티로, 오터는 스크립트를 기반으로 인공지능(AI)이 내용을 요약해주는 기능을 제공하는데(클로바노트는 한글만 지원) 정확히 같은 결론을 내놨다. 여러 사람이 등장해 이야기하는 샤크 탱크의 영상을 들은 뒤 어떤 사업 모델을 설명하는지, 투자자의 의견이 무엇인지, 투자를 받는지에 대해 정리했다. 영상을 1.2배 속도로 재생했을 때도 큰 차이는 없었다. 다글로, 티로는 영어 스크립트를 우리말로 번역해 요점 정리까지 제공했다.

차이를 꼽자면 오터는 영어에 특화된 만큼 샤크 탱크에 등장하는 화자 수(5명)를 구분해냈다. 다글로는 영어 영상의 화자 구별에는 차이가 있었지만 3명 이상이 등장하는 한국 영상의 화자를 정확히 구별했다.

매일경제

오터, 다글로, 클로바노트는 음성을 그대로 전달하려고 노력하는 게 눈에 띄었다. 예를 들어 '저' '그러니까'와 같은 '필러' 표현을 텍스트로 전환했다.

오터, 다글로, 클로바노트는 음성을 파일로 저장했다가 스크립트를 클릭하면 해당 부분을 다시 들려줬는데 이는 회의나 강의를 다시 찾아볼 때 상당히 유용할 것으로 보인다.

티로는 AI를 기반으로 텍스트를 정제해준다. 가령 'LLM'을 설명하는 한글 강의를 녹음했을 때 클로바노트, 다글로는 이를 다른 언어로 인식하는 경우가 있었는데, 티로는 AI가 해당 영상에 등장하는 LLM이나 '라지랭귀지모델' '거대언어모델'과 같은 음성을 모두 'LLM'으로 통일해 정리해준다. 또 문어체를 구어체로 전환하는 데 강점을 보였다.

이렇다 보니 사투리를 들려줬을 때 티로는 인식 능력이 다소 떨어졌지만 다글로, 클로바노트는 해당 음성을 텍스트로 전환해 대략 이해할 수 있는 수준으로 바꿔주는 결과를 확인할 수 있었다.

다글로, 티로의 강점은 완성도 높은 음성인식 기술을 기반으로 여러 기능을 제공한다는 데 있다. 특히 다글로는 유튜브 주소만 입력해도 해당 영상의 음성을 텍스트로 전환하고 정리해주는 기능을 제공했다. '양자역학 강의' '엔비디아의 역사'가 담긴 15~30분짜리 유튜브 동영상 주소를 넣어봤는데 영상 내용을 텍스트로 정리해 요약까지 깔끔하게 해준다.

다글로 내의 '챗봇'은 사용자가 다글로에서 변환한 받아쓰기 내용을 기반으로 AI와 묻고 답할 수 있는 기능도 제공한다. 이러한 편의 기능이 고객을 사로잡으면서 다글로는 국내 음성인식 앱 중 가장 많은 구독자인 150만명을 확보했다. 조홍식 액션파워 대표는 "다글로는 회의, 인터뷰, 영업 미팅 등 22가지 종류로 템플릿을 세분화해 받아쓰기 결과를 목적에 맞는 형태로 정리해준다"고 설명했다. 다글로 유료회원은 GPT4o, 클로드 소넷, 퍼플렉시티 등 각각 월 3만원 수준의 구독료를 내야 쓸 수 있는 유료 채팅 서비스를 제한 없이 활용할 수도 있다.

티로의 강점은 음성을 텍스트로 전환하는 과정을 실시간으로 보여줄 뿐만 아니라 한 단락이 끝나면 요약해 준다는 점이다. 회의나 강의를 녹음하면서 잠시 자리를 비웠다가 돌아왔을 때 어떤 대화가 오갔는지 확인할 수 있는 셈이다. 외국어를 빠르게 한글로 바꿔주는 만큼 외국인과 미팅에서도 유용하게 활용할 수 있을 것으로 예상된다.

임은성 더플레이토 대표는 "티로는 국내 최초로 실시간 음성인식 서비스를 하고 있다"며 "대화 중 마치 퍼플렉시티처럼 대화 기록에 관해 질문할 수 있다는 점도 차별화된 부분"이라고 말했다. 티로는 지난 3월 누적 가입자 1만500명을 넘어섰으며 구독 갱신율은 90%를 넘어섰다. 실험을 통해 최근 출시된 음성인식 앱들의 기술 발전을 직접 확인할 수 있었다. 오터, 클로바노트, 다글로, 티로 등 주요 앱은 모두 가입만 하면 300~600분을 무료로 제공하므로, 음성인식 앱 사용을 고민 중이라면 직접 사용해보고 자신에게 맞는 앱을 선택하는 것이 좋다.

[원호섭 기자]

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.