최근 LLM은 통신, 게임, 보안, 법률 등 특정 도메인에 특화된 형태로 정교하게 발전하고 있다. 범용 LLM의 경우 방대한 데이터를 학습했음에도 심층적인 전문 지식이 필요한 영역에서 한계를 보이고 있고 정보 보호의 취약성과 '할루시네이션(환각 현상)' 등의 문제점도 내재하고 있기 때문이다. 이에 기업들은 각 산업별 특수성을 반영한 전문 지식과 데이터를 학습시켜 보다 정밀한 자체 언어 모델을 구축하고 있다. 산업과 비즈니스에 최적화된 ‘도메인 특화 LLM’을 통해 AI 기술을 고도화하고 있는 기업의 사례를 살펴본다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
◆ 다양한 산업군의 엔터프라이즈 AI 개발 경험으로 할루시네이션 문제 최소화한, 크라우드웍스
AI 테크 기업 크라우드웍스는 AI 학습에 필요한 데이터를 전처리하는 '데이터 엔진', 기업별 맞춤형 대규모 언어모델(LLM) 구축 서비스를 제공하는 ‘AI 솔루션’ 등을 제공하고 있다. 데이터 엔진으로는 이미지, 영상 등 다양한 데이터를 AI가 인식할 수 있는 형태로 변환하는 데이터 라벨링 플랫폼을 운영 중이다. 일반인이 라벨링 작업에 참여해 수익을 공유하는 방식이며 작업한 데이터는 금융권, 검색 포털 등 고객사에 판매한다. 등록된 라벨러 수는 국내 최대 규모인 62만명이다.
AI 솔루션으로는 지난 2023년 9월 파인튜닝 솔루션 LLM Platform을 출시했다. 네이버 하이퍼클로바X의 공식 파트너로 선정됐으며, 올해 상반기에는 비즈니스 특화 sLM ‘웍스원(WorksOne)’을 출시했다. AI 데이터 구축에 필요한 인력을 육성하는 '크라우드 아카데미'도 운영하고 있다. 크라우드 아카데미는 라벨러 육성을 위한 교육 콘텐츠를 제공하는 사업으로 2021년 '국민내일배움카드' 과정, 2023년 '플랫폼 종사자 특화훈련' 사업에 선정됐다.
특히 크라우드웍스는 그간 다양한 산업군의 엔터프라이즈 AI 개발 경험을 토대로 LLM의 고질적인 할루시네이션 문제를 최소화하고 결과 데이터, 성능 검증을 통해 답변의 완성도와 정확성을 향상시켜 고객 만족도를 높여왔다.
◆ 다크웹 특화 언어 모델로 특수 데이터 처리 역량 입증, S2W
AI 및 보안 전문 데이터 인텔리전스 기업 에스투더블유(이하 S2W)는 마약 유통, 랜섬웨어, 해킹 등 각종 사이버 범죄의 온상으로 지목되는 ‘다크웹(Dark Web)’상의 난해한 언어와 불법적인 콘텐츠를 분석할 수 있도록, 세계 최초의 다크웹 전용 AI 언어 모델 ‘다크버트(DarkBERT)’를 개발하여 주목받고 있다. 다크웹에서 수집된 약 3억 개 페이지의 방대한 텍스트 데이터로 훈련된 이 모델은 다크웹 페이지 주제 분류와 랜섬웨어 유출 사이트 탐지 등의 분석 작업에서 우수한 성능을 보이며 사이버 범죄 수사의 효율성을 강화하고 있다. 또한 다크버트를 적용한 다크웹 전용 챗봇 ‘다크챗(DarkCHAT)’을 인도네시아 정부기관에 공급된 자사의 AI 기반 빅데이터 분석 플랫폼 ‘자비스(XARVIS GLOBAL)’에 탑재해, 사용자가 필요로 하는 사이버 범죄 관련 정보를 즉시 확인할 수 있도록 지원하고 있다.
다크버트에 이어 공개한 사이버 보안 특화 AI 언어 모델 ‘사이버튠(CyBERTuned)’은 비정형 사이버 보안 데이터, 특히 URL과 SHA 해시(Hash) 등의 비언어적 요소를 효과적으로 학습할 수 있도록 설계되어 사이버 위협 인텔리전스(CTI) 작업에서 차별화된 기능을 보여주고 있다. 이에 그치지 않고, 최근에는 사이버 안보 특화 언어 모델들을 개발하며 축적해온 NLP 기술 노하우 및 특수 데이터 처리 역량을 제조, 유통, 금융, 공공 등 다양한 산업군으로 확대 적용해 나가고 있다.
◆ 법률 특화 LLM 자체 개발해 법률 자문부터 계약 검토 효율성 제고, BHSN
법률 시장에 특화된 LLM으로 법무 효율성을 극대화하는 AI 플랫폼도 존재한다. 리걸 AI 솔루션 기업 BHSN이 개발한 ‘앨리비(Allibee)’는 법률 특화 생성형 AI 기반 서비스형 소프트웨어(SaaS) 플랫폼으로, 맥락을 이해하고 단어의 의미를 파악한 후 적절한 답변을 제공함으로써 법률 계약서 관련 업무에 최적화된 기능을 제공한다.
앨리비는 BHSN이 자체 개발한 법률 특화 AI 언어 모델 ’BHSN Legal-LLM’을 기반으로 구축됐다. 계약, 법령, 판례, 정책 등 변호사와 AI 엔지니어가 협업해 선정하고 생성한 대량의 법률 관련 고품질 데이터를 집중적으로 학습했다. 정확도 높은 정보를 바탕으로 법률 영역에 적합한 세부 기능을 구현했으며 기업, 공공기관, 로펌 등 다양한 고객사의 데이터를 토대로 내부 정책에 맞춰 계약서 내용을 수정하는 등의 서비스도 제공하고 있다. 현재 앨리비는 이와 같은 법률 도메인 특화 기능을 바탕으로 업무 생산성을 향상시키는 올인원 AI 비즈니스 솔루션으로 활용되고 있다.
◆ 통신사 맞춤 언어 모델 ‘텔코LLM’으로 내부 비즈니스 혁신, SKT
SK텔레콤(이하 SKT)의 ‘텔코 LLM(Telco LLM)’은 5G 요금제, T멤버십, 공시지원금과 같은 국내 통신 전문 용어와 내부 AI 윤리 지침 등을 학습한 통신 특화 LLM이다. 방대한 한국어 통신 데이터를 수집하고 선별해 자사의 ‘에이닷엑스(A.X)’와 오픈AI의 ‘GPT’, 앤트로픽의 ‘클로드’ 등에 학습시켜 멀티엔진 기반 LLM을 구축했다. 통신사 전용으로 세밀하게 미세조정(Fine-tuning)하는 과정을 거쳐 통신 서비스, 멤버십 혜택, 고객 상담 패턴 등 범용 LLM 대비 세분화된 통신 영역의 데이터 처리가 가능하도록 설계됐기 때문에 수준 높은 작업을 수행할 수 있다.
SKT는 멀티엔진 기반인 텔코LLM을 통해 서비스별로 최적화된 LLM을 선택 및 적용, 다양한 통신 업무 상황에 적합한 기능을 구현하며 내부 운영 효율성을 강화하고 있다. 최근에는 국내 메이저 고객센터 중 최초로 LLM을 적용한 ‘AI 상담 업무 지원 시스템’을 오픈, 상담사가 자연어로 질문을 입력해 필요한 정보를 빠르게 검색 및 정리할 수 있도록 지원하고 있다. 또한 텍스트뿐만 아니라 다양한 이미지를 이해할 수 있는 대규모 멀티 모달 모델(Large Multimodal Model, LMM)을 활용해, 고객이 문자와 이메일 등으로 발송한 서류를 자동 처리하는 ‘AI 서류 자동 처리 시스템’도 구축했다. SKT는 향후 텔코 LLM을 유통망 관리와 네트워크 인프라 운용 외 다양한 업무 상황에도 확대 적용해 나갈 예정이다.
◆ 게임·엔터 도메인 넘어 창작 AI의 새 패러다임 제시, 엔씨소프트 ‘바르코 LLM’
‘바르코 LLM(VARCO LLM)’은 엔씨소프트가 국내 게임사 최초로 자체 개발한 AI 언어 모델로, 게임 개발에 특화된 고품질 콘텐츠 제작을 지원하며 게임 및 엔터테인먼트 분야의 혁신을 선도하고 있다. 바르코는 텍스트나 시나리오 등 게임 내 콘텐츠 개발에 중점을 둔 데이터를 학습해 생동감 있는 기획, 운영, 아트 등 콘텐츠 개발 전반에서 높은 효율성을 제공한다. 특히 바르코 LLM 기반의 ‘바르코 스튜디오(VARCO Studio)’는 게임 제작에 특화된 AI 플랫폼 서비스로, 엔씨소프트의 지식재산권(IP)에 특화된 웹 기반 이미지 생성툴 ‘바르코 아트’, 텍스트 생성·관리툴 ‘바르코 텍스트’, AI NPC 및 챗봇 제작을 위한 ‘바르코 아바타’ 등 주요 AI 기능을 통해 게임 개발 전 과정을 지원하며 고품질 콘텐츠 제작에 도움을 준다.
바르코 LLM은 게임 콘텐츠 생성에 특화된 언어 모델이지만 차량용 플랫폼, 교육 등의 분야와도 도메인 특화 모델 개발을 위한 업무협약을 체결하는 등 다양한 산업에 적용되고 있다. 엔씨소프트는 바르코가 기존의 범용 창작 AI와 차별화된 창작성을 제공할 것으로 전망하며, 차세대 버전인 ‘바르코 LLM 2.0’, ‘라마 바르코LLM(Llama-VARCO LLM)’ 등 향상된 성능의 튜닝 언어 모델을 지속적으로 개발하고 공개해왔다. 향후 바르코를 개발한 AI 연구개발 조직 ‘NC 리서치’를 자회사로 분사해 AI 전문 기업을 신설하고 관련 기술을 고도화 한다는 계획이다.
- 관련 기사 더 보기
https://www.venturesquare.net/930289
오효진 email___editor@venturesquare.net
Copyright ⓒ ATSQUARE.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.