축적된 아래아한글 문서, 대규모 지식 데이터베이스 역할
한컴오피스, 단순 문서도구 아닌 AI 플랫폼으로 전환
한글과컴퓨터는 35년간 축적된 아래아한글 문서가 ‘소버린AI’ 경쟁력을 강화하는 핵심 데이터가 될 수 있다고 강조했다. [한컴 제공] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[헤럴드경제=박세정 기자] 인공지능(AI) 시대, 특화된 고유 데이터의 중요성이 커지면서 한글과컴퓨터(한컴)의 ‘아래아한글(HWP)’이 새로운 전략자산으로 재조명받고 있다.
35년간 축적된 아래아한글 문서가 AI 데이터 주권을 확보할 수 있는 핵심 기반이 될 수 있다는 기대다.
27일 한컴은 AI 시대를 대비해 문서의 구조 정보를 명확히 담을 수 있는 XML 기반의 개방형 표준 포맷 HWPX로의 전환을 추진해왔다고 밝혔다.
과거 HWP 파일이 이진(Binary) 코드로 구성돼 기계 판독이 어려웠던 한계를 벗어나 이를 기술적으로 해결한 것이다. HWPX는 문서 내의 텍스트, 표, 수식 등을 컴퓨터가 명확하게 식별할 수 있는 구조로 저장한다.
한컴에 따르면 정부의 실증 테스트를 통해 HWPX의 데이터 추출 정확도가 마이크로소프트(MS)의 DOCX 등 국제 표준과 비교해 유의미한 차이가 없음을 검증했다. 최근에는 글로벌 빅테크 기업들의 거대언어모델(LLM)도 HWP와 HWPX 파일을 인식하고 내용을 분석하는 기능을 갖추고 있어, 포맷 호환성 문제가 해소된 상태라고 한컴 측은 설명했다.
한글과컴퓨터 사옥 [사진, 한컴] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
이와 함께 한컴은 한컴 데이터 로더(Data Loader) 기술을 통해 문서 활용성을 높였다. 이 기술은 HWP 문서를 AI가 학습하기 쉬운 데이터 형태(JSON 등)로 자동 변환해 준다. 별도의 복잡한 가공 과정 없이도 기존 문서를 AI 학습용 데이터로 즉시 활용할 수 있는 기반이 마련됐다.
더 나아가 30년 넘게 공공 영역에 축적된 방대한 한글 문서가 대규모 지식 데이터베이스 역할을 할 수 있다는 평가가 나온다. 이 데이터들은 공적 검토 과정을 거쳐 생성된 만큼, 신뢰성과 정확도에 강점이 있다.
한컴 측은 “AI 모델의 성능이 학습 데이터의 품질에 의해 좌우된다는 점을 고려할 때, 이러한 공공 문서는 한국형 AI 모델의 정확도와 전문성을 높이는 데 있어 대체 불가능한 가치를 지닌다”고 강조했다.
디지털 시대의 기술 주권을 위해서는 국내 환경에 최적화된 데이터를 전략적으로 활용해야 한다는 목소리도 커지고 있다. 축적된 문서 데이터를 기반으로 소버린(주권형) AI를 구축, 독자적인 경쟁력을 확보할 수 있다는 기대다. 이에 맞춰 한컴은 한컴오피스를 단순한 문서 작성 도구에서 AI 데이터 플랫폼으로 전환하는 전략을 펴고 있다.
정지환 한컴 최고기술책임자(CTO)는 “한글 문서는 단순한 기록물이 아니라, 국내 AI 산업이 글로벌 빅테크와 차별화된 경쟁력을 갖게 하는 원천”이라며 “이 자산을 AI 기술과 결합해 데이터 가치를 극대화하고, AI 강국으로 도약하는 데 필요한 기술적 지원을 이어가겠다”고 말했다.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
