컨텐츠 바로가기

    02.26 (목)

    PDF 읽기, AI에게는 여전히 어려운 영역

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    [AI리포터]
    디지털투데이

    AI 기술이 급속히 발전하고 있지만 PDF 파일을 읽는 문제는 여전히 난제로 남아 있다. [사진: 셔터스톡]

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    [디지털투데이 AI리포터] PDF 파일을 읽는 것은 인공지능(AI)에게 여전히 어려운 과제다. AI가 복잡한 수학 문제를 풀고, 프로그래밍 언어를 이해할 정도로 발전했지만, PDF 파일을 정확히 해석하는 것은 다른 문제다.

    23일(현지시간) IT매체 더버지에 따르면, PDF는 텍스트가 아닌 이미지 기반으로 저장되며, 표, 이미지, 다단 형식 등 복잡한 요소를 포함할 수 있어 AI가 이를 정확히 추출하기 어렵다. 에드윈 첸(Edwin Chen) 데이터 회사 서지(Surge) 최고경영자(CEO)는 이를 'AI의 실패 사례' 중 하나로 꼽았다. 최첨단 모델도 PDF에서 정보를 추출하려다 내용을 요약하거나, 각주를 본문으로 착각하거나, 심지어 내용을 환각 하기도 한다.

    PDF는 본래 기계가 아닌 인간이 읽도록 설계됐다. HTML이 텍스트를 논리적 순서로 표현하는 반면, PDF는 문자 코드, 좌표, 페이지 이미지를 조합해 문서를 재현한다. 이 때문에 광학 문자 인식(OCR) 기술이 필요하지만, OCR도 완벽하지 않다. 표, 이미지, 다단 형식 등 복잡한 요소가 있으면 오류가 발생한다. AI 어시스턴트가 PDF를 처리하려면 여러 도구를 사용해야 하며, 결과도 고르지 않다.

    이 문제를 해결하기 위해 여러 AI 기업이 PDF 전용 모델을 개발하고 있다. 알렌 연구소는 PDF 구조를 이해하는 '오엘엠 OCR'(olmOCR)을 개발했고, 오픈소스 AI 플랫폼 허깅페이스는 13억 개의 PDF 데이터를 수집해 모델을 훈련 중이다. 하지만 여전히 모든 형식을 완벽히 처리하기는 어렵다. 예를 들어, 법률 문서나 복잡한 다이어그램이 포함된 PDF는 AI가 제대로 해석하지 못하는 경우가 많다.

    PDF는 여전히 디지털 문서의 표준이다. HTML과 달리 PDF는 어떤 기기에서나 동일하게 표시되며, 편집이 불가능해 안정성이 높다. 이 때문에 기업, 정부, 출판사 등에서 광범위하게 사용된다. 더프 존슨(Duff Johnson) PDF 협회 최고경영자(CEO)는 "PDF는 사라지지 않을 것"이라며 "AI가 PDF를 더 잘 이해하는 방향으로 발전할 것"이라고 전망했다.

    <저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.