에이피(AP)/연합뉴스 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
챗지피티(GPT) 개발사 오픈에이아이(AI)가 개발 중인 차세대 거대언어모델(LLM) 지피티5(GPT5) 출시가 지연되는 이유가 고품질 데이터 부족 때문이라는 관측이 나왔다.
23일 월스트리트저널(WSJ)을 보면, 오픈에이아이가 1년6개월 이상 개발 중인 지피티5는 그동안 방대한 데이터 분석과 처리하는 훈련을 최소 두차례 이상 진행했다. 하지만 매번 새로운 문제가 발생했으며, 기대한 결과에 성능이 미치지 못했다. 프로젝트명 ‘오리온’(Orion)으로 알려진 지피티5는 애초 올해 중반께 공개될 것으로 전망돼 왔다. 이 매체는 6개월 동안 대규모 훈련에 약 5억달러(약 7200억원)의 컴퓨팅 비용이 투입된 것으로 추정하면서, 지피티5가 그에 걸맞은 성능은 보여주지 못했다고 전했다.
기대했던 성능에 미치지 못한 건 성능에 가장 큰 영향을 미치는 양질의 데이터를 확보하지 못했기 때문이라는 관측이 나온다. 오픈에이아이는 이전 모델을 개발하는 과정에선 인터넷에서 수집한 뉴스와 소셜미디어 게시물, 과학 논문 등의 데이터를 사용했지만, 이번에는 인공지능이 학습할 데이터를 오픈에이아이가 직접 만들기도 했다. 소프트웨어 엔지니어들이 새로 만든 코드나 수학자들이 해결한 복잡한 수학 문제 결과 등이 그런 예에 속한다. 이처럼 학습용 데이터를 새로 만들다보니 기존 방식보다 시간이 더 많이 걸린다는 단점이 노출됐다. 지피티5의 출시 지연도 이 때문이라는 것이다.
학습 데이터 부족으로 인공지능 모델의 성능 향상이 정체기를 맞을 것이란 우려는 업계 전반으로 확산하는 분위기다. 오픈에이아이의 공동 창업자였으나 지난해 회사를 떠난 일리야 수츠케버는 지난 13일 한 강연에서 “컴퓨터 연산 능력은 향상하고 있지만, 데이터는 늘지 않고 있다”며 “우리가 가진 인터넷은 오직 하나뿐이기 때문”이라고 했다.
선담은 기자 sun@hani.co.kr
▶▶실시간 뉴스, ‘한겨레 텔레그램 뉴스봇’과 함께!
▶▶한겨레 뉴스레터 모아보기
이 기사의 카테고리는 언론사의 분류를 따릅니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.