컨텐츠 바로가기

    01.01 (목)

    더 이상 학습시킬 데이터가 없다...AI 개발사들, 결국 '이것'까지 눈독들여

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    MHN스포츠

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    (MHN 김진수 인턴기자) AI 개발 기업들이 데이터 확보를 위해 공격적으로 기업들과의 제휴에 나서고 있다.

    17일(현지 시각) 미국 IT 전문 매체 디인포메이션이 보도한 바에 따르면, 오픈AI는 최근 회계 소프트웨어 기업 제로(Xero)를 비롯해 생명공학, 소프트웨어, 금융 분야 기업들과 데이터 사용 계약에 대해 논의한 것으로 알려졌다.

    앤트로픽, 구글 딥마인드, 구글의 신약 개발 자회사인 아이소모픽 랩스 등도 바이오테크 스타트업들과의 파트너십을 통해 데이터를 확보하고자 했던 것으로 전해졌다.

    아이소모픽 랩스 대변인은 "새로운 치료제 설계에 활용하기 위한 목적 등으로 산업별 데이터에 관한 논의를 진행 중"이라고 밝혔다.

    AI 개발사들의 이 같은 움직임은 인터넷상에서 확보할 수 있는 공개 데이터를 사실상 모두 소진했기 때문이다.

    이러한 맥락에서 AI 개발사들은 언론사들과 콘텐츠 계약을 서두르고 있다.

    지난 10일(현지 시각) 구글은 한국의 연합뉴스, 미국의 AP통신과 워싱턴포스트(WP) 등 유수 언론사들과 파트너십을 맺고 AI 검색을 강화하겠다고 발표한 바 있다.

    뉴스 기사는 사실관계가 명확하고 문장이 정제돼 있어 AI 모델 훈련에 중요한 자원으로 평가된다.

    또한 AI를 각종 전문 분야에 적용하기 위해서는 해당 분야의 전문 지식을 담은 데이터가 필수다.

    그러나 이처럼 높은 가치를 지닌 데이터는 대부분 관련 기업들이 독점적으로 보유하고 있으며, 외부에 공개하지 않고 있다.

    MHN스포츠

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    이에 오픈AI는 챗GPT의 부족한 지식 분야를 파악하는 '인간 데이터 팀'과는 별도로, 외부 기업들과 데이터 계약을 추진하는 '데이터 파트너십 팀'을 따로 두고 있다.

    반면 기업들은 AI 기업과의 전문 데이터 공유에 대해 여전히 조심스러운 태도를 보이고 있다.

    벤처캐피털 디멘션의 창립자 자베인 다르는 "기업이 AI 기업과 데이터를 공유할 때는 어떤 데이터를 얼마나 오래, 어떤 애플리케이션과 공유하는지를 명확히 해야 한다"며, 그렇지 않을 경우 "결국 미래의 경쟁사를 키우는 결과를 초래할 수 있다"고 지적했다.

    실제로 제로는 오픈AI가 개발한 AI를 바탕으로 온라인 정보 검색 AI를 운영하고 있지만, 고객 데이터를 오픈AI에 제공하는 것은 거부했다. AI가 기업 고유의 사업 영역을 침해할 수 있다는 우려가 작용한 것으로 보인다.

    한편, 폐업 위기에 몰린 일부 스타트업이 보유 데이터를 통째로 판매하는 사례도 나타나고 있다.

    데이터 라벨링 스타트업 튜링(Turing)은 문을 닫는 기업 5∼10곳으로부터 수만 달러를 주고 소프트웨어 코드를 구매한 뒤, 이를 코딩 모델 훈련용 데이터로 AI 기업에 판매하고 있다.

    이와 같은 데이터 확보는 격화하고 있는 AI 성능 경쟁에서 승부를 판가름할 요소가 될 것으로 전망된다.

    사진=연합뉴스

    <저작권자 Copyright ⓒ MHN / 엠에이치앤 무단전재 및 재배포 금지>
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.