컨텐츠 바로가기

    12.08 (월)

    이슈 IT기업 이모저모

    구글 딥마인드, AI 데이터 부족 해결책 찾았다…'GDR' 기술 공개

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    [AI리포터]
    디지털투데이

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    [디지털투데이 AI리포터] 인공지능(AI) 훈련에 필요한 데이터가 빠르게 고갈되는 가운데, 구글 딥마인드 연구진이 새로운 정제 기술을 제안했다.

    15일(현지시간) 비즈니스인사이더에 따르면 딥마인드 연구진은 생성 데이터 정제(GDR) 기법을 도입해 유해 데이터를 정제하는 방안을 제시했다. GDR은 사전 훈련된 생성 모델을 활용해 부적절한 데이터를 수정하거나 삭제해 안전한 학습 데이터로 변환하는 방식이다.

    대규모 언어 모델(LLM)은 웹페이지, 책 등에서 방대한 텍스트 데이터를 수집해 훈련되지만, 개인정보나 부정확한 정보가 포함된 데이터는 활용되지 못하고 버려진다. 민치 강(Minqi Jiang) 논문 공동 저자는 "AI 연구소들이 유용한 데이터를 나쁜 데이터와 섞여 있다는 이유로 버리고 있다"며 "GDR을 활용하면 개인정보나 부정확한 정보를 제거하고 나머지 데이터를 활용할 수 있다"고 설명했다.

    연구진은 100만개 이상의 코드 라인을 대상으로 GDR을 적용했다. 그 결과, 연구진은 기존 합성 데이터보다 높은 품질의 학습 데이터를 생성하는 데 성공했다. 또한 연구진은 향후 GDR이 저작권 자료나 문서 간 추론되는 개인 데이터를 처리하는 데도 유용할 수 있다고 주장했다.

    아직 텍스트와 코드에만 GDR을 테스트했지만, 연구진은 향후 비디오 및 오디오 데이터에도 적용할 가능성을 열어두고 있다. 민치 강은 "매일 수백만 시간의 비디오가 생성되기 때문에 텍스트뿐 아니라 영상·이미지 데이터에서도 새로운 가능성을 열 수 있다"고 언급했다.

    <저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.