데이터젬마 [사진: 구글] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 구글은 대규모언어모델(LLM)이 부정확한 답변을 하는 이른바 환각을 완화하기 위한 AI 모델인 '데이터젬마'(DataGemma)를 공개했다. 데이터젬마는 허깅페이스에서 오픈 모델로 공개됐다.
15일(현지시간) 일본 IT미디어에 따르면 데이터젬마는 젬마의 개방형 모델 제품군을 기반으로 하는 구글 데이터커먼즈(Data Commons)의 신뢰할 수 있는 답변을 사용해 답변한다.
젬마는 지난 2월 구글이 오픈 모델로 발표한 제미나이 LLM의 경량 버전이다. 데이터커먼즈는 수십만 개의 통계 변수에 걸쳐 2400억개 이상의 데이터 포인트를 포함하는 공개된 지식 그래프다. 데이터는 유엔(UN), 세계보건기구(WHO), 미국 질병통제예방센터(CDC), 미국 인구조사국과 같은 신뢰 기관에서 가져왔다.
데이터젬마는 데이터커먼즈의 신뢰할 수 있는 데이터로 젬마 모델의 기능을 확장하고, RIG(Retrieval-Interleaved Generation) 및 RAG(Retrieval-Augmented Generation)의 2가지 접근 방식을 사용해 LLM의 추론 능력을 향상시킨다.
RIG는 모델의 원본 생성을 데이터커먼즈에 저장된 관련 통계와 비교해 사실의 정확성을 높이는 접근 방식이고, RAG는 생성과 외부 정보 검색을 결합해 정확도를 높이는 접근 방식이다. 구글은 "RIG와 RAG의 예비 조사는 아직 초기 단계이지만 결과는 유망하다"고 설명했다. 최종적으로 구글은 데이터젬마를 젬마 및 제미나이 모델에 통합할 계획이다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.