컨텐츠 바로가기

09.23 (월)

이슈 인공지능 시대가 열린다

[창간기획] 생성형 AI 패권 전쟁 격화…국내 생성형 AI의 수준은

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
전자신문

[이미지출처=로이터연합뉴스]

<이미지를 클릭하시면 크게 보실 수 있습니다>


바야흐로 생성형 인공지능(AI) 시대다. 생성형 AI의 투명성, 윤리성 등에 대한 논란은 진행 중이지만, 생성형 AI 출시 이전으로 돌아가기 어렵다는 주장엔 다들 동의한다.

세계는 새로운 시대를 지배할 생성형 AI 개발에 몰두하고 있다. 현재 국내외 생성형 AI 수준을 비교하고 우리나라 생성형 AI 경쟁력을 점검해야 할 때다.

◇국가별 생성형 AI 수준은

생성형 AI 강국은 단연 미국과 중국이다.

미국 민간연구단체 에포크AI(EPOCH AI)가 지난 7월 발표한 조사에 따르면, 2020~2023년까지 출시된 오픈AI의 '챗GPT-3' 수준의 생성형 AI 모델 수가 가장 많은 나라는 미국(64개), 두 번째는 중국(42개)이었다.

3위는 한국(11개), 4위 프랑스(6개), 5위 영국(5개), 공동 6위는 일본, 이스라엘, 홍콩(각 3개)이 차지했다.

민간 투자액 순위 역시 미국과 중국이 각각 1·2위를 나눠가졌다.

스탠퍼드대가 발표한 '인공지능 지수(AI INDEX) 2024' 보고서에 의하면, 2023년 AI 민간부문 투자액 순위는 미국이 672억2000만달러(약 89조3000억원)로 압도적 1위, 중국이 77억6000만달러(약 10조3000억원)로 2위를 차지했다.

우리나라는 13억9000만달러(약 1조8000억원)로 9위로 집계됐다.

생성형 AI 특허 수에서는 중국이 미국을 앞섰다.

세계지적재산권기구(WIPO)가 지난 7월 공개한 '생성형 AI 특허 현황' 보고서에 따르면, 2023년까지 10년간 출원된 특허 5만4000건 중 중국이 3만8000건 이상으로 2위인 미국(6276건) 보다 6배 이상 많았다.

3위는 한국(4155건), 4위는 일본(3409건), 5위는 인도(1350건)로 나타났다.

◇생성형 AI 모델 개발, 美 글로벌 빅테크가 선도

생성형 AI 모델 개발은 미국 글로벌 빅테크 기업이 선도하는 모양새다.

생성형 AI 모델의 성능 비교 방법 중 하나는 일종의 시험 문제에 해당하는 '벤치마크'를 통해 매긴 점수를 비교하는 것이다.

본지는 생성형 AI 모델에 대한 벤치마크 리더보드 제공사 '인공 분석(Artificial Analysis)'을 통해 해외 주요 AI 모델 46개 성능을 비교했다.

이 리더보드에서 제시한 벤치마크는 △학부 수준의 전문 지식(MMLU) △대학원 수준의 전문가 추론(GPQA) △수학문제 해결 능력(MATH) △코딩능력(HumanEval) △사람의 선호도를 비교해 산출한 점수(Chatbot Arena ELO) △다국어 수학적 추론 능력(MGSM) 등 6가지다.

전자신문

벤치마크 리더보드 제공사 ‘인공 분석(Artificial Analysis)’의 리더보드를 통해 비교한 주요 AI 모델 46개 중 상위 10개 모델. - 벤치마크 리더보드 제공사 '인공 분석(Artificial Analysis)'의 리더보드를 통해 비교한 주요 AI 모델 46개 중 상위 10개 모델.

<이미지를 클릭하시면 크게 보실 수 있습니다>


해당 벤치마크 점수를 종합해 순위를 나열한 결과, 10위권에 가장 많은 생성형 AI 모델을 올린 곳은 미국 기업이었다.

구체적으로, 오픈AI의 GPT-4o, GPT-4o 미니, 앤스로픽의 클로드 3.5 소네트, 클로드 3 오푸스, 메타의 라마 3.1 405B, 구글의 제미나이 1.5 프로 등 7개였다.

10위권에 든 다른 3가지 AI 모델은 프랑스 AI 기업 미스트랄의 '미스트랄 라지2', 중국 알리바바의 'Qwen2 72B', 중국 AI 기업 딥시크의 '딥시크 코더 V2'였다.

한국 생성형 AI 모델의 경우 위 리더보드에서 제시한 벤치마크 성능을 모두 공개하지 않아 직접 비교는 어렵다.

네이버의 거대언어모델(LLM) 하이퍼클로바X와 LG AI리서치의 엑사원 3.0의 경우 일부 벤치마크 점수가 공개돼 간접 비교할 수 있다.

지난 4월 공개된 하이퍼클로바 테크니컬 보고서에 따르면, 하이퍼클로바X의 벤치마크 점수는 △학부 수준의 전문 지식(MMLU) 67.98점 △수학문제 해결 능력(MATH) 20.16점 △코딩능력(HumanEval) 87.12점이다.

LG AI리서치 엑사원 3.0의 벤치마크 점수는 △MMLU 47.4점 △MATH 34.4점 △HumanEval 72점 △대학원 수준의 전문가 추론(GPQA) 10.1점이다.

하이퍼클로바X와 엑사원 3.0을 위에서 조사한 41개 AI 모델의 벤치마크 점수와 비교하면, 하이퍼클로바는 MMLU 30위, MATH 39위, HumanEval 4위였다. 엑사원 3.0은 MMLU 38위, MATH 34위, HumanEval 공동 17위, GPQA 44위로 나타났다.

◇벌어진 국내외 생성형 AI 수준차, 원인과 해법은

국내외 생성형 AI의 수준, AI 모델의 성능이 벌어진 주요한 원인은 막대한 리소스 차이때문이다.

단적인 예로, 오픈AI는 2019년부터 마이크로소프트(MS)로부터 약 130억달러(약 17조 3000억원)를 투자받았다. 메타는 지난 4월 1분기 실적 발표에서 AI 투자규모가 최대 400억달러(약 53조2000억원)에 이를 것이라고 밝힌 바 있다.

막대한 자본으로 그들만의 리그를 만드는 글로벌 빅테크 기업 사이에서 국내 생성형 AI 모델은 소형·특화형 모델로 자리잡아야 한다는 의견이 나온다.

최홍섭 마음AI 파운데이션모델부문 대표는 “현실적으로 글로벌 빅테크와 직접적 경쟁을 하는 것은 쉽지 않다”며 “소형 AI 모델을 개발해 온디바이스AI 시장에 집중하거나 산업·업계에 특화된 AI 모델로 방향성을 틀면 국내 생성형 AI 모델도 충분한 경쟁력을 가질 수 있다”고 말했다.

현대인 기자 modernman@etnews.com

[Copyright © 전자신문. 무단전재-재배포금지]


기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.