컨텐츠 바로가기

    03.19 (목)

    챗GPT가 골라준 주식의 함정… 고수익 거뒀지만 추천 일관성 없어[박재혁의 데이터로 보는 세상]

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다

    AI 투자 조언의 두 얼굴

    투자 보조 수단으로 급부상한 LLM

    진입장벽 낮춰 투자판 바꾸고 있어

    고위험 투자 조언 시장수익률 상회

    투자성향 따라 수익률-변동성 달라

    질문에 따라 추천 종목 달라지기도

    최종 투자 판단과 책임은 투자자 몫

    동아일보

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    《국내 반도체 기업들의 실적 기대, 정부의 기업 밸류업 프포그램, 중동전쟁 등 지정학적 불안으로 인해 주식시장이 크게 널뛰고 있다. 한 치 앞을 내다보기 힘든 장세에 개미투자자들의 마음이 평안하기란 쉽지 않다. 기관이나 외국인에 비해 정보와 분석력이 약할 수밖에 없는 개인들은 시장의 파도에 민감하게 반응할 수밖에 없다.
    동아일보

    박재혁 KDI 국제정책대학원 교수


    이러한 상황에서 최근 챗GPT, 클로드와 같은 거대언어모델(LLM)의 폭발적인 발전은 주식 투자 지형에도 새로운 바람을 일으키고 있다. 사실 금융은 연구와 산업 현장에서 기계학습과 인공지능(AI) 기술이 가장 먼저 도입되고 활발히 활용돼 온 분야다. 퀀트(Quant·계량분석) 투자로 대변되는 고도의 수리 모델은 이미 시장을 지배해 왔다. 그럼에도 복잡한 통계와 프로그래밍 코드가 들어가 일반 개인투자자에겐 진입 장벽이 너무도 높았다.

    최근의 LLM은 이를 뛰어넘고 있다. 자연어를 이해하고 생성하는 ‘언어예측모델’이라는 완전히 다른, 그러나 접근이 매우 쉬운 방식으로 대중에게 다가오고 있다. “수익률이 좋을 만한 주식 포트폴리오를 짜줘”라고 입력하면 그럴듯한 답변이 쏟아진다. 소셜미디어나 투자 커뮤니티에서는 개인투자자들이 AI 모델의 투자 조언을 받은 뒤 그 결과를 공유하는 모습을 심심치 않게 볼 수 있다.

    그렇다면 LLM의 투자 조언은 과연 내 돈을 맡길 만큼 믿을 만할까? LLM의 주식 투자 조언의 잠재력과 이면의 치명적인 불안정성을 실증 데이터로 분석한 연구를 소개한다.

    첫 번째 연구(연구①)는 LLM이 개인의 위험 감수 성향에 맞춰 포트폴리오를 구성할 수 있는지, 그리고 실제로 시장 수익률을 상회할 수 있는지를 분석했다. 연구진은 챗GPT의 세 가지 모델(GPT-4o, o1, GPT-4)에 미국 S&P500과 유럽 STOXX600지수 구성 종목을 대상으로 고위험과 저위험 성향 투자자를 위한 포트폴리오를 각각 구성해 달라고 요청했다. 추가로 위험도에 관한 언급 없이 기본 포트폴리오 구성도 요청했다. 그 후 약 10개월(2023년 12월∼2024년 9월) 동안의 실제 수익률을 추적했다.

    수익률은 인상적이었다. 가장 최신 모델인 GPT-4o가 구성한 미국의 고위험 포트폴리오는 무려 60.06%의 누적 수익률을 기록하며, 같은 기간 벤치마크인 S&P500지수의 수익률(25.42%)을 압도적으로 상회했다. 반면 저위험 포트폴리오는 18.08%의 수익을 거둬 벤치마크를 밑돌았지만, 그만큼 변동성도 낮았다.

    고위험 포트폴리오들은 시장의 등락에 따라 거칠게 요동치지만, 결과적으로 가장 높은 수익을 달성하며 우상향하는 뚜렷한 궤적을 보였다. 반면 저위험 포트폴리오는 수익률은 다소 낮게 형성된다. 이는 LLM이 기술주나 성장주, 필수소비재나 헬스케어 등 산업별 특성을 정확히 이해하고 투자자의 요구에 맞게 주식을 골라낼 수 있음을 시사한다.

    이러한 화려한 성과 이면에는 명백한 구조적 한계 또한 존재한다. 두 번째 연구(연구②)는 LLM의 추천이 지닌 일관성 문제, 즉 결과의 변동성을 살펴봤다. 주식 추천이 신뢰를 얻으려면 같은 조건에서 동일한 질문을 던졌을 때 비슷한 종목을 골라내야 한다. 연구진은 챗GPT와 클로드에게 ‘가치 투자’, ‘성장 투자’ 등 10가지 투자 성향을 제시한 뒤, 똑같은 질문을 100번씩 반복해 추천 종목이 얼마나 일치하는지 분석했다.

    분석 결과는 다소 충격적이었다. 챗GPT에 ‘가치 투자’라는 성향을 부여한 뒤 추천된 100개의 포트폴리오 간 평균 일치율은 29.3%에 그쳤다. 클로드 역시 51.1%로 절반을 간신히 넘겼다. 심지어 같은 의도를 가진 질문의 단어만 살짝 바꿔도 결과는 크게 요동쳤다.

    필자 역시 호기심이 발동해 평소 자주 쓰는 AI 서비스 두 곳에 “지금 당장 투자하기 좋은 종목을 고르고, 현재 가격과 미래의 예상 가격을 적어 달라”고 요청해 봤다. 첫 번째 AI가 골라준 종목들의 현재가는 터무니없이 낮았다. ‘할루시네이션(Hallucination·환각 현상)’이 발생한 것이다. 다른 AI는 현재가를 정확하게 짚어냈으나 그 AI가 제시한 미래의 예상 가격이 과연 맞을지는 의구심이 들었다.

    AI 시대의 주식 투자도 본질은 변하지 않는다. LLM은 방대한 시장 뉴스를 요약하고, 기업의 재무제표를 빠르게 분석하며, 수많은 종목을 내 취향에 맞게 필터링해 준다. 리서치 보조원으로서는 더할 나위 없이 훌륭한 도구다. 그러나 그 추천의 논리적 근거를 의심하고, 최종적인 투자 버튼을 누르는 판단의 주체는 언제나 투자자 자신이어야 한다.

    연구① Schneider, Constantin J., and Yahya Yilmaz. “Stock portfolio selection based on risk appetite: Evidence from ChatGPT.” Finance Research Letters 82 (2025): 107517.

    연구② Chon, Sora, Jaehoon Kim, and Jaeho Kim. “Multifaceted variability in LLM-driven stock recommendations.” Finance Research Letters (2025): 108923.


    박재혁 KDI 국제정책대학원 교수

    Copyright Ⓒ 동아일보. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.