컨텐츠 바로가기

09.08 (일)

치킨, 배달이 시작됐을 때 vs 먹을 때…'도파민'의 비밀 [딥THINKING]

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[편집자주] 챗GPT로 대표되는 인공지능 시대가 도래하고 있습니다. 이제 많이 아는 것보다 사고의 깊이가 더 중요해졌습니다. AI시대의 Deep thinking(깊이 생각하기)을 고민해봅니다.

머니투데이

/사진=게티이미지뱅크

<이미지를 클릭하시면 크게 보실 수 있습니다>


'도파민'이 화제다. 신경전달물질인 도파민은 행복과 쾌감을 느끼게 하는 물질로 우리의 보상체계에 막대한 영향을 미친다.

그런데 도파민은 실제 보상을 받는 것보다 보상을 기대하는(predict) 정도에 따른 영향이 크다. 여기서 발생하는 게 '보상예측오류'(Reward Prediction Error·RPE)다. 예상치 못했던 보상이나 기대보다 큰 보상을 받으면 도파민이 활발하게 생성되지만, 기대했던 보상이 없거나 예상보다 보상이 적으면 도파민 생성은 평상시보다 낮아진다. 이처럼 도파민의 작동 체계는 난해하다.


볼프람 슐츠의 원숭이 실험과 보상예측오류

머니투데이

볼프람 슐츠의 보상 실험/그래픽=김지영

<이미지를 클릭하시면 크게 보실 수 있습니다>


도파민에 대한 세계적인 권위자는 볼프람 슐츠(Wolfram Schultz) 영국 케임브리지대 신경과학과 교수다. 1990년대 슐츠 교수는 마카크 원숭이의 뇌에 전극을 넣어 실험을 진행하면서 원숭이에게 주스로 보상을 주면 기저핵에서 도파민을 분비하는 도파민 뉴런의 활동이 증가하는 것을 알아냈다.

인간은 뇌의 한가운데에 있는 중뇌(Mid brain)에는 약 100만개의 도파민 뉴런이 있으며, 원숭이는 약 20만개의 도파민 뉴런이 있다.

슐츠 교수는 원숭이 실험을 통해서 도파민 뉴런의 반응에 대해서 새로운 사실을 알아냈다. 즉, 보상이 예측되면 보상 자체에 대한 반응이 사라진다는 사실이다(그림에서 ②예측되고 보상도 발생했을 때). 하지만 예측한 보상보다 더 많은 보상이 발생하면 도파민 뉴런은 더 강한 반응을 보였다(①예측없이 보상이 발생했을 때).

반대로 보상이 없거나 예상보다 작으면 도파민 뉴런의 활동은 감소했다(③예측됐으나 보상이 없을 때).

이 같은 실험을 통해 슐츠 교수는 도파민 반응이 '획득한 보상과 기대한 보상의 차이'로 설명할 수 있는 '보상예측오류'를 나타낸다는 사실을 발견했다. 예상보다 많은 보상을 받을 때(①)는 긍정적인 도파민 반응(흥분, 활성화)을 유도했지만, 예상한 만큼의 보상(②)에는 반응이 없었다. 또 예상보다 작은 보상(③)은 부정적인 반응(활동의 위축)으로 이어진 것이다.

원숭이뿐 아니라 인간과 설치류(쥐)에서도 똑같은 현상이 발견됐다. 즉 도파민 뉴런은 단지 기존의 보상에 반응하는 것이 아니라 '예측과 다른 보상'에만 반응하는 것이다.

머니투데이

볼프람 슐츠 교수/사진=영국 케임브리지대 홈페이지

<이미지를 클릭하시면 크게 보실 수 있습니다>


이런 메커니즘은 분명히 진화에 의해 만들어진 것으로, 슐츠 교수는 우리가 항상 더 많은 보상을 원하고 현재 가진 것에 만족하지 못하는 이유를 설명한다고 말했다.

도파민 활성화는 예측보다 더 많은 보상을 받을 때 발생하는데, 문제는 우리가 받는 보상이 자동적으로 예측치를 업데이트한다는 데 있다. 즉 이전에 받은, 예측보다 많았던 보상이 새로운 표준이 되기 때문에 다음 번에는 똑같은 보상을 받아도 예측오류가 적게 일어나거나 아예 일어나지 않는다.

결국 똑같은 예측오류(도파민 자극)를 얻기 위해서는 매번 더 많은 보상을 받아야 한다. 슐츠 교수는 이런 도파민 시스템을 '작은 악마'(little devil)라고 말했다. 우리가 새 차를 사고 싶어하는 이유도 이웃이 새 차를 사서만이 아니라 우리가 현재의 차에 익숙해졌기 때문이라는 설명이다.

또 도파민이 절대값이 아니라 상대값에 비례한다는 것도 재밌는 현상이다.

이 사실을 잘 보여준 것 역시 볼프람 슐츠 교수가 한 실험이다. 슐츠 교수는 원숭이들에게 상황에 따라 보상 2단위 또는 20단위를 기대하도록 훈련시켰다. 이때 만약 각 상황에서 예상 밖으로 4단위 또는 40단위의 보상이 주어지면 원숭이들의 도파민 분비는 똑같은 정도로 급등했다. 반대로 1단위 또는 10단위의 보상이 주어지면 도파민 분비는 똑 같은 정도로 감소했다. 2가지 상황의 보상은 10배 차이가 나지만, 중요한 건 놀라움의 절대 크기가 아니라 상대 크기였던 것이다.


도파민에 대한 3가지 그래프

머니투데이

도파민 분비 그래프/그래픽=윤선정

<이미지를 클릭하시면 크게 보실 수 있습니다>


신경생리학계의 거장인 로버트 새폴스키 미국 스탠포드대 교수는 책 '행동'(Behave)에서 3가지 그래프를 이용해서 도파민을 설명했다.

원숭이 실험을 보자. 원숭이의 방에 불이 켜지면 그건 보상 시험이 시작된다는 신호다. 원숭이는 레버를 10번 누르고 건포도를 받는다. 여기서 중요한 건 원숭이가 레버를 누리기 전에 실험 시작을 알리는 불이 켜지면(신호를 받으면) 그래프①에서 볼 수 있는 것처럼 도파민이 잔뜩 분비된다는 것이다.

다시 말해서 보상이 수반된다는 사실이 학습된 상태라면 도파민은 보상에 관여하기보다는 보상에의 기대에 관여한다. 그래프①에서 신호를 보자마자 도파민 분비가 늘어나기 시작했으며, 막상 일을 끝내고 보상을 받을 때는 도파민 분비가 신호를 봤을 때보다 적었다. 즉 쾌락은 보상에 대한 기대에서 오는 것이고 보상 그 자체는 거의 되새김에 가깝다.

새폴스키 교수는 일단 우리가 식욕이 충족되리라는 걸 알면 쾌락은 포만보다 식욕에서 온다고 했다. 금요일 저녁 퇴근하면서 치킨을 주문할 생각만 해도 행복해지는 것도 같은 이유인 것 같다.

그래프②도 특이하다. 원래 원숭이 실험의 규칙은 불이 켜지면 레버를 누르고, 그렇게 하면 보상이 나오는 것이다. 그런데 상황을 바꿔봤다. 불이 켜지고 레버를 누르면 보상이 나오긴 하는데 50%의 확률로 나오는 것이다.

재밌는 사실은 새로운 상황을 학습한 원숭이는 도파민이 이전보다 더 많이 분비됐다. '어쩌면 나올지도 몰라'라는 간헐적 강화가 도파민 분비를 부추겼기 때문이다.

100% 보상이 나왔던 예측 가능한 과거에는 일단 레버를 누르고 나면(일 시작) 도파민 농도가 낮은 채로 유지되다가 보상을 받고 나서야 조금 높아졌다. 하지만 50% 시나리오에서는 레버를 누른 뒤에 도파민 농도가 계속 높아졌다. '어쩌면 나오고 어쩌면 아닐 거야'라는 불확실성으로 인해 도파민 분비가 증가한 것이다.

상황을 더 복잡하게 만들기 위해서 보상이 나오는 확률을 25% 또는 75%로 조정해 봤지만, 이때는 도파민 분비량이 모두 50% 확률일 때보다 적었다. 기대감으로 인한 도파민 분비는 보상이 나올 불확실성이 최대일 때(즉 50%) 극대화되는 것이다.

이처럼 도파민은 보상 그 자체보다 보상에 대한 기대와 연관된다. 그래프③은 도파민이 어떤 방식으로 '만족지연'(delayed gratification)을 돕는지 보여준다. 여기서 도파민 분비 곡선의 기울기는 지연의 길이, 기대되는 보상의 크기에 대한 함수다. 수식을 이용한 설명은 복잡하니 여기서는 생략하지만, 보상을 받기 위해 기다리는 시간(지연의 길이)이 많아지면, 가치는 더 많이 줄어든다. 우리가 기다림을 좋아하지 않기 때문에 시간 할인이 발생하는 것이다.

시간 선호(Time preference)란 현재의 소비를 미래의 소비보다 선호하는 것을 말하는데, 시간 선호도가 높은 것과 시간 할인율이 높은 건 같은 의미다. 시간 할인율에는 도파민과 이마엽(전두엽) 겉질이 관여한다. 이마엽 겉질은 정서조절, 충동통제, 작업 기억 등의 핵심이다.

새폴스키 교수는 사실 만족지연 능력이 사람마다 다른 것도 사람마다 도파민 시스템, 이마엽 겉질, 편도체가 보상의 크기, 지연, 확률의 여러 측면에 영향을 미치는 정도가 다르기 때문(시간 할인율이 다르기 때문)이라고 설명했다.

마지막으로 새폴스키 교수는 도파민은 보상 기대감에만 관여하는 것이 이나라 그 보상을 얻기 위해 해야 하는 목표 지향적 행동을 추진하기도 한다고 말했다. 즉, 도파민은 우리가 보상에서 느끼는 행복에 관여하는 것이 아니라 보상을 얻을 확률이 괜찮아 보일 때 그 보상을 추구함으로써 느끼는 행복에 관여한다는 것이다. 이는 그래프③에서 일을 시작함과 동시에 도파민 분비가 증가하기 시작하는 것으로 표현되고 있다.

김재현 전문위원 zorba00@mt.co.kr

ⓒ 머니투데이 & mt.co.kr, 무단 전재 및 재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.