컨텐츠 바로가기

06.30 (일)

"AI 답안, 대학 학부 시험서 적발 안되고 점수 사람보다 높아"

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
SBS

<이미지를 클릭하시면 크게 보실 수 있습니다>



SBS

<이미지를 클릭하시면 크게 보실 수 있습니다>


▲ 5개 시험(P1-M1, P1-M2, P2-M1, P2-M2, P3-M1)의 실제 학생(주황색)과 AI(파란색)의 성적 및 전체 평균(ALL). 녹색 점선은 A등급 선이며 빨간색 점선은 B등급, 검은색 점선은 C등급 선.

영국의 한 유명 대학에서 실시된 실험에서 생성형 인공지능(AI) 챗GPT-4가 작성한 답안의 94%가 숙련된 채점자들에게 적발되지 않았고 83%는 실제 학생의 답안보다 더 높은 점수를 받은 것으로 나타났습니다.

영국 레딩대 심리·임상언어과학대학 피터 스카프 교수팀은 27일 과학 저널 플로스 ONE(PLoS ONE)에서 이 대학 실제 학부 시험에 AI 작성 답안을 제출하는 엄격한 블라인드 방식 실험에서 이런 결과를 얻었다고 밝혔습니다.

연구팀은 이 연구는 지금까지 인간 교육자가 AI 생성 콘텐츠를 구별할 수 있는지 알아보는 실험 중 가장 크고 강력한 블라인드 실험이라며 이 결과는 AI가 대학 시험에서도 컴퓨터(인공지능)와 인간을 구별해내는 튜링 테스트(Turing Test)를 통과했음을 보여준다고 말했습니다.

최근 수년간 챗GPT 같은 AI 도구가 발전하면서 AI를 이용한 과제나 시험 부정행위 우려가 커지고 있으나 AI 생성 텍스트를 감지하는 도구는 지금까지 그다지 성공적이지 못한 것으로 드러나고 있다고 연구팀은 지적했습니다.

연구팀은 이 연구에서 심리학 학사 학위 취득을 위한 5개 학부 시험(단답형 3개, 에세이 2개)에 100% 챗GPT-4가 작성한 답안을 가짜 학생 33명의 이름으로 제출했습니다.

채점자들은 이 연구에 대해 모르는 상태에서 실험이 진행됐습니다.

SBS

시험에서 AI 점수 중간값보다 높은 점수를 받은 학생 비율

<이미지를 클릭하시면 크게 보실 수 있습니다>


그 결과 AI가 작성한 답안의 94%가 채점자들에게 적발되지 않았고, 평균적으로 실제 학생의 답안보다 더 높은 점수를 받은 것으로 나타났습니다.

AI가 작성한 답안과 실제 학생 답안을 무작위로 선택해 비교할 경우 AI 답안이 점수가 높을 확률이 83.4%에 달했습니다.

또 실제 학생이 AI 점수 중간값보다 높은 점수를 받는 비율은 4개 시험에서 4.35~17.63%에 불과했고, 에세이 시험 중 1개에서만 실제 학생 57.14%의 점수가 AI 점수 중간값을 넘었습니다.

연구팀은 이 결과는 학생들이 부정행위에 AI를 사용할 수 있고 이들이 다른 학생보다 더 좋은 성적을 받을 가능성을 시사한다며 연구 과정에서 실제 학생 중 상당수가 AI 생성 제출물을 통해 부정행위를 했을 가능성도 고려하고 있다고 말했습니다.

이어 이 결과는 AI가 교육 평가에 어떤 영향을 미칠 수 있는지 보여주는 것으로 매우 우려스럽다며 전 세계 교육 부문이 AI 발달에 대응해 새로운 정책과 지침을 만들어 문제 해결을 위해 더 많은 노력을 기울여야 한다고 강조했습니다.

(사진=Scarfe et al./ 2024, PLOS ONE 제공, 연합뉴스)

유영규 기자 sbsnewmedia@sbs.co.kr

▶ 네이버에서 SBS뉴스를 구독해주세요!
▶ 가장 확실한 SBS 제보 [클릭!]
* 제보하기: sbs8news@sbs.co.kr / 02-2113-6000 / 카카오톡 @SBS제보

Copyright ⓒ SBS. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.