AI 작성 답안 94%, 채점자 적발 못해

생성형 인공지능(AI)이 작성한 답안의 94%가 채점자들에게 적발되지 않았고, 83%는 실제 학생의 답안보다 더 높은 점수를 받았다는 연구 결과가 나왔다.

27일 과학 저널 ‘플로스 원'(PLoS ONE)에 게재된 연구에 따르면, 영국 레딩대 심리·임상언어과학대학 피터 스카프 교수 연구팀은 대학 학부 시험에서 실험한 결과 이같이 나타났다고 밝혔다.

연구팀은 레딩대 심리학 학사 학위 취득을 위한 5개의 시험(단답형 3개, 에세이 2개)에 100% 챗GPT-4가 작성한 답안을 가짜 학생 33명의 이름으로 위장해 제출했다. 채점자들은 연구에 대해 전혀 모르는 상태였다.

그 결과 챗GPT-4가 작성한 답안의 94%가 채점자들에게 적발되지 않았으며, 성적 또한 실제 학생보다 평균적으로 더 높은 것으로 나타났다.

또 AI가 작성한 답안과 실제 학생의 답안을 무작위로 선택해 비교할 때, AI가 작성한 답안이 더 높은 성적을 거둘 확률이 83.4%였다.

실제 학생이 AI 작성 답안의 점수 중간값보다 높은 점수를 받는 비율은 4개 시험에서 4.35~17.63%에 불과했다. 에세이 시험 1개에서만 실제 학생 57.14% 점수가 AI 점수의 중간값을 넘었다.

AI 작성 답안의 점수는 실제 학생의 점수와 비교했을 때 가장 높은 등급을 얻는 경향이 있었고, 특히 성적 분포가 넓게 분산되기보단 높은 등급에 밀집되는 모습이 나타났다.

연구팀은 “이 연구는 지금까지 인간 교육자가 AI 생성 콘텐츠를 구별할 수 있는지 알아보는 실험 중 가장 크고 강력한 블라인드 실험”이라며 “이 결과는 AI가 대학 시험에서도 컴퓨터와 인간을 구별해 내는 튜링 테스트를 통과했음을 보여준다”고 말했다.

다만 연구팀은 “학생들이 부정행위에 AI를 악용할 수 있다는 것을 보여준다”며 “AI가 교육 평가에 어떤 영향을 미칠 수 있는지 보여주는 것으로 매우 우려된다”고 했다.

이어 “전 세계 교육 부문이 AI 발달에 대응해 새로운 정책과 지침을 만들어 문제 해결을 위해 노력해야 한다”고 덧붙였다.

"챗 GPT로 쓴 답안, 안 들켰다…점수도 더 높아"