카카오 채널

[기획-미래교육] AI가 과제 평가한다면 교사 평가와 비슷할까?

김성은 2023-08-04 00:00:00

채점 로봇 얼마나 실효성 있을까?
교사와 AI의 비교 : 중학생 작문 과제 평가 및 피드백
믾은 교사가 과제를 채점하고 피드백을 제공하는 데 시간이 많이 소요돼 긴 글의 작문 과제를 내주지 못한다. 디지털프라미스 
믾은 교사가 과제를 채점하고 피드백을 제공하는 데 시간이 많이 소요돼 긴 글의 작문 과제를 내주지 못한다. 디지털프라미스 

전반적으로 AI 활용이 확장되는 추세에 따라 교육 분야에서도 AI가 교사의 역할을 얼마나 대체할 수 있을지 관심이 쏠린다. 그중 하나가 과제 및 시험을 채점하고 피드백을 제공하는 역할이다.

전 중학교 국어교사이자 글로벌 비영리 교육단체 디지털프라미스의 교육연구원 힐러리 그린 놀런은 믾은 교사가 과제를 채점하고 피드백을 제공하는 데 시간이 많이 소요돼 긴 글의 작문 과제를 내주지 못한다고 지적했다. 한 반에 스무 명이 넘는 아이들의 글을 일일이 읽고 세세하게 피드백을 제공하기란 쉽지 않다.

AI가 학생 과제 채점을 돕는다면 상당한 시간 절약과 학습 잠재력이 있을 것으로 기대를 모았다. 정말 AI 채점 및 피드백 시스템이 교사만큼 학생들에게 도움이 될 수 있을까? AI가 한 과제 평가, 교사 평가와 비슷할까?

이에 대해 한 교사는 “AI는 의도한 메시지를 이해하려고 노력하기보다는 이미 있는 내용을 수정하는 등 글쓰기 과정과 형식을 수정하려고 한다”고 AI의 한계를 지적했다.

과제 채점에서 AI와 교사 비교하기

최근 디지털프라미스는 중학생들이 미리 설정된 글쓰기 프롬프트에 따라 논증 에세이의 초안을 작성하고 제출하고 수정할 수 있는 AI 통합 플랫폼에 대한 평가를 했다. 학생들이 ‘제출’을 클릭할 때마다 4가지 작문 영역(주장 및 초점, 지원 및 증거, 조직, 언어 및 스타일)에 대한 숙련도 기반 점수(1~4점)과 개선할 점에 대한 의견을 AI로부터 즉시 받았다.

AI가 준 점수와 피드백을 실제 교사의 점수와 비교하기 위해 2021-2022학년도 학생들과 함께 플랫폼을 사용한 경험이 있는 중학교 작문 교사 16명을 직접 소집했다. 점수와 제안을 확실하게 이해하고 적용할 수 있도록 프로젝트를 함께 조정한 후, 각 교사에게 10개의 무작위 에세이를 채점하고 피드백을 줄 것을 요청했다. 교사가 평가한 에세이 총 160개가 모였고 동일한 에세이에 대해 AI가 준 점수 및 피드백과 직접 비교했다.

교사의 점수는 AI가 준 점수와

어떻게 비슷하거나 달랐나?

AI 대 교사: 점수 및 피드백

평균적으로 교사는 AI보다 에세이 점수를 낮게 매겼으며, 주장 및 집중력을 제외한 모든 영역에서 유의미한 차이가 있었다. 160개 에세이에 대한 교사의 평균 점수는 7.6점이었고, AI의 평균 점수는 8.8점이었다.

논증적 글쓰기의 네 가지 차원에 대한 교사 대 AI 점수. 디지털프라미스 
논증적 글쓰기의 네 가지 차원에 대한 교사 대 AI 점수. 디지털프라미스 

특정 영역별로 살펴보면, 주장 및 초점, 지원 및 증거에서는 교사와 AI가 높은 점수(4점)와 낮은 점수(1점)의 에세이에 대해서는 일치하는 경향이 있었지만, 중간 점수 에세이에서는 의견이 일치하지 않았다. 교사는 2점, AI는 3점을 더 많이 매겼다.

반면 조직 및 언어 및 스타일에서는 교사가 1점 또는 2점을 매기는 경우가 훨씬 많았고, AI는 1~4점에 걸쳐 분포했으며 3점 또는 심지어 4점을 매기는 경우도 많았다.

교사가 작성한 코멘트는 AI가 작성한 코멘트와 어떻게 비슷하거나 달랐나?

교사가 학생의 발달 수준과 필요에 맞는 언어로 의견을 전달하는 데 우위를 보였다.

대부분 학생들이 AI가 제공한 코멘트를 읽었지만, 글쓰기를 개선하기 위해 무엇을 하라는지 잘 모르겠다고 보고했다.

교사들은 아이들에게는 좀더 직접적이고 솔직한 피드백을 줘야 한다는 데 의견을 모았다. 자존감을 헤아려주기보다 요점을 직설적으로 말해 문제를 해결할 필요가 있다는 것이다.

"과제에 대한 AI의 코멘트는 정확히 어떻게 개선해야 할지,

어떤 의미인지 모르겠다는 반응이 많았다.

아이들의 눈높이에 맞는 직접적이고 솔직한 피드백이 제공되어야 한다는

의견이 나왔다"

-디지털프라미스 교육연구원 힐러리 그린 놀런

또 다른 차이점은 교사들은 에세이의 흐름, 어조, 전체적인 일관성 등 에세이를 전반적으로 살펴보았다는 것이다. 반면, AI는 에세이 전체가 아닌 문장 단위로 학습되는 특성상 전반적인 코멘트를 주지 못했다. 에세이 순서와 흐름을 파악하는 능력 또한 교사가 훨씬 우수했다.

AI의 한계로 지목된 또 다른 점은 겉보기에 정교해보이는 어휘를 나열하는 글쓰기였다. 이는 AI에게는 인상적으로 보일 수 있지만, 교사에게는 문장이나 아이디어를 구성하지 못하며, 핵심 주제가 없는 일련의 단어로 느껴졌다.

AI가 교사의 채점을 도울 수 있나?

디지털프라미스
디지털프라미스

학생의 과제를 평가하는 것은 교육에서 매우 중요하고 시간이 많이 소요되는 부분이다. 디지털프라미스의 선임 연구원 마이 초우 방은 “AI가 이러한 부담을 일부 덜어줄 수 있는 잠재력은 상당하다”며 “예비 조사 결과 교사와 AI 간의 평가 접근 방식에 몇 가지 차이가 있는 것으로 나타났지만, 에세이를 보다 총체적으로 평가하고 발달에 적합한 언어로 피드백을 제공하도록 AI 시스템을 훈련하는 등 적절한 조정을 거치면 AI가 교사의 채점을 지원할 수 있는 진정한 잠재력이 있다”고 말했다.

"피드백 시간 없어 간단한 과제만 내는 것이 현실"

대부분 교사가 채점하고 코멘트를 줄 시간이 부족한 탓에 긴 작문 과제는 내주지 못하는 것이 현실이다. 매번 짤막한 글을 써내고 제대로 평가받지 못한다면, 아이들의 작문 실력은 늘기 힘들다.

결국 AI를 개선해 교사의 채점 부담을 줄이고 한편으로는 학생들에게 글을 쓸 기회를 더 자주 주고 유용한 피드백을 즉각적으로 받도록 하는 것이 더 긍정적이라는 주장이 힘을 얻고 있다.

Copyright ⓒ 아이이뉴스 무단 전재 및 재배포 금지

에듀테크 뉴스