카카오 채널

[기획-미래교육] 조지아공대, 챗GPT 오류에 이중 챗봇 시스템으로 대응

김성은 2023-06-28 00:00:00

챗봇의 사실 오류를 겨냥한 조지아 공대의 혁신적인 AI 실험
인터넷에서 가져온 정보로 학습하고 현실에 엄격하게 맞추기보다는 예측 가능한 패턴을 기반으로 답을 생성하는 챗GPT와 같은 대규모 언어 모델은 사실을 지어내는, 즉 환각을 보이는 경향이 있다. 조지아공과대학
인터넷에서 가져온 정보로 학습하고 현실에 엄격하게 맞추기보다는 예측 가능한 패턴을 기반으로 답을 생성하는 챗GPT와 같은 대규모 언어 모델은 사실을 지어내는, 즉 환각을 보이는 경향이 있다. 조지아공과대학

조지아공과대학이 '환각'이라고 불리는 인공지능(AI)의 거짓말 하는 현상을 완화하기 위한 접근 방식을 테스트하고 있다.

챗GPT와 같은 AI 소프트웨어가 수업의 보조교사 역할을 할 수 있을 것이라는 기대를 모으고 있다. 하지만 이에 대한 우려의 목소리도 크다. AI가 정보를 조작하는 경향이 있는 탓에 대학에서는 수업 내용이나 과제 마감일에 대해 거짓말을 하는 AI 조교를 고용하지 않을 것이라는 주장이다.

인터넷에서 가져온 정보로 학습하고 현실에 엄격하게 맞추기보다는 예측 가능한 패턴을 기반으로 답을 생성하는 챗GPT와 같은 대규모 언어 모델은 사실을 지어내는, 즉 환각을 보이는 경향이 있다.

조지아공대, “챗GPT 거짓말 잡아내겠다” 선포 

조지아공대의 연구 과학자 산딥 카카르는 “챗GPT는 사실에는 신경 쓰지 않고 일련의 단어에서 다음으로 가능성이 높은 단어가 무엇인지에만 신경을 쓴다”라고 설명했다. 그는 이어 “마치 자만심에 가득 찬 사람이 뻔뻔한 얼굴로 거짓말을 하는 것과 같아서 탐지하기 어렵다. 부모에게 잘 보이기 위해 거짓말을 서슴지 않는 아이라고 할 수 있다. '모르겠다'라고 말하는 데 문제가 있다”고 말했다.

교육분야를 포함해 챗GPT를 활용하려는 기업과 연구자들은 예기치 않게 발생할 수 있는 조작을 방지할 방안을 찾고 있다.

“자만심에 가득 차 뻔뻔한 표정으로 세세하게 거짓말을 하는 것 같아서 챗GPT의 환각을 탐지하기 어렵다”

카카르는 “대규모 언어모델에는 환각이 존재한다. 챗GPT를 사용하는 모든 사람이 환각을 막기 위해 노력 중이다”라고 말했다.

학술 및 전문 시험에 대한 GPT 성과.  언어 입력의 통계적 이해와 언어 출력의 통계적 생성은 눈에 띄게 인상적이다. 캘리포니아버클리대학 
학술 및 전문 시험에 대한 GPT 성과.  언어 입력의 통계적 이해와 언어 출력의 통계적 생성은 눈에 띄게 인상적이다. 캘리포니아버클리대학 

조지아공대는 챗GPT의 환각을 파악하고 예방하기 위해 AI 챗봇의 도움을 받기로 했다. 조지아공대는 몇 년 전 자체 AI챗봇 ‘질 왓슨’을 구축해 교수 조교로 사용하고 있었다. 디지털 조교 왓슨은 매우 훌륭해서 학생들이 온라인으로 질문할 때는 인간 조교에게 답변을 받는지 왓슨에게 답변을 받는지 구분하기 힘들 정도다.

질 왓슨의 개발을 주도한 조지아공대 컴퓨터 과학 및 인간 중심 컴퓨팅 교수인 아쇼크 고엘 박사는 특별한 계획을 세웠다. 질 왓슨에게 챗GPT의 일종의 감시자 또는 안전요원 역할을 해달라고 요청한 것이다. 즉, 질 왓슨에게 동료 챗봇 챗GPT의 작업 결과를 학생들에게 보내기 전에 사실 확인을 하게 했다.

고엘 박사는 “질 왓슨은 중개자 역할을 한다”라고 말했다.

[기획-미래교육] 조지아공대, 챗GPT 오류에 이중 챗봇 시스템으로 대응
조지아공대 컴퓨터 과학 및 인간 중심 컴퓨팅 교수인 아쇼크 고엘 박사. 조지아공과대학

강의 동영상과 슬라이드의 텍스트와 교과서 내용을 입력해 사용 중인 강의의 특정 자료에 대해 질 왓슨을 훈련시키는 것이 계획이다. 그러면 질 왓슨은 학생에게 답을 보내기 전에 교과서의 어느 부분을 살펴볼지 챗GPT에 지시하거나, 교과서 자료를 사실의 출처로 사용해 챗GPT가 인터넷에서 도출한 결과를 교차 확인할 수 있다.

카카르는 환각이 대규모 언어 모델의 영구적인 특징일 수 있기 때문에 챗봇을 함께 작동시키는 것이 오류를 줄이는 가장 좋은 방법일 수 있다고 말한다.

AI챗봇 ‘질 왓슨, 챗GPT 오류 잡는 데 사용된다

실험적인 챗봇 모니터링 시스템은 이번 여름에 인지과학 입문, 인간-컴퓨터 상호 작용, 지식 기반 AI 등 세 가지 온라인 강좌에서 활용된다. 이 과정에는 각각 100명에서 370명의 학생이 등록한다. 학생들은 두 가지 방법 중 하나를 통해 실험용 챗봇을 사용해 볼 수 있다.

학생들은 학급의 모든 사람이 답변을 볼 수 있는 공개 토론 게시판을 통해 챗봇에게 질문을 하거나 비공개로 챗봇에게 질문을 할 수 있다. 학생들은 연구진이 비공개 채팅을 포함한 모든 결과를 면밀히 검토해 챗봇을 모니터링하고 개선할 수 있도록 동의했다.

어떻게 진행되고 있나?

카카르는 챗봇이 아직 개발 중이라고 인정했다. 예를 들어, 이번 주에 연구진이 챗봇을 테스트하던 중 책에 대한 아름다운 인용문과 요약이 포함된 답변을 받았다. 하지만 한 가지 문제가 있었다. 챗봇이 그렇게 자신 있게 인용한 책이 존재하지 않는다는 것이다.

하지만 부정확할 수 있는 답변에는 신뢰도가 낮은 경고를 표시하는 시스템이 마련되어 있다.

오픈AI는 내부 적대적 사실성 평가에서 GPT-4가 GPT-3.5보다 40% 높은 점수를 받아 이전 모델보다 환각 증상이 적게 발생한다고 밝혔다. 
오픈AI는 내부 적대적 사실성 평가에서 GPT-4가 GPT-3.5보다 40% 높은 점수를 받아 이전 모델보다 환각 증상이 적게 발생한다고 밝혔다. 

카카르는 지금까지 테스트한 결과 95% 이상 챗봇이 정확한 정보를 제공했다. 학생들은 챗봇에 농담 삼아 저녁 식사를 하자고 제안하는 등 긍정적인 반응을 보이고 있다. 현재 식사 요청에 챗봇은 "그러고 싶지만 밥은 바이트만 먹어요"와 같은 몇 가지 재치 있는 답변 중 하나를 제공하도록 프로그래밍되어 있다.

카카르는 “대학에서 책을 인용하기 위해 가상의 책을 만들어내는 조교를 고용하는 것은 상상하기 어렵다. 학생이 과제 마감일이 언제냐고 묻는데 챗GPT가 날짜를 새로 만들어준다고 상상해보라. 우리는 정확도를 99%에 가깝게 만들고 싶다. 마지막 몇 퍼센트를 위해 싸우고 있다”고 강조했다.

고엘 박사는 현재 진행중인 프로젝트가 성과를 보여 가을에는 생물학, 경제학 등 더 많은 과목의 수업으로 확대되기를 희망한다.

"대학에서 책을 인용하기 위해 가상의 책을 만들어내는

조교를 고용하는 것은 상상하기 어렵다. 학생이 과제 마감일이 언제냐고 묻는데 챗GPT가 날짜를 새로 만들어준다고 상상해보라. 우리는 정확도를 99%에 가깝게 만들고 싶다. 마지막 몇 퍼센트를 위해 싸우고 있다"

-조지아공대의 연구 과학자 산딥 카카르

질 왓슨의 역량이 확대된다면, 교수의 역할에도 변화가 일지 않느냐는 여론에 대해 카카르는 AI는 조교이고 교수의 대변인일 뿐 교수가 될 수 없다고 선을 그었다.

또한 챗봇이 학습하는 모든 자료는 학생들이 교과서, 슬라이드, 강의 동영상 등 다른 형태로 접할 수 있는 자료라고 지적했다.

요즘 학생들은 유튜브에서 무엇이든 스스로 답을 찾을 수 있다. 그러나 학생들에게 동기를 부여하고 최신의 관련성 있는 자료를 제공하기 위해서는 여전히 인간 교수가 필요하다고 강조했다. 그는 “조교가 교수를 대체한 적은 아직까지 없었다. 그런데 어떻게 질 왓슨이 교수를 대체할 수 있을까”라고 말했다.

Copyright ⓒ 아이이뉴스 무단 전재 및 재배포 금지

에듀테크 뉴스