카카오 채널

AI 탐지 도구 여전히 불완전·부정확

김성은 2023-08-02 00:00:00

”AI 탐지 도구의 인기가 치솟고 있지만 얼마나 효율적일까?. 디지털프라미스
”AI 탐지 도구의 인기가 치솟고 있지만 얼마나 효율적일까?. 디지털프라미스

여러 AI 탐지 도구가 텍스트가 AI에 의해 생성되었는지 아니면 사람이 작성했는지를 식별하는 데 효과적이라는 주장이 있다. 턴잇인, 제로GPT, Quill 및 AI 텍스트클래시파이어는 AI 탐지 도구로 인기가 높아지고 있다.

에디나 공립학교 디지털 학습 코디네이터 매튜 플루검은 ”AI 탐지 도구의 인기가 치솟고 있지만 얼마나 효율적일까?“ 의문을 제기했다.

위노나 주립대학교 교수진은 AI가 생성한 자료를 식별하는 턴잇인 기능의 효율성을 확인하기 위해 박사 과정의 학생들에게 챗GPT 또는 구글의 Bard 또는 마이크로소프트의 Bing AI와 같은 AI로 완전히 생성된 과제 한두 개를 제출하도록 요청했다. 대부분 학생이 챗GPT를 사용한 것으로 나타났다. AI가 완전히 생성한 과제 28개 중 24개는 100% AI가 생성한 것으로 확인되었다. 나머지 4개는 AI 활용도가 0~65%였다. 논문의 분량은 411단어에서 1368단어까지 다양했다.

턴잇인은 유사도 점수를 통해 0~49% 범위의 표절 가능성을 감지했다. AI가 생성한 평균 논문은 현존하는 다른 자료와 13.75% 유사한 것으로 나타났다.

대조군으로 같은 학급의 다른 학생 17명의 논문도 턴잇인에 제출했다. 731단어에서 3,183단어에 이르는 이 논문들 중 AI가 도출한 점수는 0~28% 범위였다. 10개의 논문은 AI 콘텐츠가 전혀 없었고, 4개의 논문은 AI 파생 자료의 비율이 한 자릿수에 불과했다.

AI로 산출된 가장 높은 점수는 영어가 모국어가 아닌 학생에게서 나왔다. 턴잇인 사이트에 따르면 현재 이 도구는 영어로 제출된 논문에서만 AI 생성 여부를 감지한다.

200단어에서 399단어 사이의 챗GPT에서 추출한 텍스트 중 10개를 선택하면 Quill 도구는 이러한 제한된 산문 선택에 대해 정확한 예측을 제공하는 것으로 보인다. 퀼닷오알지
200단어에서 399단어 사이의 챗GPT에서 추출한 텍스트 중 10개를 선택하면 Quill 도구는 이러한 제한된 산문 선택에 대해 정확한 예측을 제공하는 것으로 보인다. 퀼닷오알지

Quill.org는 AI 글쓰기 검사 도구도 제공한다. 이 도구의 한계 중 하나는 400단어 이하만 검사할 수 있다는 점이다. Quill 자체는 80~90%의 정확도를 제공하며 챗GPT의 개발사인 오픈AI가 개발한 AI 감지 알고리즘을 기반으로 한다. 200단어에서 399단어 사이의 챗GPT에서 추출한 텍스트 중 10개를 선택하면 Quill 도구는 이러한 제한된 산문 선택에 대해 정확한 예측을 제공하는 것으로 보인다.

그 결과 모두 AI에서 파생된 것으로 확인되었다. 하지만 구글의 바드가 생성한 388단어 문서를 검사한 결과, 사람이 작성한 것으로 예측했다. 98%의 정확도를 제공하는 제로GPT는 바드가 생성한 587단어 버전의 전체 문서를 가지고 동일한 완전 AI 생성 문서의 45.82% 수준의 텍스트를 식별했다.

턴잇인 100% AI 생성 문서로 감지한 문서 중 하나를 제로GPT는 97.79% AI 생성 문서로 도출했다. 제로GPT는 문서 요약을 반환해 AI 생성으로 반환한 섹션을 강조 표시했다.

이 테스트는 생성형 AI 도구로 작성된 텍스트를 식별하는 것이 얼마나 어려운지, 그리고 교수자가 그 한계를 이해하고 작문 과정에서 AI의 적절한 사용에 대해 학생들과 소통해야 할 필요성을 보여준다.

도전 과제와 한계

이 실험은 AI 도구로 생성된 텍스트를 식별하는 데 내재된 복잡성을 강조합니다. 또한 교수진이 이러한 도구의 한계를 이해하고 학생들과 함께 글쓰기에서 AI의 적절한 사용에 대해 논의하는 것이 중요하다는 점을 강조한다.

특히 우려되는 것은 AI가 부정확하거나 존재하지 않는 사실과 참조를 생성하는 'AI 환각'이라는 현상이다. 게리 리버먼은 2023년 6월 초 그랜드 캐년의 교육 연구 혁신 센터의 후원으로 챗GPT를 검토한 결과 72%가 존재하지 않거나 부정확한 참조를 생성했다고 발표했다. 리버먼에 따르면 나머지 참고 문헌은 정보를 찾을 수 있는 정부 웹사이트를 가리키고 있었지만 올바른 URL 인용이 첨부되어 있지 않았다.

고등학생 학부모/보호자의 78%가 학교업무에 생성AI를 사용하면 안된다고 동의했다. 턴잇인
고등학생 학부모/보호자의 78%가 학교업무에 생성AI를 사용하면 안된다고 동의했다. 턴잇인

대학 사서들은 학생들이 실제 저자와 실제 제목이 있는 출처가 포함된 AI 생성 참고 목록을 찾고 있지만 저자와 제목이 서로 관련이 없는 경우가 있다고 보고했다. 다른 발표자들도 AI가 생성한 자료가 부정확한 정보를 제공하는 경향이 있다고 경고했다. 그러나 데이터 소사이어티의 프로그램 디렉터인 찰리 존슨은 환각이라는 용어가 문제가 있다고 생각한다.

명확한 커뮤니케이션의 필요성

턴잇인과 퀼봇 등 AI 탐지 서비스는 AI가 생성한 텍스트를 100% 정확하게 분류하는 것은 불가능하다고 강조한다. 이들은 명확한 기대치, AI 탐지 결과가 부정확하거나 불완전할 수 있다는 인식, AI 생성이 의심되는 경우 학생과의 대화가 중요하다고 강조했다.

AI가 콘텐츠 제작에 중요한 역할을 하는 새로운 시대로 접어들고 있는 지금, 이번 테스트 결과는 AI 탐지 도구의 잠재력과 과제를 모두 보여준다. 완벽한 시스템은 없으며, 다양한 플랫폼에서 나온 다양한 결과는 문제의 복잡성을 보여준다.

Copyright ⓒ 아이이뉴스 무단 전재 및 재배포 금지

에듀테크 뉴스