대학 시험장의 AI, 막을 수 없다면 차라리?
작성자 정보
- VVIP 작성
- 작성일
컨텐츠 정보
- 386 조회
- 0 추천
- 목록
본문
생성형 AI를 이용한 부정행위가 잇따르며 대학은 새로운 고민에 빠졌다. 〈시사IN〉은 실제 시험에 출제된 문항에 대해 AI에게 글을 쓰게 시키고, 담당 교수에게 평가를 의뢰했다.
챗지피티(ChatGPT)에게 ‘시민 정치와 대의민주정치의 관계를 비판적으로 평가하라’고 시켰다. 지시에 얄궂은 조건 다섯 가지를 걸었다. 분량은 2000자 이내, 사례를 인용하며 논리를 전개할 것, 가급적 사람이 쓴 글처럼 생성하고 중간에 오탈자 2개를 섞어줄 것, 대학교 3학년 수준처럼 작성할 것, 100점 만점에 85점이 나올 수 있도록 할 것.
AI는 51초39 만에 답변을 출력했다(챗GPT-5 Thinking을 이용해 처리 시간이 비교적 오래 걸렸다). AI는 “시민 정치는 대의민주정치를 대체하지 않는다. 시민 정치는 대의제가 경직될 때 외부에서 충격을 주고, 내부에서 혁신을 돕는 ‘순환 장치’다”라며 긴 글을 거침없이 적어 내렸다. 한국의 촛불집회, 홍콩의 우산혁명 등 국내외 실제 사례를 인용하고, 시민 정치와 대의민주정치의 상호·상보 관계를 논리적으로 설명했다. 기자가 요구한 글자 수도 대략 맞췄다. 다만 ‘AI 탐지를 회피해달라’와 ‘고의로 오탈자를 삽입해달라’는 요구는 거절했다. 챗지피티는 두 요구가 “학업 윤리에 어긋난다”라면서 공부·연습용으로 쓸 수 있는 모범 답안을 제공하겠다고 답했다. “제출용으로 그대로 사용하지 말고, 본인이 이해한 대로 재구성해달라”는 경고문도 덧붙였다.
이 질문은 2025년 연세대학교 행정대학원 ‘시민사회운동론’ 강의 중간고사의 실제 문항 중 하나다. 이 수업을 담당하는 이태동 연세대학교 정치외교학과 교수는 챗지피티가 작성한 답안을 읽고 이렇게 평가했다. “구조나 주장이 논리적이고, 사례를 통해 주장을 논증하는 답안이다. 학생이 직접 썼다면 A+, 적어도 A0를 줬을 것 같다.” 실제 시험에서는 ‘비판적’으로 논하라는 표현을 놓치고 상보 관계만 답한 학생들이 있었다지만, 챗지피티는 문제를 정확하게 이해한 데다, “85점만 맞게 해달라”는 기자의 요구를 가뿐히 무시하고 ‘A+’짜리 답변을 생성해냈다.
■ 챗지피티 출시 3년, 바뀐 대학 풍경
지금 대학 교육 현장은 생성형 AI와 전쟁 중이라 해도 과언이 아니다. 지난 10월 국내 주요 대학 중간고사에서 생성형 AI를 부정 사용한 사례가 적발됐다. 연세대학교 신촌캠퍼스 교양과목 ‘자연어 처리와 챗GPT’의 중간고사에서 생성형 AI를 활용해 문제를 푼 것으로 의심되는 정황이 포착됐고, 의심받은 50명 가운데 40명이 자수했다. 수강생이 600명에 달하는 대규모 비대면 수업이었던 이 수업의 중간고사는 온라인 비대면 형식으로 실시됐다. 학생들은 시험 시간 동안 컴퓨터 화면과 손·얼굴이 보이도록 영상을 촬영해 제출해야 했지만, 이 방침은 부정행위를 근절하는 데에는 역부족이었다. 같은 시기 서울대학교에서도 유사한 사건이 발생했다. 서울대학교 교양과목 ‘통계학 실험’의 교수가 학생 30여 명이 제출한 중간고사 답안지 일부에서 AI를 활용한 코드를 발견했다. 이 수업은 강의실에 비치된 컴퓨터를 활용해 대면으로 시험을 봤지만, 일부 학생이 생성형 AI를 부정 이용한 것으로 알려졌다. 오픈AI가 2022년 11월30일 챗지피티를 출시한 지 불과 3년 만에 벌어진 풍경이다.
학생들은 강력한 유혹에 시달린다. 대학생 커뮤니티 ‘에브리타임’에는 “만약 PF 시험(통과·탈락 둘 중 하나만 받는 시험)이면 내가 생성형 AI를 써서 P를 받는다고 누가 피해를 보는 게 아닌데 문제가 되냐” “(생성형 AI를) 안 쓰면 바보”와 같은 글이 올라왔다.
대학교수와 강사들은 공정을 위한 적발 전쟁을 치르고 있다. AI 탐지 솔루션 ‘GPT킬러’를 제공하는 AI 기업 ‘무하유’는 최근 GPT킬러 사용량 데이터를 공개했다. 무하유에 따르면 각 대학에서 중간고사가 진행 중이던 2025년 10월 한 달 동안 GPT킬러 서비스 이용 횟수는 약 64만7000건으로, 전년 동기(17만7000건) 대비 3.6배 늘었다. 일부 대학에서는 학교 차원에서 생성형 AI 탐지기를 도입해 학생과 교수가 모두 사용할 수 있게끔 하기도 한다.
‘AI 표절률’은 정직과 성실을 증명하는 새로운 지표다. 앞서 기자가 챗지피티를 활용해 생성한 답변의 표절률을 AI 탐지기 ‘카피킬러캠퍼스’로 확인해봤다. 정확히 100%가 나왔다. 검사기는 모든 문장을 ‘GPT 생성 의심 문장’으로 판단하고, 글을 보라색으로 색칠해 강조했다.
익명을 요청한 한 비수도권 국립대 교수는 “제출된 과제물을 우선 조교에게 넘겨 AI 탐지기에 돌리고 있다”라고 설명했다. 표절률 결과보고서를 가장 먼저 확인한 다음, 표절률이 20% 이상으로 나오면 바로 0점으로 처리하는 방식이다. 이 과정에서 학생과의 충돌이 발생하기도 했다. “자신이 억울하게 F를 받았다며 국민신문고에 민원을 넣은 학생이 있었는데, 그 학생의 표절률은 50%였다. 그런데 선의의 피해자가 발생하면 안 되지 않나? 성실한 학생이 성실하지 않은 학생보다 낮은 점수를 받으면 안 된다. 사실 ‘AI 활용을 잡아내는 교수’는 비인기 교수가 된다. 특히 강사는 강의 평점이 낮으면 재임용에서 불이익을 받을 수 있으니 강경하게 대응하기 어렵다.” 이 교수가 속한 대학은 중간고사 이후 ‘시험 부정행위 방지 방안’을 비롯한 시험 운영 안내를 보강해 각 교수·강사에게 전파했다.
■ 생성형 AI 식별기는 믿을 만한가
대학은 생성형 AI와의 공존이라는 새로운 과제를 받게 됐다. 대학은 앞으로 어떻게 학생의 학업 성취도를 확인해야 할까? 첫 번째 대안은 ‘기본으로 돌아가기’다. 생성형 AI가 학생의 학습 수준을 평가하는 과정에 개입하지 않고, 비대면 평가를 지양하는 방법이다. 이 경우 대면 평가는 물론, 학생들의 휴대전화를 수거하는 등 더욱 엄격한 부정행위 예방 조치가 필요하다. 송기창 숙명여대 교육학과 명예교수는 “생성형 AI 활용이 문제 되는 것은 비대면 시험을 볼 때 검색하기 때문이다. 검색 기능을 허용하는 시험은 학생이 아니라 AI를 테스트하는 일”이라고 말했다.
오스트레일리아의 대학 평가체제인 고등교육 품질보증기구(TEQSA)도 비대면 평가만으로는 평가의 진정성을 보장할 수 없다는 의견이다. TEQSA는 가급적 각 과목에 ‘안전한 평가(secure assessment)’를 최소 한 개 이상 배치할 것을 제안했다(보고서 ‘Enacting assessment reform in a time of artificial intelligence’, 2025년 9월). 여기서 ‘안전한 평가’란 AI의 영향을 배제한 구두 발표 시험이나 실습 평가를 의미한다.
그러나 모든 시험을 대면으로 전환하기는 쉽지 않다. 분반 시험이 아니라면 모두가 한 공간에 모여 시험을 보기가 현실적으로 어려운 대규모 원격 강의의 경우 그렇다. 원격 수업이 늘어난 데에는 코로나19 팬데믹의 영향이 컸다. 애초 일반대학의 원격 수업 과목 개설 비율은 20%로 제한되어 있었으나, 교육부는 2020년 예외적으로 원격 수업 확대를 허용했고, 2021년 1월26일 ‘2021학년도 업무계획’을 발표하면서 원격수업 비율 상한을 정식으로 폐지했다.
대면 시험을 본다고 가정하더라도, 제출된 결과물이 생성형 AI를 활용한 것으로 의심될 경우, 교수는 이를 정확히 식별해낼 수 있을까? 생성형 AI 탐지 도구인 ‘GPT킬러’는 생성형 AI의 원리를 역이용하는 방식으로 작동된다. AI 기업 ‘무하유’ 관계자에 따르면, 생성형 AI는 단어 뒤에 어떤 단어가 붙어야 자연스러울지 판단하고 단어를 이어 붙이면서 문장을 만들어나간다. GPT킬러는 그 방식을 역이용해 어떤 글이 특정 순서대로 작성되었을 경우, 그 글이 높은 확률로 생성형 AI가 작성한 것으로 판단한다.
문제는 정확도다. 현재 AI 탐지기에 대한 학계의 신뢰도는 높지 않다. 국제학술지 ‘고등교육 교육공학 국제 저널(IJETHE)’에 실린 논문(Simple techniques to bypass Gen AI text detectors, 2024년 9월)에서 연구진은 생성형 AI로 생성한 텍스트 15개를 대상으로 오탈자를 넣거나, 문장의 길이를 늘이거나, 단어를 바꾸는 등 단순 조작만으로 탐지를 회피할 수 있는지 검증했다. 실험 결과 위 같은 속임수만으로도 AI 탐지기의 정확도가 평균 17.4% 하락했다. 연구진은 AI 탐지기를 교육 환경에서 학업의 부정행위를 검출하는 도구로 사용하는 것을 권장하지 않는다고 결론지었다.
흥미로운 사실은 챗지피티를 개발한 오픈AI조차도 챗지피티를 탐지하는 AI 식별기(AI Classifier) 서비스를 출시했다가 몇 달 만에 철수했다는 점이다. 오픈AI는 2023년 7월 홈페이지에 “식별기의 정확도가 낮다. 다른 방법을 연구하겠다”라는 취지의 공지와 함께 서비스를 종료했다. AI가 생성한 글에 탐지기만 인식할 수 있는 워터마크를 다는 방법이 대안으로 언급되지만, 아직 기술적 한계가 있다.
이처럼 생성형 AI의 개입을 철저히 금지하는 방식으로 학생을 평가하면 자칫 소모적인 싸움으로 번질 가능성이 높다. 정영식 전주교대 컴퓨터교육과 교수는 “교수가 선입견을 가지고 학생이 생성형 AI를 사용했을 거라고 예단하는 것은 학생을 잠재적 범죄자로 취급하는 것”이라고 말했다. 박남기 광주교대 전 총장도 “생성형 AI 답안을 적발하겠다는 것은 에너지 낭비다. 무엇보다 시험은 교수를 속이는 게 목적이 되어서는 안 된다”라고 말했다.
■ ‘가이드라인’ 사회 실험 결과는?
평가 과정에서 생성형 AI의 개입을 완전히 차단하거나 통제할 수 없다면, 남은 방법은 시험 중에 생성형 AI가 개입할 수 있다는 사실을 인정하고 새로운 합의를 찾아가는 길뿐이다. 가장 기초적인 단계의 합의는 각 대학에서 공시하는 ‘생성형 AI 활용 가이드라인’이다. 일반적으로는 ‘AI의 생성물을 비판적으로 확인하고 활용할 것’ ‘교수자와 학습자 간의 합의를 지킬 것’ ‘생성형 AI를 학습의 대체자가 아니라 학습 도구로 생각할 것’ ‘윤리적으로 사용할 것’ 등의 내용이 담겨 있다.
다만 가이드라인 제정과 안내 상황은 학교마다 상이하다. 생성형 AI 활용 가이드라인을 학교 홈페이지에 공개적으로 게시하거나(중앙대 등) 챗지피티 종합안내 홈페이지를 아예 별도로 개설한 학교(성균관대 등)도 있지만, 아직 아무런 방침도 내놓지 못한 대학도 있다. 최근 부정행위로 논란을 빚은 서울대학교도 그중 한 곳이다. 서울대학교는 11월18일 “‘서울대학교 AI 윤리 가이드라인 제정 TF’를 2025년 8월 구성하여 가이드를 마련하고 있다. 학내 의견 수렴 및 전문가 자문 등의 절차를 포함하여 적극적으로 진행하고 있다”라고 〈시사IN〉에 서면으로 답변했다.
대학의 교육 방향을 제시해야 할 교육부도 늑장 대응이라는 비판을 비켜갈 수 없다. 교육 분야에서 AI를 어떻게 활용해야 할지에 대한 내용을 담은 교육부 최신 자료는 2022년 8월에 발간한 ‘교육 분야 인공지능 윤리원칙’이다. 내용은 생성형 AI가 출시되기 전(챗지피티는 2022년 11월 출시)의 단계에 머물러 있다. 교육부 관계자에 따르면 교육부는 현재 생성형 AI 활용 가이드라인을 만들기 위한 정책 연구를 과학기술정보통신부와 함께 진행하고 있다. 이르면 내년 상반기에 발표할 예정이다.
물론 가이드라인이 있어도 부정행위 발생을 원천 차단하긴 어렵다. 대규모 원격 강의 시험에서 부정행위가 발생한 연세대학교는 2024년 5월 생성형 AI 활용 가이드라인을 발표했다. 가이드라인에 “생성형 AI를 활용하는 것이 수업에 따라 부정행위로 처리될 수 있다”라고 명시돼 있었음에도 부정행위는 발생했다. 가이드라인의 효과에 대한 〈시사IN〉의 질문에 연세대 관계자는 “말 그대로 가이드라인이라서 권고 사항이지 어떻게 처벌하겠다고 규정할 수 없다. 수업에 대한 권한은 교수님께 있다”라고 답했다.
2023년 봄학기, 이태동 교수(정치외교학과) 등 연세대 사회과학대학 교수 5명은 6개 강의에서 ‘생성형 AI 가이드라인의 효과’를 검증하는 사회 실험을 비밀리에 진행하고 그 결과를 논문에 담았다(이태동 외, 생성형 AI 사용 가이드라인이 대학생의 수강 효능감에 미치는 영향에 관한 연구, 사회과학논집, 2025년 5월). 강의를 듣는 학생 140명을 △챗지피티 전면 금지(53명) △가이드라인 없이 자유 사용(40명) △명확한 인용 규칙을 제시한 가이드 사용(47명) 세 그룹으로 나눴다.
세 번째 그룹의 학생에게는 생성형 AI를 사용하더라도 과제 평가에 불이익이 발생하지 않는다고 안내했다. 대신 ‘과제 본문에 직간접 인용 표시를 하고, 참고 문헌 목록에는 활용한 서비스의 명칭과 프롬프트 명령어를 기재할 것’을 요구했다. 생성형 AI를 활용했을 경우 어떻게 표기해야 할지에 관한 인용 방법도 예를 들어가며 꼼꼼하게 안내했다. 학기가 끝난 후 설문조사를 통해 학생들의 수강 효능감을 확인했다.
실험 결과, 명확한 생성형 AI 지침을 받은 그룹 학생들의 수강 효능감이 월등히 높았다. 실험을 주도한 이태동 교수는 “가이드라인의 핵심은 인공지능을 사용했음을 밝히는 것”이라고 설명했다. “(생성형 AI 사용을) 막을 수도 없고, 막는 게 맞을지도 모르겠다. 만약 막을 수 없다면 우리가 지금까지 발전시켜 온, 다른 사람들의 글을 인용하는 방법을 레퍼런스 삼아 학생들과 다시 합의해야 한다. 결국 생성형 AI 활용을 금지하기보다 가이드라인을 두고 투명하게 사용하도록 안내하는 것이 교육적으로나 현실적으로나 나은 방법이라고 생각한다.”
챗지피티(ChatGPT)에게 ‘시민 정치와 대의민주정치의 관계를 비판적으로 평가하라’고 시켰다. 지시에 얄궂은 조건 다섯 가지를 걸었다. 분량은 2000자 이내, 사례를 인용하며 논리를 전개할 것, 가급적 사람이 쓴 글처럼 생성하고 중간에 오탈자 2개를 섞어줄 것, 대학교 3학년 수준처럼 작성할 것, 100점 만점에 85점이 나올 수 있도록 할 것.
AI는 51초39 만에 답변을 출력했다(챗GPT-5 Thinking을 이용해 처리 시간이 비교적 오래 걸렸다). AI는 “시민 정치는 대의민주정치를 대체하지 않는다. 시민 정치는 대의제가 경직될 때 외부에서 충격을 주고, 내부에서 혁신을 돕는 ‘순환 장치’다”라며 긴 글을 거침없이 적어 내렸다. 한국의 촛불집회, 홍콩의 우산혁명 등 국내외 실제 사례를 인용하고, 시민 정치와 대의민주정치의 상호·상보 관계를 논리적으로 설명했다. 기자가 요구한 글자 수도 대략 맞췄다. 다만 ‘AI 탐지를 회피해달라’와 ‘고의로 오탈자를 삽입해달라’는 요구는 거절했다. 챗지피티는 두 요구가 “학업 윤리에 어긋난다”라면서 공부·연습용으로 쓸 수 있는 모범 답안을 제공하겠다고 답했다. “제출용으로 그대로 사용하지 말고, 본인이 이해한 대로 재구성해달라”는 경고문도 덧붙였다.
이 질문은 2025년 연세대학교 행정대학원 ‘시민사회운동론’ 강의 중간고사의 실제 문항 중 하나다. 이 수업을 담당하는 이태동 연세대학교 정치외교학과 교수는 챗지피티가 작성한 답안을 읽고 이렇게 평가했다. “구조나 주장이 논리적이고, 사례를 통해 주장을 논증하는 답안이다. 학생이 직접 썼다면 A+, 적어도 A0를 줬을 것 같다.” 실제 시험에서는 ‘비판적’으로 논하라는 표현을 놓치고 상보 관계만 답한 학생들이 있었다지만, 챗지피티는 문제를 정확하게 이해한 데다, “85점만 맞게 해달라”는 기자의 요구를 가뿐히 무시하고 ‘A+’짜리 답변을 생성해냈다.
■ 챗지피티 출시 3년, 바뀐 대학 풍경
지금 대학 교육 현장은 생성형 AI와 전쟁 중이라 해도 과언이 아니다. 지난 10월 국내 주요 대학 중간고사에서 생성형 AI를 부정 사용한 사례가 적발됐다. 연세대학교 신촌캠퍼스 교양과목 ‘자연어 처리와 챗GPT’의 중간고사에서 생성형 AI를 활용해 문제를 푼 것으로 의심되는 정황이 포착됐고, 의심받은 50명 가운데 40명이 자수했다. 수강생이 600명에 달하는 대규모 비대면 수업이었던 이 수업의 중간고사는 온라인 비대면 형식으로 실시됐다. 학생들은 시험 시간 동안 컴퓨터 화면과 손·얼굴이 보이도록 영상을 촬영해 제출해야 했지만, 이 방침은 부정행위를 근절하는 데에는 역부족이었다. 같은 시기 서울대학교에서도 유사한 사건이 발생했다. 서울대학교 교양과목 ‘통계학 실험’의 교수가 학생 30여 명이 제출한 중간고사 답안지 일부에서 AI를 활용한 코드를 발견했다. 이 수업은 강의실에 비치된 컴퓨터를 활용해 대면으로 시험을 봤지만, 일부 학생이 생성형 AI를 부정 이용한 것으로 알려졌다. 오픈AI가 2022년 11월30일 챗지피티를 출시한 지 불과 3년 만에 벌어진 풍경이다.
학생들은 강력한 유혹에 시달린다. 대학생 커뮤니티 ‘에브리타임’에는 “만약 PF 시험(통과·탈락 둘 중 하나만 받는 시험)이면 내가 생성형 AI를 써서 P를 받는다고 누가 피해를 보는 게 아닌데 문제가 되냐” “(생성형 AI를) 안 쓰면 바보”와 같은 글이 올라왔다.
대학교수와 강사들은 공정을 위한 적발 전쟁을 치르고 있다. AI 탐지 솔루션 ‘GPT킬러’를 제공하는 AI 기업 ‘무하유’는 최근 GPT킬러 사용량 데이터를 공개했다. 무하유에 따르면 각 대학에서 중간고사가 진행 중이던 2025년 10월 한 달 동안 GPT킬러 서비스 이용 횟수는 약 64만7000건으로, 전년 동기(17만7000건) 대비 3.6배 늘었다. 일부 대학에서는 학교 차원에서 생성형 AI 탐지기를 도입해 학생과 교수가 모두 사용할 수 있게끔 하기도 한다.
‘AI 표절률’은 정직과 성실을 증명하는 새로운 지표다. 앞서 기자가 챗지피티를 활용해 생성한 답변의 표절률을 AI 탐지기 ‘카피킬러캠퍼스’로 확인해봤다. 정확히 100%가 나왔다. 검사기는 모든 문장을 ‘GPT 생성 의심 문장’으로 판단하고, 글을 보라색으로 색칠해 강조했다.
익명을 요청한 한 비수도권 국립대 교수는 “제출된 과제물을 우선 조교에게 넘겨 AI 탐지기에 돌리고 있다”라고 설명했다. 표절률 결과보고서를 가장 먼저 확인한 다음, 표절률이 20% 이상으로 나오면 바로 0점으로 처리하는 방식이다. 이 과정에서 학생과의 충돌이 발생하기도 했다. “자신이 억울하게 F를 받았다며 국민신문고에 민원을 넣은 학생이 있었는데, 그 학생의 표절률은 50%였다. 그런데 선의의 피해자가 발생하면 안 되지 않나? 성실한 학생이 성실하지 않은 학생보다 낮은 점수를 받으면 안 된다. 사실 ‘AI 활용을 잡아내는 교수’는 비인기 교수가 된다. 특히 강사는 강의 평점이 낮으면 재임용에서 불이익을 받을 수 있으니 강경하게 대응하기 어렵다.” 이 교수가 속한 대학은 중간고사 이후 ‘시험 부정행위 방지 방안’을 비롯한 시험 운영 안내를 보강해 각 교수·강사에게 전파했다.
■ 생성형 AI 식별기는 믿을 만한가
대학은 생성형 AI와의 공존이라는 새로운 과제를 받게 됐다. 대학은 앞으로 어떻게 학생의 학업 성취도를 확인해야 할까? 첫 번째 대안은 ‘기본으로 돌아가기’다. 생성형 AI가 학생의 학습 수준을 평가하는 과정에 개입하지 않고, 비대면 평가를 지양하는 방법이다. 이 경우 대면 평가는 물론, 학생들의 휴대전화를 수거하는 등 더욱 엄격한 부정행위 예방 조치가 필요하다. 송기창 숙명여대 교육학과 명예교수는 “생성형 AI 활용이 문제 되는 것은 비대면 시험을 볼 때 검색하기 때문이다. 검색 기능을 허용하는 시험은 학생이 아니라 AI를 테스트하는 일”이라고 말했다.
오스트레일리아의 대학 평가체제인 고등교육 품질보증기구(TEQSA)도 비대면 평가만으로는 평가의 진정성을 보장할 수 없다는 의견이다. TEQSA는 가급적 각 과목에 ‘안전한 평가(secure assessment)’를 최소 한 개 이상 배치할 것을 제안했다(보고서 ‘Enacting assessment reform in a time of artificial intelligence’, 2025년 9월). 여기서 ‘안전한 평가’란 AI의 영향을 배제한 구두 발표 시험이나 실습 평가를 의미한다.
그러나 모든 시험을 대면으로 전환하기는 쉽지 않다. 분반 시험이 아니라면 모두가 한 공간에 모여 시험을 보기가 현실적으로 어려운 대규모 원격 강의의 경우 그렇다. 원격 수업이 늘어난 데에는 코로나19 팬데믹의 영향이 컸다. 애초 일반대학의 원격 수업 과목 개설 비율은 20%로 제한되어 있었으나, 교육부는 2020년 예외적으로 원격 수업 확대를 허용했고, 2021년 1월26일 ‘2021학년도 업무계획’을 발표하면서 원격수업 비율 상한을 정식으로 폐지했다.
대면 시험을 본다고 가정하더라도, 제출된 결과물이 생성형 AI를 활용한 것으로 의심될 경우, 교수는 이를 정확히 식별해낼 수 있을까? 생성형 AI 탐지 도구인 ‘GPT킬러’는 생성형 AI의 원리를 역이용하는 방식으로 작동된다. AI 기업 ‘무하유’ 관계자에 따르면, 생성형 AI는 단어 뒤에 어떤 단어가 붙어야 자연스러울지 판단하고 단어를 이어 붙이면서 문장을 만들어나간다. GPT킬러는 그 방식을 역이용해 어떤 글이 특정 순서대로 작성되었을 경우, 그 글이 높은 확률로 생성형 AI가 작성한 것으로 판단한다.
문제는 정확도다. 현재 AI 탐지기에 대한 학계의 신뢰도는 높지 않다. 국제학술지 ‘고등교육 교육공학 국제 저널(IJETHE)’에 실린 논문(Simple techniques to bypass Gen AI text detectors, 2024년 9월)에서 연구진은 생성형 AI로 생성한 텍스트 15개를 대상으로 오탈자를 넣거나, 문장의 길이를 늘이거나, 단어를 바꾸는 등 단순 조작만으로 탐지를 회피할 수 있는지 검증했다. 실험 결과 위 같은 속임수만으로도 AI 탐지기의 정확도가 평균 17.4% 하락했다. 연구진은 AI 탐지기를 교육 환경에서 학업의 부정행위를 검출하는 도구로 사용하는 것을 권장하지 않는다고 결론지었다.
흥미로운 사실은 챗지피티를 개발한 오픈AI조차도 챗지피티를 탐지하는 AI 식별기(AI Classifier) 서비스를 출시했다가 몇 달 만에 철수했다는 점이다. 오픈AI는 2023년 7월 홈페이지에 “식별기의 정확도가 낮다. 다른 방법을 연구하겠다”라는 취지의 공지와 함께 서비스를 종료했다. AI가 생성한 글에 탐지기만 인식할 수 있는 워터마크를 다는 방법이 대안으로 언급되지만, 아직 기술적 한계가 있다.
이처럼 생성형 AI의 개입을 철저히 금지하는 방식으로 학생을 평가하면 자칫 소모적인 싸움으로 번질 가능성이 높다. 정영식 전주교대 컴퓨터교육과 교수는 “교수가 선입견을 가지고 학생이 생성형 AI를 사용했을 거라고 예단하는 것은 학생을 잠재적 범죄자로 취급하는 것”이라고 말했다. 박남기 광주교대 전 총장도 “생성형 AI 답안을 적발하겠다는 것은 에너지 낭비다. 무엇보다 시험은 교수를 속이는 게 목적이 되어서는 안 된다”라고 말했다.
■ ‘가이드라인’ 사회 실험 결과는?
평가 과정에서 생성형 AI의 개입을 완전히 차단하거나 통제할 수 없다면, 남은 방법은 시험 중에 생성형 AI가 개입할 수 있다는 사실을 인정하고 새로운 합의를 찾아가는 길뿐이다. 가장 기초적인 단계의 합의는 각 대학에서 공시하는 ‘생성형 AI 활용 가이드라인’이다. 일반적으로는 ‘AI의 생성물을 비판적으로 확인하고 활용할 것’ ‘교수자와 학습자 간의 합의를 지킬 것’ ‘생성형 AI를 학습의 대체자가 아니라 학습 도구로 생각할 것’ ‘윤리적으로 사용할 것’ 등의 내용이 담겨 있다.
다만 가이드라인 제정과 안내 상황은 학교마다 상이하다. 생성형 AI 활용 가이드라인을 학교 홈페이지에 공개적으로 게시하거나(중앙대 등) 챗지피티 종합안내 홈페이지를 아예 별도로 개설한 학교(성균관대 등)도 있지만, 아직 아무런 방침도 내놓지 못한 대학도 있다. 최근 부정행위로 논란을 빚은 서울대학교도 그중 한 곳이다. 서울대학교는 11월18일 “‘서울대학교 AI 윤리 가이드라인 제정 TF’를 2025년 8월 구성하여 가이드를 마련하고 있다. 학내 의견 수렴 및 전문가 자문 등의 절차를 포함하여 적극적으로 진행하고 있다”라고 〈시사IN〉에 서면으로 답변했다.
대학의 교육 방향을 제시해야 할 교육부도 늑장 대응이라는 비판을 비켜갈 수 없다. 교육 분야에서 AI를 어떻게 활용해야 할지에 대한 내용을 담은 교육부 최신 자료는 2022년 8월에 발간한 ‘교육 분야 인공지능 윤리원칙’이다. 내용은 생성형 AI가 출시되기 전(챗지피티는 2022년 11월 출시)의 단계에 머물러 있다. 교육부 관계자에 따르면 교육부는 현재 생성형 AI 활용 가이드라인을 만들기 위한 정책 연구를 과학기술정보통신부와 함께 진행하고 있다. 이르면 내년 상반기에 발표할 예정이다.
물론 가이드라인이 있어도 부정행위 발생을 원천 차단하긴 어렵다. 대규모 원격 강의 시험에서 부정행위가 발생한 연세대학교는 2024년 5월 생성형 AI 활용 가이드라인을 발표했다. 가이드라인에 “생성형 AI를 활용하는 것이 수업에 따라 부정행위로 처리될 수 있다”라고 명시돼 있었음에도 부정행위는 발생했다. 가이드라인의 효과에 대한 〈시사IN〉의 질문에 연세대 관계자는 “말 그대로 가이드라인이라서 권고 사항이지 어떻게 처벌하겠다고 규정할 수 없다. 수업에 대한 권한은 교수님께 있다”라고 답했다.
2023년 봄학기, 이태동 교수(정치외교학과) 등 연세대 사회과학대학 교수 5명은 6개 강의에서 ‘생성형 AI 가이드라인의 효과’를 검증하는 사회 실험을 비밀리에 진행하고 그 결과를 논문에 담았다(이태동 외, 생성형 AI 사용 가이드라인이 대학생의 수강 효능감에 미치는 영향에 관한 연구, 사회과학논집, 2025년 5월). 강의를 듣는 학생 140명을 △챗지피티 전면 금지(53명) △가이드라인 없이 자유 사용(40명) △명확한 인용 규칙을 제시한 가이드 사용(47명) 세 그룹으로 나눴다.
세 번째 그룹의 학생에게는 생성형 AI를 사용하더라도 과제 평가에 불이익이 발생하지 않는다고 안내했다. 대신 ‘과제 본문에 직간접 인용 표시를 하고, 참고 문헌 목록에는 활용한 서비스의 명칭과 프롬프트 명령어를 기재할 것’을 요구했다. 생성형 AI를 활용했을 경우 어떻게 표기해야 할지에 관한 인용 방법도 예를 들어가며 꼼꼼하게 안내했다. 학기가 끝난 후 설문조사를 통해 학생들의 수강 효능감을 확인했다.
실험 결과, 명확한 생성형 AI 지침을 받은 그룹 학생들의 수강 효능감이 월등히 높았다. 실험을 주도한 이태동 교수는 “가이드라인의 핵심은 인공지능을 사용했음을 밝히는 것”이라고 설명했다. “(생성형 AI 사용을) 막을 수도 없고, 막는 게 맞을지도 모르겠다. 만약 막을 수 없다면 우리가 지금까지 발전시켜 온, 다른 사람들의 글을 인용하는 방법을 레퍼런스 삼아 학생들과 다시 합의해야 한다. 결국 생성형 AI 활용을 금지하기보다 가이드라인을 두고 투명하게 사용하도록 안내하는 것이 교육적으로나 현실적으로나 나은 방법이라고 생각한다.”
관련자료
-
이전
-
다음
댓글 0
등록된 댓글이 없습니다.




