같은 GPT에 ‘지시만 바꿨더니’… 수능 국어 점수 9등급→1등급까지 차이
뉴스랩
0
1
11.21 12:07
진학사 블랙라벨사업부가 2026학년도 대학수학능력시험 국어 영역 시험지를 GPT에게 풀게 한 결과, 동일한 모델, 동일한 시험지임에도 불구하고 지시(프롬프트) 방식에 따라 성적이 9등급부터 1등급까지 극단적으로 달라지는 현상이 확인됐다. GPT의 능력보다 ‘무엇을 어떻게 시켰느냐’가 성능을 결정하는 핵심 요인임을 보여주는 실험 결과다.◈ 실험 설계: A, B, C 세 가지 지시 방식실험에는 GPT의 ChatGPT 5.1 Auto 모드가 사용됐으며, 변수는 지시 방식뿐이었다. 실험은 ▲통이미지 제공 후 정답만 요구한 A 방식, ▲문항