2026학년도 대학수학능력시험(2025년 11월 시행)이 끝난 직후, 일부 개발자와 커뮤니티는 공개된 수능 문제지를 기반으로 여러 LLM에게 동일한 문제를 풀게 하는 프로젝트를 진행했습니다.
그 대표적인 사례가 GitHub에 공개된 **2026-CSAT: 2026 대입 수능 시험 LLM 풀이 결과 모음**입니다. 이 저장소는 Gemini, GPT, Claude, Grok, DeepSeek 등 주요 상용·오픈소스 LLM을 한 번에 비교하는 용도로 만들어졌고, 과목별 점수와 평가 방법을 상세히 문서화하고 있습니다.GitHub+1
또 다른 축으로는, 국내 블로그와 AI 뉴스 채널에서 **“Gemini 3 Pro가 GPT-5.1을 제치고 ‘AI 수능 테스트’에서 1위를 했다”**는 식의 기사·영상이 등장하면서, “어느 모델이 진짜 더 똑똑한가?”라는 관심이 소비자·개발자 모두에게 확대되었습니다.골든배럴+1
GitHub 2026-CSAT가 말해주는 것: 테스트 구조와 방법
2026-CSAT 저장소는 2026학년도 수능 문제를 텍스트·이미지로 추출해 LLM API에 그대로 넣고 채점한 결과를 정리한 프로젝트입니다.GitHub
평가 범위와 총점 체계
- 평가 과목
- 국어
- 수학
- 영어
- 한국사
- 탐구 4과목: 물리Ⅰ, 화학Ⅰ, 생명과학Ⅰ, 사회문화GitHub
- 총점: 450점 만점
- 국어: 공통 + 선택(화법과 작문, 언어와 매체) 평균
- 수학: 공통 + 선택(확률과 통계, 미적분, 기하) 평균
- 영어·한국사: 영역 전체 점수
- 탐구: 4과목 평균을 실제 수험 구조에 맞게 2과목 선택으로 환산GitHub
테스트 환경 (중요한 전제 조건)
저장소 작성자는 테스트 환경을 매우 구체적으로 공개하고 있습니다.GitHub
- 실행 방식: 각 모델의 공식 API 사용
- 추론 설정
- 추론 예산(reasoning budget): 최대값
- 최대 출력 토큰: 최대값
- 온도·Top-p: 기본값
- 도구 사용:
- 검색·계산기·플러그인 등 외부 도구 전혀 사용 안 함
- “모델의 순수한 언어·추론 능력”만 측정
- 문항 제시 방식
- PDF에서 텍스트를 추출해 입력
- 그래프·도표·그림 등은 별도 이미지로 캡처 후 제공
- 전체 페이지 캡처가 아닌, 문제에 필요한 정보만 제공
작성자도 명시합니다.
이 테스트는 API 환경에서 수행된 비공식 벤치마크이며,
일반 사용자가 웹·앱에서 모델을 쓸 때와 성능이 다를 수 있다.GitHub
즉, 이 데이터는 “실제 수험생 환경”이 아니라, 연구용으로 최대한 통제된 조건에서의 성능이라는 점을 기억해야 합니다.
Gemini 3 Pro(프리뷰)의 2026 수능 성적: 어디가 강했나?
2026-CSAT의 상세 결과를 보면, Gemini 3 Pro(Preview)는 여러 과목에서 상위권, 일부 영역에서는 만점 또는 만점에 근접한 점수를 기록합니다.GitHub+1
국어 영역
- 국어 공통 (76점 만점)
- Gemini 3 Pro (Preview): 76점 (만점)
- Gemini 2.5 Pro, Claude Sonnet 4.5도 76점으로 공동 1위
- 언어와 매체 (24점 만점)
- Gemini 3 Pro (Preview): 24점 (만점)
- GPT-5.1, Gemini 2.5 Pro 등도 24점으로 상위권 그룹 형성GitHub+1
즉, 국어 영역만 놓고 보면 Gemini 3 Pro는 현 세대 LLM 중 최상위권 독해·언어 분석 능력을 보여줍니다.
수학 영역
- 수학 공통 (74점 만점)
- GPT-5.1, Claude Sonnet 4.5, Gemini 3 Pro (Preview), DeepSeek V3.2 등 여러 모델이 74점 만점으로 동률
- 확률과 통계 (26점 만점)
- Gemini 3 Pro 포함 여러 모델이 26점 만점
- 미적분 (26점 만점)
- GPT-5.1, Claude Sonnet 4.5, Grok 4 등은 26점(만점)
- Gemini 3 Pro (Preview)는 22점으로, 상위권이지만 절대적인 1위는 아님GitHub+1
정리하면, 수학에서는 공통·확통은 매우 강하지만, 미적분에서는 다른 최상위 모델들보다 약간 낮은 점수를 보였습니다.
3-3. 영어·한국사·탐구
GitHub README와 블로그 요약을 종합하면, 영어·한국사·탐구 4과목까지 포함해 450점 스케일로 환산했을 때 Gemini 3 Pro가 전체 상위권을 차지했다는 블로그 분석이 있습니다. 해당 블로그는 Gemini 3 Pro가 450점 만점에 440.2점, GPT-5.1이 435.5점을 기록했다고 소개합니다.골든배럴+1
다만 이 수치는 GitHub 원자료 + 작성자 자체 계산을 바탕으로 한 2차 해석이므로, “공식 기관이 발표한 점수”가 아니라는 점을 분명히 해야 합니다.
다른 모델과의 비교: GPT-5.1, Claude, Grok, DeepSeek
2026-CSAT 프로젝트는 단순히 Gemini만 테스트한 것이 아니라, 주요 상용 모델을 모두 비교합니다.GitHub+1
- OpenAI 계열
- GPT-5.1 / GPT-5.1 Codex / GPT-5.1 Chat / GPT-5 mini / GPT-5 nano / GPT-4o
- Google 계열
- Gemini 3 Pro (Preview) / Gemini 2.5 Pro / Gemini 2.5 Flash / Flash Lite
- Anthropic 계열
- Claude Sonnet 4.5 / Claude Haiku 4.5
- xAI 계열
- Grok 4 / Grok 4 Fast
- DeepSeek 계열
- DeepSeek V3.2 (Thinking / Non-Thinking)
과목별로 보면 다음과 같은 패턴이 나타납니다.GitHub+1
- 국어: Gemini 3 Pro, Gemini 2.5 Pro, Claude Sonnet 4.5 등이 최상위
- 수학 공통·확통: GPT-5.1, Claude Sonnet 4.5, Gemini 3 Pro, DeepSeek V3.2가 공동 최상위
- 미적분: GPT-5.1·Claude Sonnet 4.5·Grok 4 등이 만점, Gemini 3 Pro는 한 단계 낮은 점수
- 전체 450점 환산 스코어: 블로그 분석 기준으로 Gemini 3 Pro가 GPT-5.1보다 근소하게 앞서는 것으로 요약골든배럴+1
이 데이터는 한 가지 중요한 메시지를 줍니다.
- “어느 한 모델이 모든 영역에서 압도적으로 우수하다”라기보다는, 과목·유형에 따라 강점이 갈린다는 점입니다.
“AI 수능 테스트(The Last Test)” 기사와의 관계
국내 블로그 ‘골든배럴’ 글은 이 결과를 바탕으로 **“구글 제미나이 3.0, GPT-5.1 제치고 수능 테스트 1위”**라는 제목으로 소개하며, 이를 “AI 수능 테스트(The Last Test)”라는 이름의 종합 지능 평가와 연결해 설명합니다.골든배럴
이 글의 중요한 포인트는 다음과 같습니다.
- Gemini 3 Pro: 450점 만점에 440.2점, GPT-5.1: 435.5점
- 국어 100점, 영어 100점 등 일부 영역 만점 기록
- “AI 수능 테스트(The Last Test)”를
- 언어 이해
- 수리 추론
- 과학적 사고
- 사회·윤리
- 창의적 문제 해결
로 구성된, 수능을 모티프로 한 종합 AI 벤치마크로 설명골든배럴
정리하면,
- GitHub
2026-CSAT는 실제 2026학년도 수능 기출을 기반으로 한 LLM 벤치마크이고,GitHub+1 - 골든배럴 블로그의 “AI 수능 테스트(The Last Test)”는 이를 포함해 보다 넓은 AI 종합 지능 평가 컨셉으로 재구성한 콘텐츠에 가깝습니다.골든배럴
meta_know 인사이트
2026학년도 수능을 활용한 이번 LLM 벤치마크는, AI 성능 경쟁의 중심이 단순한 벤치마크 점수에서 “현실 문제를 얼마나 사람처럼 풀 수 있는가”로 이동하고 있음을 보여줍니다. 동시에, 같은 데이터에서도 프롬프트·환경·해석에 따라 서로 다른 결론(예: “1위 모델”)이 나올 수 있다는 점은, AI 성능 이야기를 들을 때 항상 “누가, 어떤 조건에서 측정했는가”를 함께 봐야 한다는 교훈을 줍니다.
실제 활용 관점에서 중요한 것은 “어느 모델이 1–2점 더 높은가”보다, 내가 풀고 싶은 실제 작업(공부, 수업 준비, 콘텐츠 제작)을 얼마나 안정적으로 도와줄 수 있느냐입니다. meta_know에서는 앞으로도 이런 벤치마크 결과를 “실제 현장에서 어떻게 써먹을 수 있는가”라는 기준으로 계속 해석해 보겠습니다.
핵심 정리
- 2026학년도 수능 기출을 기반으로 한
2026-CSATGitHub 프로젝트에서 Gemini 3 Pro(Preview)는 국어·수학·영어·한국사·탐구 전반에 걸쳐 상위권 성적을 기록했습니다.GitHub+1 - 특히 국어 공통·언어와 매체 등에서 만점, 수학 공통·확통에서도 최상위권을 기록했지만, 미적분에서는 GPT-5.1 등 다른 모델에 약간 뒤쳐지는 등 과목별 강·약점이 뚜렷합니다.GitHub
- 국내 블로그와 미디어는 이 결과를 바탕으로 “Gemini 3 Pro가 GPT-5.1을 제치고 450점 만점에 440.2점으로 1위”라는 식으로 소개하지만, 이는 비공식 벤치마크에 대한 2차 해석입니다.골든배럴
