AI 벤치마크 Archives - AI Meta-Knowledge for All

“Claude Opus 4.5” 출시 – AI 코딩·에이전트 시대 ‘게임체인저’인가?

Anthropic가 2025년 11월 24일(현지 시각) 자사의 최신 플래그십 모델인 Claude Opus 4.5를 공개했습니다. 이 모델은 회사 공식 발표에 따르면 코딩·에이전트·컴퓨터 사용 영역에서 현존 최고 수준 성능을 보이며, SWE-bench Verified 벤치마크에서…

11월 26, 2025
AI 모델 성능 비교: Grok 4.1 vs Gemini 3 Pro vs GPT-5.1

최근 발표된 다수의 벤치마크 자료에 따르면, Gemini 3 Pro가 현재 최전선의 다중모달 및 고난도 추론 작업에서 우위에 있다는 평가가 나왔습니다. 반면 Grok 4.1는 대용량 컨텍스트 처리 및 비용 효율 측면에서…

11월 23, 2025

“Claude Opus 4.5” 출시 – AI 코딩·에이전트 시대 ‘게임체인저’인가?