AI News

Claude Opus 4.7 출시: 숫자는 좋은데, 커뮤니티는 왜 냉담한가

룰모아 2026. 4. 18. 10:58

2026년 4월 16일, Anthropic이 Opus 4.6 출시 두 달 만에 공개한 신규 플래그십 모델 분석


한눈에 보는 릴리즈

Opus 4.7은 Opus 4.6의 직접 업그레이드 버전이다. 가격은 동일하게 입력 $5/M, 출력 $25/M이고, Claude.ai, API, Bedrock, Vertex AI, Microsoft Foundry에 동시 출시됐다. 이번 릴리즈는 Anthropic의 2개월 주기 업데이트 패턴을 이어간 것이다. Opus 4.6은 4.5의 2개월 뒤, 4.5는 4.1의 상당히 긴 공백 뒤에 나왔는데, 이제는 예측 가능한 주기가 확립된 셈이다.


벤치마크 한눈에 보기

                          Opus 4.6    Opus 4.7    변화
─────────────────────────────────────────────────────────
SWE-bench Verified          80.8%       87.6%     +6.8
SWE-bench Pro               53.3%       64.3%     +11.0
Terminal-Bench 2.0          58.4%       69.4%     +11.0
GPQA Diamond                91.3%       94.2%     +2.9
CursorBench                   58%         70%     +12.0
XBOW Visual Acuity          54.5%       98.5%     +44.0
BrowseComp                  83.7%       79.3%     -4.4   ←

BrowseComp는 유일하게 하락한 항목이다. 웹 리서치에 많이 의존하는 에이전트를 돌린다면 확인할 필요가 있다.


핵심 개선 사항 네 가지

1. 코딩 성능의 의미 있는 점프

가장 주목할 만한 수치는 SWE-bench Verified다. Opus 4.6의 80.8%에서 4.7의 87.6%로 6.8 포인트 상승했다. 4.5 → 4.6이 약 5 포인트였던 것과 비교해도 의미 있는 도약이다. CursorBench(Cursor IDE 내 AI 코딩 테스트)는 12 포인트 급등했다.

Cursor CEO Michael Truell의 평가가 간결하다.

"CursorBench에서 Opus 4.7이 70%를 넘겼다. Opus 4.6은 58%였다."

2. 비전 해상도 3배 이상 확장

Opus 4.7은 긴 변 기준 2,576 픽셀까지 이미지를 처리한다. 이전 Claude 모델 대비 3배 이상이다. 밀도 높은 스크린샷, 복잡한 다이어그램 데이터 추출, 픽셀 단위 정밀 참조가 필요한 작업이 가능해졌다. XBOW의 자체 벤치에서 비주얼 정확도가 Opus 4.6의 54.5%에서 Opus 4.7의 98.5%로 점프했다. 컴퓨터 유즈 자동화 품질이 실용 단계에 진입했다는 신호다.

3. 새로운 xhigh effort 레벨

기존 low/medium/high/max 사이에 xhigh가 추가됐다. 고난도 문제에서 추론 깊이와 지연 시간 사이의 트레이드오프를 더 세밀하게 조절할 수 있다. Anthropic은 코딩/에이전트 태스크는 high 또는 xhigh에서 시작할 것을 권장한다. Claude Code는 모든 플랜의 기본값을 xhigh로 상향 조정했다.

# Claude Code에서 설정
/effort xhigh

# 또는 환경 변수로
export CLAUDE_CODE_EFFORT_LEVEL=xhigh

4. Task budgets와 /ultrareview

Task budgets는 API 공개 베타로 출시됐다. 긴 작업 구간에서 Claude의 토큰 사용을 가이드해 우선순위를 조율할 수 있다. 런어웨이 에이전트가 예산을 태워버리는 상황을 방지하는 제어 장치다.

Claude Code에는 /ultrareview 슬래시 커맨드가 추가됐다. 아키텍처, 로직 정확성, 보안, 성능, 유지보수성을 구조화된 프로토콜로 한 번에 검토한다. 기존 단일 스캔 대비 교차 파일 추론이 필요한 섬세한 로직 오류와 보안 패턴까지 잡는다는 평가. Pro/Max 사용자에게 무료 3회 제공된다.


토크나이저 변경 — 실질적 비용 이슈

Opus 4.7은 업데이트된 토크나이저를 사용한다. 동일한 입력이 1.0~1.35배 더 많은 토큰으로 매핑될 수 있다. 거기에 높은 effort 레벨에서 더 많이 생각한다.

이게 실사용자에게 의미하는 것은 명확하다. Claude Code의 기본값이 xhigh로 올라갔고, 토크나이저가 더 많은 토큰을 만들면, 같은 작업에 더 많은 토큰이 들어간다. Max $200 플랜 사용자들이 Hacker News에서 이 점을 지적하고 있다.

변수 Opus 4.6 Opus 4.7

입력 토큰 변환율 1.0× 1.0~1.35×
Claude Code 기본 effort medium/high xhigh
동일 작업 예상 토큰 기준 1.2~1.6×

커뮤니티 반응: 네 갈래로 갈린다

공식 발표는 화려하지만 실사용자 반응은 훨씬 복합적이다.

갈래 1: Opus 4.6 열화 논란의 연속선상

Axios 보도에 따르면, 출시는 Opus 4.6이 조용히 나빠졌다는 사용자 불만이 몇 주째 이어진 시점에 나왔다. AMD 시니어 디렉터는 "Claude가 복잡한 엔지니어링을 맡길 수 없는 수준까지 후퇴했다"고 GitHub에 적었고, 이 글이 널리 공유됐다.

HN 최상위 댓글 중 하나:

"4.6이 지난 한 주 동안 얼마나 나빴는지 때문에 저는 이미 Codex로 넘어갔습니다. 어젯밤에 텐서 병렬 처리 방법을 찾아달라고 했더니 에이전트가 웹 fetch를 0번 하고 17K 토큰을 완전히 환각으로 뱉어냈습니다."

"Claude가 가끔 완전히 정신줄을 놓습니다. Claude와 Codex를 둘 다 결제 중인데, 그런 날엔 그냥 Codex를 써야 합니다. 차이가 극명해요."

갈래 2: "Nerfed 후 업그레이드" 패턴 의심

HN의 TIPSIO 댓글이 많이 공감을 받았다.

"얼른 사이드 프로젝트로 가세요. 다시 nerfing 안 된 에이전트 코딩 3일이 있습니다."

endymion-light의 댓글도 비슷한 맥락이다.

"최근 Anthropic을 믿기 어렵습니다. 눈에 띄는 성능 하락 직후에 바로 이게 나온 걸 보면, Opus 4.7이 진짜 성능 향상이 아니라 몇 달 전의 Opus 경험을 복구하는 수준일 수도 있다는 생각이 듭니다."

Anthropic은 사용자들이 느낀 변화가 Mythos나 다른 프로젝트로 컴퓨팅 자원을 돌리기 위한 의도적 축소가 아니라고 부인했다.

갈래 3: 컴퓨팅 공급 부족 가설

HN에서 반복적으로 등장한 가설.

"Anthropic이 모든 고객을 위한 컴퓨팅이 부족합니다. OpenAI는 일찍부터 컴퓨팅에 크게 베팅했고, 파산할 거라는 말이 많았지만 지금은 주요 전략적 우위가 됐습니다. Codex 플랜의 사용량 한도를 2배로 늘리고 있고, 효과가 있어 보입니다. Claude의 최근 문제의 90%는 엄격히 말해 컴퓨팅 부족에 관한 것입니다."

Anthropic은 Project Glasswing과 함께 Mythos-class 모델의 광범위한 출시를 목표로 하고 있으며, Opus 4.7을 cyber safeguards 테스트에 사용하고 있다고 밝혔다. 일부는 Opus 4.7이 새 토크나이저를 도입한 것을 근거로 Mythos에서 증류(distillation)된 새 베이스 모델이라고 추측하고 있다.

갈래 4: 실제 업무에서의 긍정적 체감

그럼에도 실질적인 개선을 보고하는 사용자도 많다. CodeRabbit 팀은 Opus 4.7이 작업을 완료한 후 자기 결과물을 스스로 다시 검토하는 행동을 관찰했다. 코드를 생성하고, 이슈를 스캔하고, 발견한 것을 수정하는 과정을 명시적 지시 없이 수행한다.

Replit의 Michele Catasta:

"Opus 4.7은 쉬운 업그레이드 결정이었다. 같은 작업 품질을 더 낮은 비용으로 달성한다. 개인적으로는 기술 토론에서 나를 밀어붙여 더 나은 결정을 내리게 해주는 부분이 좋다."

Notion:

"복잡한 다단계 워크플로우에서 Opus 4.6 대비 14% 향상, 토큰은 더 적게, 툴 에러는 1/3 수준. 암묵적 요구사항 테스트를 통과한 첫 모델."


마이그레이션 시 체크할 점

실제 전환을 계획한다면 세 가지 주의 사항.

첫째, 프롬프트 재튜닝이 필요할 수 있다. Opus 4.7은 지시사항을 훨씬 더 엄격하게 따른다. 이전 모델이 느슨하게 해석하거나 일부를 건너뛰던 지시를 이제는 문자 그대로 받아들인다. 기존 프롬프트가 예상치 못한 결과를 낼 수 있다.

둘째, 토큰 사용량을 실제 트래픽에서 측정해야 한다. 1.0~1.35배 증가는 평균이고, 콘텐츠 타입에 따라 편차가 있다.

셋째, extended thinking 수동 제어가 사라졌다. Opus 4.7에서는 manual extended thinking이 더 이상 지원되지 않고, adaptive 전용이다. HN 최상위 댓글에서 지적된 바와 같이, 4.7은 기본적으로 사람이 읽을 수 있는 reasoning 토큰 요약을 포함하지 않는다. "display": "summarized"를 추가해야 볼 수 있다.

# API 호출 예시
response = client.messages.create(
    model="claude-opus-4-7",
    thinking={
        "type": "adaptive",
        "display": "summarized"  # reasoning 요약 표시
    },
    messages=[...]
)

그래서 써야 하나

Opus 4.6을 쓰던 개발자라면 업그레이드는 거의 자동이다. 가격이 동일하고 벤치마크는 일관되게 개선됐다. 다만 세 가지는 인지해야 한다.

  • 같은 작업이 10~35% 더 많은 토큰을 쓸 수 있다
  • 프롬프트 재튜닝이 필요할 수 있다
  • 기본 effort가 올라갔다

Codex로 넘어간 팀이라면 경쟁 구도가 흥미로워졌다. OpenAI가 $100 플랜으로 가격 경쟁을 걸어온 상황에서 Anthropic은 벤치마크 우위로 대응하는 모양새다. 하지만 최근 몇 주간의 신뢰 이슈가 바로 해결되지는 않을 것이다.

가장 흥미로운 건 Mythos의 존재감이다. Opus 4.7이 "가장 능력 있는 일반 공개 모델"이라는 표현을 공식적으로 썼다는 것은, Mythos가 내부적으로 더 강력하지만 사이버 보안 위험 때문에 제한적 공개에 머물러 있다는 것을 명시적으로 인정한 것이다. Opus 4.7은 그 브로드 릴리즈를 향한 safeguard 테스트베드 역할도 겸하고 있다.

모델 선택 전쟁은 숫자가 아니라 신뢰의 싸움으로 넘어가고 있다. Opus 4.7은 좋은 모델이다. 그리고 그것만으로는 충분하지 않은 시점이다.


참고 자료