도입
OpenAI가 2026년 4월 15일 Agents SDK의 차세대 업데이트를 정식 공개했습니다. 이번 릴리스의 핵심은 "모델이 도구를 잘 쓰는 방법"을 외부에서 짜 맞추는 게 아니라, SDK 안에 모델 네이티브 하네스와 샌드박스 실행을 1급 시민으로 넣었다는 점입니다. 파일 읽기·셸 실행·코드 편집·장시간 실행을 코덱스 계열과 같은 결로 다룰 수 있게 되었고, Blaxel·Cloudflare·Daytona·E2B·Modal·Runloop·Vercel 등 샌드박스 공급자와 표준화된 통합을 제공합니다. 이 글에서는 새 하네스가 어떤 구조인지, 개발자 관점에서 어떻게 접근해야 하는지 정리합니다.
📌 한 줄 요약
- 공개일: 2026년 4월 15일
- 핵심 변화: 모델 네이티브 하네스(Harness)와 네이티브 샌드박스 실행
- 지원 샌드박스: Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel + 자체 샌드박스 BYO 가능
- 새 추상화:
Manifest— 에이전트 워크스페이스 이식성 표준 - 언어: Python 선출시, TypeScript는 후속 계획
- 가용성: 모든 API 고객에게 GA, 과금은 토큰·툴 사용 기준
주요 변화 상세
1) 모델 네이티브 하네스(Harness)
기존 에이전트 설계에서는 모델이 "어떻게 툴을 호출할지"를 앱 쪽에서 루프·파서·파일 관리자로 직접 짜 왔습니다. 새 SDK의 하네스는 이 루프를 SDK 안에 흡수하고, 메모리 설정, 샌드박스 오케스트레이션, Codex 스타일의 파일 시스템 툴, 프런티어 에이전트에서 공통으로 쓰이는 프리미티브를 표준화해 제공합니다. 즉 "에이전트 스캐폴딩 코드"를 앱에서 덜어내고, SDK 제공 흐름을 쓰는 방향입니다.
2) 네이티브 샌드박스 실행
하네스의 짝이 되는 기능이 샌드박스입니다. 에이전트가 파일·의존성·네트워크를 받고, 태스크 단위로 격리된 환경에서 명령을 실행할 수 있습니다. 자체 샌드박스를 붙여 쓸 수도 있고, 공식 통합된 공급자를 그대로 쓸 수도 있습니다. 공식 통합 명단은 Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel입니다. 이 목록은 "OpenAI가 API 레벨에서 실행 환경까지 묶어 제공한다"는 방향성을 명확히 보여줍니다. 과거 Code Interpreter가 Python 전용이었다면, 이제는 범용 컴퓨팅 워크로드가 가능해집니다.
3) 매니페스트(Manifest) 추상화
에이전트가 일하는 워크스페이스를 선언적으로 기술하는 새 추상화입니다. 매니페스트는 "어떤 파일을 갖고 시작하는지, 어떤 툴이 쓸 수 있는지, 어떤 네트워크 정책이 허용되는지"를 한곳에 모아 표현합니다. 로컬 개발 환경과 샌드박스 공급자 사이에서 동일한 매니페스트를 재사용할 수 있어, 이식성이 중요한 장기 실행 에이전트에 적합합니다.
4) 언어 지원: 파이썬 선, 타입스크립트 후
새 하네스와 샌드박스 기능은 Python으로 먼저 GA되고, TypeScript는 이후 릴리스에서 따라옵니다. 이미 Python SDK 기반 파이프라인을 구축 중인 팀은 바로 적용 가능하며, TS 생태계의 팀은 이번 분기는 Python 프로토타입 → 이후 TS 재이식 순서가 현실적입니다.
📊 기능 요약표
| 영역 | 이전(레거시 SDK) | 신규(2026-04-15) |
|---|---|---|
| 에이전트 루프 | 앱 측 구현 | SDK 내장 하네스 |
| 메모리 관리 | 수동 | configurable memory |
| 파일 시스템 툴 | 툴마다 별도 | Codex 스타일 표준화 |
| 컨텍스트 관리 | 수동 truncation | compaction 권장 패턴 |
| 실행 환경 | Code Interpreter(Python) | 범용 샌드박스 실행 |
| 샌드박스 공급자 | — | Blaxel/Cloudflare/Daytona/E2B/Modal/Runloop/Vercel + BYO |
| 워크스페이스 기술 | — | Manifest 추상화 |
| 언어 지원 | Python/TS | Python 우선, TS 예정 |
📊 샌드박스 공급자 비교표(참고용)
각 공급자는 특성이 달라, 선택 기준이 달라집니다. 공식 문서 기준으로 대표적 특성을 요약합니다.
| 공급자 | 대표 강점 | 대표 사용처 |
|---|---|---|
| E2B | 코드 실행 샌드박스 특화, 다언어 런타임 | 코딩 에이전트, 데이터 분석 |
| Modal | GPU/배치 함수 런타임 | 모델 호출 혼합 워크로드 |
| Cloudflare | 엣지·네트워크 근접 | 전 세계 지연시간 최소화 |
| Vercel | 웹 프런트·서버리스 통합 | UI 생성·라이브 미리보기 |
| Daytona | 개발 환경 프로비저닝 | 리포지토리 단위 에이전트 |
| Runloop | 장시간 실행·복구 | 백그라운드 배치 에이전트 |
| Blaxel | 에이전트 전용 런타임 | 신규 에이전트 프로젝트 |
💻 코드 예시: 샌드박스 지정해 에이전트 돌리기
아래는 파이썬 SDK로 하네스/샌드박스를 사용하는 개략적인 형태입니다. 실제 파라미터명·구조는 최신 SDK 문서를 따르세요.
# pip install -U openai
from openai import OpenAI
client = OpenAI()
# 샌드박스 공급자를 선언적으로 지정
# (BYO 샌드박스도 동일한 인터페이스로 연결)
SANDBOX = {
"provider": "e2b",
"policy": {
"network": "allowlist",
"allowed_hosts": ["pypi.org", "files.pythonhosted.org"],
},
"files": [
{"path": "/workspace/README.md", "content": "# 작업 설명\n"},
],
}
resp = client.responses.create(
model="gpt-5.4", # 자체 레포지토리 기준 최신 모델 선택
input="README.md를 읽고 필요한 패키지를 설치한 뒤 tests/를 실행해 주세요.",
tools=[
{"type": "shell"}, # 셸 실행 툴
{"type": "file_search"}, # 파일 탐색 툴
],
sandbox=SANDBOX,
# 긴 에이전트 세션은 compaction으로 컨텍스트를 관리
extra_body={"compaction": {"mode": "auto"}},
)
for item in resp.output:
print(item)
💻 코드 예시: 매니페스트로 워크스페이스 이식
매니페스트는 에이전트 워크스페이스를 파일 하나로 선언합니다. 개념적으로는 다음과 같은 구조를 갖습니다.
# agent.manifest.yaml
version: 1
workspace:
files:
- path: /workspace/src/
source: git+https://github.com/acme/sample-app#branch=main
- path: /workspace/data/items.csv
source: s3://acme-reports/items.csv
tools:
- type: shell
- type: file_search
- type: code_edit
policy:
network: allowlist
allowed_hosts:
- api.github.com
- pypi.org
limits:
max_steps: 150
max_wall_seconds: 3600
같은 매니페스트를 로컬 BYO 샌드박스와 E2B 같은 공식 공급자 양쪽에 던져 이식성을 검증할 수 있습니다.
개발자 관점 심층 분석
왜 "모델 네이티브 하네스"가 중요한가
지난 2년간 에이전트 시스템 설계의 난점은 항상 루프 관리였습니다. 툴 콜 → 파서 → 상태 추적 → 에러 복구를 개별 앱이 직접 짰고, 파이프라인이 복잡해질수록 버그가 늘었습니다. OpenAI가 모델 네이티브 하네스를 제공한다는 건 "프런티어 모델이 실제로 쓰는 내부 스캐폴딩"에 가까운 구현을 표준 API에서 사용할 수 있다는 뜻입니다. 결과적으로 앱 코드가 얇아지고, 대신 프롬프트/정책/매니페스트에 투자할 시간이 늘어납니다.
샌드박스 표준화의 의미
샌드박스 공급자 7곳을 1급으로 묶은 것은 단순히 마케팅 파트너십이 아니라, 에이전트 실행 환경 시장을 스펙화하려는 움직임으로 읽힙니다. 이 방향은 MCP(툴 접근 표준)·Agent Skills(태스크 패턴 표준)와 같은 축에 "실행 환경 표준"을 추가하는 그림입니다. 팀 입장에서는 지금 한 공급자에 락인될 필요가 낮아지고, 비용·지연·지역 요구에 따라 바꿔 끼우기가 쉬워집니다.
한계와 주의점
Python 선출시이므로 TS 기반 풀스택 팀은 잠시 대기 또는 하이브리드 구성이 필요합니다. 또 하네스가 SDK에 흡수되면서, 기존 자체 루프/자체 상태 머신을 정교하게 다듬어 온 팀은 일부 제어 포인트를 잃을 수 있습니다. 매니페스트는 편리하지만, 그만큼 선언과 런타임의 괴리(예: 공급자 A에서만 동작하는 네트워크 정책)를 조심해야 합니다.
구현 가이드: 내 프로젝트 적용 순서
- 의존성 갱신:
pip install -U openai로 Python SDK를 최신화하고, 리포지토리 내 레거시 에이전트 루프를 검색해 둡니다. - 매니페스트 초안 작성: 우선 하나의 대표 태스크에 대해
agent.manifest.yaml을 만들어 워크스페이스·툴·정책을 선언합니다. - BYO 샌드박스로 스모크 테스트: 보안 검토가 쉬운 자체 컨테이너에서 먼저 동작을 확인한 뒤, 공식 공급자 1곳(E2B/Modal/Cloudflare 중)을 붙입니다.
- 공급자 A/B: 레이턴시·비용·성공률을 기준으로 공급자 2곳을 A/B 비교합니다. 에이전트 태스크는 성공률 차이가 크므로 표본을 충분히 확보하세요.
- 컨텍스트 관리 전환: 수동 truncation을 compaction 모드로 교체해, 장시간 실행에서 토큰 상한으로 인한 실패를 줄입니다.
- 관측 지표 보강: 단계 수, 평균 툴 호출 비용, 실패 시 남긴 파일 스냅샷을 수집해 추후 회귀 분석 데이터로 축적합니다.
마무리
이번 업데이트는 "더 똑똑한 모델"이 아니라 "에이전트의 공장을 표준화하는 SDK 업그레이드"입니다. 하네스·샌드박스·매니페스트는 각각 독립적으로도 의미가 있지만, 함께 썼을 때 "한 번 작성한 에이전트를 여러 공급자 위에서 돌리는" 경험을 처음으로 매끄럽게 만들어 줍니다. 다음 관전 포인트는 TypeScript 지원 타임라인, 그리고 code mode·subagents 같은 후속 프리미티브가 API 레벨에서 어떻게 노출되느냐입니다. 지금은 대표 태스크 1개에 매니페스트를 씌워 보고, 기존 자체 루프와 성능·비용을 비교해 보는 단계가 가장 실용적입니다.
출처
- The next evolution of the Agents SDK — OpenAI
- OpenAI updates its Agents SDK to help enterprises build safer, more capable agents — TechCrunch
- OpenAI updates Agents SDK, adds sandbox for safer code execution — Help Net Security
- OpenAI Updates Agents SDK With Sandboxed Execution Tools — Dataconomy
- OpenAI Expands Agents SDK with Sandbox and Advanced Tooling — The AI Insider
'AI News' 카테고리의 다른 글
| OpenAI Codex가 당신의 화면을 본다 — Chronicle 기능 완전 정복 (0) | 2026.04.21 |
|---|---|
| Gemini 3.1 Flash TTS 출시: 오디오 태그로 "감정까지" 제어하는 새 TTS 시대 (1) | 2026.04.21 |
| vLLM v0.18 / v0.19 업데이트 해부: gRPC 서빙, 비동기 스케줄링, CVE-2026-0994까지 (1) | 2026.04.19 |
| Claude Design 출시: Anthropic이 Figma에게 던진 도전장 (0) | 2026.04.19 |
| Claude Opus 4.7 출시: 숫자는 좋은데, 커뮤니티는 왜 냉담한가 (0) | 2026.04.18 |