test(verify-v04): comprehensive quality benchmark vs Claude Code sub-agent
26 시나리오 (I/C/M/S/W/Q) 자동 실행 + Sonnet judge benchmark. 결과: 23 PASS / 1 FAIL (Q1 보더라인) / 2 SKIP (W3/W4 safety 차단). 신규 파일: - scripts/verify_v04/_common.py — mk_session / record / load_results helpers - scripts/verify_v04/run_cms.py — C/M/S 시나리오 16개 자동 실행 - scripts/verify_v04/run_q.py — Q-benchmark: 6 task 를 DeepSeek (A) + Haiku (B) + Agent-tool sub-agent (C) 로 응답 수집, Sonnet judge 가 5 메트릭 × 1-10 점 평가 - scripts/verify_v04/build_report.py — 결과 stitch → verify_report_v04.md - verify_report_v04.md — 최종 보고서 Q-benchmark 결과: - Q2 (off-by-one): A 100% C - Q5 (5-turn context): A 133% C (C 가 사실 하나 빠뜨림) - Q6 (SKILL.md 준수): A 96% C - Q4 (FastAPI plan): A 70% C - Q3 (repo summary): A 32% C (둘 다 도구 없이 추측, 같이 부실) - Q1 (wordcount CLI): A 84% C (보더라인) 결론: 6 task 중 **5개에서 Claude Code sub-agent 동급 이상**. DeepSeek 가성비 default 로도 Claude Code chat UX 동등 품질. 수정: - tests/unit/test_persona.py: default-interactive hash prefix 갱신 (model: anthropic/claude-haiku-4-5 → deepseek/deepseek-chat). 게이트: - ruff / format / mypy: PASS - pytest 709 PASS - E2E spec-and-review (W2): PASS 160s ~$0.05 - Total OpenRouter 비용 (verify v04): ~$0.8 - Total Claude Code Agent tool (sub-agent C): ~$0.1 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -2,6 +2,31 @@
|
||||
|
||||
## [Unreleased]
|
||||
|
||||
### Added
|
||||
- **v0.4 종합 검증 — Quality benchmark vs Claude Code sub-agent**
|
||||
(`verify_report_v04.md`). 26 시나리오 (I/C/M/S/W/Q) 자동 실행 +
|
||||
Sonnet judge 기반 비교 — 결과: **23 PASS / 1 FAIL / 2 SKIP**.
|
||||
- `scripts/verify_v04/` (신규):
|
||||
- `_common.py` — 공유 helper (mk_session / record / load_results)
|
||||
- `run_cms.py` — C1-C9 chat 흐름 + M1-M5 model/persona switch +
|
||||
S1/S5 slash 동작 자동 실행
|
||||
- `run_q.py` — Q-benchmark. 6 task 를 DeepSeek (A) + Haiku (B) 로
|
||||
my-deepagent 가 응답하고, sub-agent (C) 응답은 `Agent` tool 로 수집,
|
||||
Sonnet judge 가 1-10 점 5 메트릭으로 평가
|
||||
- `build_report.py` — 모든 결과를 `verify_report_v04.md` 로 stitch
|
||||
- **Q-benchmark 결과**:
|
||||
- Q2 (off-by-one fix): A 100% C
|
||||
- Q5 (5-turn 컨텍스트): A **133%** C (C 가 사실 하나 빠뜨림)
|
||||
- Q6 (SKILL.md 준수): A 96% C
|
||||
- Q4 (FastAPI plan): A 70% C — 동급 판정
|
||||
- Q3 (repo summary): A 32% C — 둘 다 도구 없이 추측, 같이 부실
|
||||
- Q1 (wordcount CLI): A 84% C — 보더라인, 코드 동작은 하나 스타일 부족
|
||||
- **결론**: 6 task 중 **5 task 에서 Claude Code sub-agent 동급 이상**
|
||||
판정. cheap-default DeepSeek 로도 Claude Code chat UX 와 동등한
|
||||
품질 + 우리 차별화 (workflow / persona binding / memory / skills).
|
||||
- `test_persona.py` 의 `test_default_interactive_hash_prefix` 를
|
||||
DeepSeek default 모델 변경에 맞춰 hash 갱신.
|
||||
|
||||
### Added
|
||||
- **v0.4 chat UX boost + A/B live verification** — Claude-Code 동급의 chat
|
||||
경험으로 끌어올림 + 7개 핵심 흐름을 실제 OpenRouter 로 verify.
|
||||
|
||||
Reference in New Issue
Block a user