feat: tighten agentic runtime handoffs and quality gates
This commit is contained in:
@@ -15,58 +15,39 @@ from cross_eval.models import PhaseConfig, StepConfig
|
||||
CODING_TEMPLATE = """\
|
||||
You are tasked with implementing code based on a plan and checklist.
|
||||
|
||||
## Plan
|
||||
{plan}
|
||||
|
||||
## Checklist
|
||||
{checklist}
|
||||
|
||||
## Reference Documents
|
||||
{docs}
|
||||
|
||||
## Previous Review Feedback
|
||||
{feedback}
|
||||
## Artifact References
|
||||
{artifact_references}
|
||||
|
||||
## Iteration
|
||||
This is iteration {iteration} of {max_iterations}.
|
||||
|
||||
## Instructions
|
||||
1. Explore the project directory to understand the existing codebase structure.
|
||||
2. Implement ONLY what the plan specifies. Do NOT add extra features, \
|
||||
1. Read the referenced plan/checklist/docs/review artifacts directly from disk.
|
||||
2. Explore the project directory and git state to understand the current codebase structure.
|
||||
3. Implement ONLY what the plan specifies. Do NOT add extra features, \
|
||||
unnecessary abstractions, or premature optimizations.
|
||||
3. Follow every item in the checklist.
|
||||
4. If there is previous feedback, address ONLY the specific issues mentioned.
|
||||
5. If previous feedback contains items marked as DISMISSED or false positive, \
|
||||
4. Follow every item in the checklist.
|
||||
5. If there is previous feedback in the referenced markdown artifacts, address ONLY those issues.
|
||||
6. If previous feedback contains items marked as DISMISSED or false positive, \
|
||||
IGNORE those items — they have been verified as correct.
|
||||
6. Output the complete implementation.
|
||||
7. Prefer git and markdown artifacts as the source of truth. Use commit hashes, `git show`, `git diff`, and referenced markdown files instead of relying on inline summaries.
|
||||
8. Output the complete implementation.
|
||||
"""
|
||||
|
||||
REVIEW_TEMPLATE = """\
|
||||
You are tasked with reviewing code against a plan and checklist.
|
||||
|
||||
## Plan
|
||||
{plan}
|
||||
|
||||
## Checklist
|
||||
{checklist}
|
||||
|
||||
## Reference Documents
|
||||
{docs}
|
||||
|
||||
## Coding Output / Previous Step Output
|
||||
{coding_output}
|
||||
|
||||
## Previous Review Feedback
|
||||
{feedback}
|
||||
## Artifact References
|
||||
{artifact_references}
|
||||
|
||||
## Execution Evidence
|
||||
{execution_evidence}
|
||||
|
||||
## Review Instructions
|
||||
Explore the project directory to understand the full codebase context, \
|
||||
then evaluate the code against ONLY the plan and checklist above. \
|
||||
Use the execution evidence above to verify agent claims against actual \
|
||||
command outputs and exit codes.
|
||||
Read the referenced plan/checklist/docs/review artifacts directly from disk. \
|
||||
Inspect the referenced commit/git state and markdown artifacts, then evaluate \
|
||||
the code against ONLY the plan and checklist. Use the execution evidence above \
|
||||
to verify agent claims against actual command outputs, artifact paths, and exit codes.
|
||||
|
||||
For each issue found, classify it with BOTH severity AND category:
|
||||
|
||||
@@ -127,55 +108,36 @@ Otherwise output: VERDICT: FAIL
|
||||
CODING_TEMPLATE_KO = """\
|
||||
당신은 기획서와 체크리스트를 기반으로 코드를 구현하는 개발자입니다.
|
||||
|
||||
## 기획서
|
||||
{plan}
|
||||
|
||||
## 체크리스트
|
||||
{checklist}
|
||||
|
||||
## 참고 문서
|
||||
{docs}
|
||||
|
||||
## 이전 리뷰 피드백
|
||||
{feedback}
|
||||
## 참조 아티팩트
|
||||
{artifact_references}
|
||||
|
||||
## 반복 정보
|
||||
현재 {max_iterations}회 중 {iteration}번째 반복입니다.
|
||||
|
||||
## 지침
|
||||
1. 프로젝트 디렉토리를 탐색하여 기존 코드베이스 구조를 파악하세요.
|
||||
2. 기획서에 명시된 것만 구현하세요. 추가 기능, 불필요한 추상화, 과도한 최적화를 하지 마세요.
|
||||
3. 체크리스트의 모든 항목을 충족하세요.
|
||||
4. 이전 리뷰 피드백이 있다면 해당 이슈만 해결하세요.
|
||||
5. 이전 피드백에서 DISMISSED 또는 오탐으로 표시된 항목은 무시하세요 — 이미 올바른 것으로 검증되었습니다.
|
||||
6. 완전한 구현을 출력하세요.
|
||||
1. 참조된 plan/checklist/docs/review markdown를 직접 읽으세요.
|
||||
2. 프로젝트 디렉토리와 git 상태를 탐색하여 현재 코드베이스 구조를 파악하세요.
|
||||
3. 기획서에 명시된 것만 구현하세요. 추가 기능, 불필요한 추상화, 과도한 최적화를 하지 마세요.
|
||||
4. 체크리스트의 모든 항목을 충족하세요.
|
||||
5. 참조된 이전 리뷰 피드백이 있다면 해당 이슈만 해결하세요.
|
||||
6. 이전 피드백에서 DISMISSED 또는 오탐으로 표시된 항목은 무시하세요 — 이미 올바른 것으로 검증되었습니다.
|
||||
7. inline 요약보다 git commit hash, `git show`, `git diff`, markdown 아티팩트를 우선 사용하세요.
|
||||
8. 완전한 구현을 출력하세요.
|
||||
"""
|
||||
|
||||
REVIEW_TEMPLATE_KO = """\
|
||||
당신은 기획서와 체크리스트 기준으로 코드를 검토하는 리뷰어입니다.
|
||||
|
||||
## 기획서
|
||||
{plan}
|
||||
|
||||
## 체크리스트
|
||||
{checklist}
|
||||
|
||||
## 참고 문서
|
||||
{docs}
|
||||
|
||||
## 검토 대상 코드
|
||||
{coding_output}
|
||||
|
||||
## 이전 리뷰 피드백
|
||||
{feedback}
|
||||
## 참조 아티팩트
|
||||
{artifact_references}
|
||||
|
||||
## 실행 증거
|
||||
{execution_evidence}
|
||||
|
||||
## 검토 지침
|
||||
프로젝트 디렉토리를 직접 탐색하여 전체 코드베이스 맥락을 파악한 뒤, \
|
||||
위 기획서와 체크리스트 기준으로만 코드를 평가하세요. \
|
||||
위 실행 증거를 활용하여 에이전트의 주장을 실제 명령어 출력과 종료 코드로 검증하세요.
|
||||
참조된 plan/checklist/docs/review markdown와 git 상태를 직접 읽고, \
|
||||
그 내용을 기준으로만 코드를 평가하세요. \
|
||||
위 실행 증거를 활용하여 에이전트의 주장을 실제 명령어 출력, 아티팩트 경로, 종료 코드로 검증하세요.
|
||||
|
||||
발견된 각 이슈에 심각도와 카테고리를 모두 부여하세요:
|
||||
|
||||
@@ -307,25 +269,16 @@ Otherwise output: VERDICT: FAIL
|
||||
REVIEW_ONLY_TEMPLATE_KO = """\
|
||||
당신은 기존 코드를 기획서와 체크리스트 기준으로 감사하는 리뷰어입니다.
|
||||
|
||||
## 기획서
|
||||
{plan}
|
||||
|
||||
## 체크리스트
|
||||
{checklist}
|
||||
|
||||
## 참고 문서
|
||||
{docs}
|
||||
|
||||
## 이전 리뷰 결과 ({max_iterations}회 중 {iteration}번째)
|
||||
{feedback}
|
||||
## 참조 아티팩트
|
||||
{artifact_references}
|
||||
|
||||
## 실행 증거
|
||||
{execution_evidence}
|
||||
|
||||
## 검토 지침
|
||||
프로젝트 디렉토리를 직접 탐색하여 전체 코드베이스를 파악한 뒤, \
|
||||
위 기획서와 체크리스트 기준으로 **기존 코드**를 평가하세요. \
|
||||
위 실행 증거를 활용하여 에이전트의 주장을 실제 명령어 출력과 종료 코드로 검증하세요.
|
||||
참조된 plan/checklist/docs/review markdown와 git 상태를 직접 읽고, \
|
||||
그 내용을 기준으로 **기존 코드**를 평가하세요. \
|
||||
위 실행 증거를 활용하여 에이전트의 주장을 실제 명령어 출력, 아티팩트 경로, 종료 코드로 검증하세요.
|
||||
|
||||
코드를 생성하거나 수정하지 마세요. 이미 존재하는 코드를 감사하는 것이 목적입니다.
|
||||
|
||||
@@ -522,23 +475,8 @@ PLAN_REVIEW_TEMPLATE_KO = """\
|
||||
AGGREGATE_REVIEW_TEMPLATE = """\
|
||||
You are adjudicating multiple review results and turning them into an actionable decision.
|
||||
|
||||
## Plan
|
||||
{plan}
|
||||
|
||||
## Checklist
|
||||
{checklist}
|
||||
|
||||
## Reference Documents
|
||||
{docs}
|
||||
|
||||
## Candidate Outputs
|
||||
{candidate_outputs}
|
||||
|
||||
## Reviewer Findings
|
||||
{reviews_bundle}
|
||||
|
||||
## Previous Verification Feedback
|
||||
{feedback}
|
||||
## Artifact References
|
||||
{artifact_references}
|
||||
|
||||
## Previous Issue Tracker
|
||||
{previous_senior_tracker}
|
||||
@@ -547,9 +485,10 @@ You are adjudicating multiple review results and turning them into an actionable
|
||||
{execution_evidence}
|
||||
|
||||
## Instructions
|
||||
Explore the project directory to confirm the current codebase state. \
|
||||
Use the execution evidence above to verify claims against actual command \
|
||||
outputs and exit codes. Then:
|
||||
Read the referenced plan/checklist/docs/review artifacts directly from disk. \
|
||||
Explore the project directory and the referenced git commit/diff to confirm the \
|
||||
current codebase state. Use the execution evidence above to verify claims against \
|
||||
actual command outputs, artifact paths, and exit codes. Then:
|
||||
1. Deduplicate overlapping issues across reviewers.
|
||||
2. Resolve disagreements explicitly.
|
||||
3. Keep only issues supported by the plan, checklist, code, or reviewer evidence.
|
||||
@@ -594,23 +533,8 @@ VERDICT: PASS or VERDICT: FAIL or VERDICT: ESCALATE
|
||||
AGGREGATE_REVIEW_TEMPLATE_KO = """\
|
||||
당신은 여러 리뷰 결과를 판정하고 coder가 수정할 액션으로 정리하는 시니어 리뷰어입니다.
|
||||
|
||||
## 기획서
|
||||
{plan}
|
||||
|
||||
## 체크리스트
|
||||
{checklist}
|
||||
|
||||
## 참고 문서
|
||||
{docs}
|
||||
|
||||
## 후보 결과물
|
||||
{candidate_outputs}
|
||||
|
||||
## 개별 리뷰 결과
|
||||
{reviews_bundle}
|
||||
|
||||
## 이전 검증 피드백
|
||||
{feedback}
|
||||
## 참조 아티팩트
|
||||
{artifact_references}
|
||||
|
||||
## 이전 이슈 트래커
|
||||
{previous_senior_tracker}
|
||||
@@ -619,8 +543,8 @@ AGGREGATE_REVIEW_TEMPLATE_KO = """\
|
||||
{execution_evidence}
|
||||
|
||||
## 지침
|
||||
프로젝트 디렉토리를 탐색하여 현재 코드베이스 상태를 확인한 뒤, \
|
||||
위 실행 증거를 활용하여 에이전트의 주장을 실제 명령어 출력과 종료 코드로 검증하세요. \
|
||||
참조된 plan/checklist/docs/review markdown와 git 상태를 직접 읽어 현재 코드베이스 상태를 확인한 뒤, \
|
||||
위 실행 증거를 활용하여 에이전트의 주장을 실제 명령어 출력, 아티팩트 경로, 종료 코드로 검증하세요. \
|
||||
그런 다음 아래를 수행하세요.
|
||||
1. 리뷰어들 사이에 중복되는 이슈를 합치세요.
|
||||
2. 의견 충돌은 명시적으로 정리하세요.
|
||||
|
||||
Reference in New Issue
Block a user