feat: propagate execution evidence across iterations and enhance reports

- Carry execution evidence forward so reviewer/senior prompts in subsequent iterations can inspect prior transcript and command data - Add {execution_evidence} to REVIEW_ONLY templates (en/ko) - Add evidence summary table to iteration reports - Fix test_agentic to match stdin-based prompt delivery for Claude - Add expanded claim/no-change marker tests and cross-iteration evidence propagation tests Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-13 23:36:28 +09:00
parent c467222a2a
commit 87bc0ffbfb
5 changed files with 591 additions and 10 deletions
--- a/cross_eval/report.py
+++ b/cross_eval/report.py
@@ -58,6 +58,12 @@ _STRINGS: dict[str, dict[str, str]] = {
        "metrics_total_issues": "Total Issues",
        "metrics_na": "N/A",
        "iteration_details": "Iteration Details",
+        "evidence_summary": "Evidence Summary",
+        "evidence_agent": "Agent",
+        "evidence_exit_code": "Exit Code",
+        "evidence_duration": "Duration",
+        "evidence_output_size": "Output Size",
+        "evidence_transcript": "Execution transcript",
    },
    "ko": {
        "title": "교차 검증 리포트",
@@ -99,6 +105,12 @@ _STRINGS: dict[str, dict[str, str]] = {
        "metrics_total_issues": "총 이슈",
        "metrics_na": "해당 없음",
        "iteration_details": "반복 상세",
+        "evidence_summary": "실행 증거 요약",
+        "evidence_agent": "에이전트",
+        "evidence_exit_code": "종료 코드",
+        "evidence_duration": "소요 시간",
+        "evidence_output_size": "출력 크기",
+        "evidence_transcript": "실행 트랜스크립트",
    },
 }

@@ -377,6 +389,30 @@ def _append_iteration_steps(
    If *skip_extraction* is True, out-of-scope and review-metrics parsing
    is skipped (useful when a pre-scan already collected that data).
    """
+    # Evidence summary table — quick overview of all steps' execution data
+    has_evidence = any(
+        iter_result.step_results.get(s.output_key) for s in steps
+    )
+    if has_evidence:
+        s_step = _t(config, "step")
+        s_agent = _t(config, "evidence_agent")
+        s_exit = _t(config, "evidence_exit_code")
+        s_dur = _t(config, "evidence_duration")
+        s_size = _t(config, "evidence_output_size")
+        lines.append(f"**{_t(config, 'evidence_summary')}**\n")
+        lines.append(f"| {s_step} | {s_agent} | {s_exit} | {s_dur} | {s_size} |")
+        lines.append("|------|-------|-----------|----------|-------------|")
+        for step in steps:
+            ar = iter_result.step_results.get(step.output_key)
+            out = iter_result.step_outputs.get(step.output_key, "")
+            if ar:
+                lines.append(
+                    f"| {step.name} | {ar.agent_name} "
+                    f"| {ar.exit_code} | {ar.duration_seconds}s "
+                    f"| {len(out)} chars |"
+                )
+        lines.append("")
+
    for step in steps:
        agent_result = iter_result.step_results.get(step.output_key)
        output = iter_result.step_outputs.get(step.output_key, "")
@@ -410,8 +446,9 @@ def _append_iteration_steps(
            transcript_preview = agent_result.transcript[:1500]
            if len(agent_result.transcript) > 1500:
                transcript_preview += "\n... (truncated)"
+            transcript_label = _t(config, "evidence_transcript")
            lines.append("<details>")
-            lines.append("<summary>Execution transcript</summary>\n")
+            lines.append(f"<summary>{transcript_label}</summary>\n")
            lines.append(transcript_preview)
            lines.append("\n</details>\n")