[FR-006] Orchestrator aggregates per-eval scores into RunAggregates summary

**Trace**: PRD prd-v0-1-smoke-evaluation-run · FR-006 · SPEC RunAggregates schema (architect finding #2 resolution)

**Capability**: At status=aggregating step, compute `counts_by_status`, `counts_by_error_class`, `total_cost_usd`, `total_wall_clock_ms`, `per_task_metrics`, `budget_breach`, `available_models_count` per SPEC `RunAggregates`.

**Acceptance**:
- [ ] `counts_by_status` sum equals len(evals[]) (invariant for FR-009)
- [ ] `total_cost_usd` cross-checked with LiteLLM proxy /credits
- [ ] AC-5 from SPEC: failed eval present in evals[] + reflected in counts_by_status.failed

**Implementation locus**: `apps/eval-core-py/src/orchestrator/aggregates.py`

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[FR-006] Orchestrator aggregates per-eval scores into RunAggregates summary #6

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Uh oh!

[FR-006] Orchestrator aggregates per-eval scores into RunAggregates summary #6

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions