Add CritPt Benchmark by fsiino-nvidia · Pull Request #1588 · NVIDIA-NeMo/Gym

fsiino-nvidia · 2026-06-12T19:07:08Z

Fixes DCO issue in #1537

--

Migrates the CritPt benchmark from nemo-skills into nemo-gym. This keeps the workflow gym-shaped (per-rollout reward flowing through the standard /verify contract).

How it works in gym:

Architecture - Single phase: agent runs per-rollout /run -> /verify.
Batching - Resources server buffers concurrent verify() calls until 70 unique problem_ids accumulate, then fires once and resolves all 70 awaiting futures with the same aggregate accuracy
num_repeats > 1 - Each repeat of a problem_id opens a new pending batch. N repeats -> N independent AA API calls.
Reward - Same as skills in that the aggregate is distributed to all batch members as their reward.
Headline metric - pass@k/accuracy via compute_metrics override. Numerically equal to nemo-skills' accuracy at num_repeats=1.

Test results:
With ultra mopd/step36 checkpoint:

Key metrics for critpt_benchmark_agent:
{
    "mean/reward": 0.05714285714285713,
    "mean/accuracy": 0.05714285714285713,
    "mean/timeout_rate": 0.0,
    "mean/input_tokens": 6107.028571428571,
    "mean/output_tokens": 2514.1857142857143,
    "mean/total_tokens": 8621.214285714286
}

wandb: https://wandb.ai/nvidia/fsiino-gym-dev/runs/lle631hq

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

…data Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

…prompt_fpath, fix requirements path, add tests Signed-off-by: Frankie Siino <fsiino@nvidia.com>

…for pydantic serialization warnings Signed-off-by: Frankie Siino <fsiino@nvidia.com>

- Log per-verify buffer fill in verify() - Add /status route for curling Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

This reverts commit 65c860b. Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

- Move custom agent + example dataset into resources_server config (matches the convention for custom-agent paired benchmarks) - Trim benchmarks/critpt/config.yaml; delete unused agent config - Move example_metrics.json to resources_server data dir; regenerate against the curated example.jsonl - Simplify benchmarks/critpt/data/.gitignore to *.jsonl Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

… update docs Signed-off-by: Frankie Siino <fsiino@nvidia.com>

- Correct reward in benchmark readme - Correct log prefix in /status - Distinguish flat-field vs pre-materialized jsonls - Fix output_jsonl_fpath collision risk Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

cmunley1

would be good to reproduce some other models eg kimi, minimax, but lgtm

…rk-fix-dco Signed-off-by: Frankie Siino <fsiino@nvidia.com>

gwarmstrong

small request for additional fields

gwarmstrong · 2026-06-16T21:08:47Z

+          type: example
+          jsonl_fpath: resources_servers/critpt/data/example.jsonl
+          prompt_config: benchmarks/critpt/prompts/turn1.yaml
+          num_repeats: 1


can you add the license?

also description and value?

Added all 3 in 719cd07 . Thanks!

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

…rk-fix-dco Signed-off-by: Frankie Siino <fsiino@nvidia.com>

fsiino-nvidia added 28 commits April 17, 2026 15:54

Init critpt resource

5c8092f

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Add tests

fe7228c

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Add 2 turn flow, wire agent to env, add tests

01fcf92

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Add critpt benchmark - data prep, multiturn prompts, config, example …

5057424

…data Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Refactor turn2 prompt config path

4da9aac

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Strip thinking blocks from turn 1 for turn 2, resolve relative turn2_…

ca3b289

…prompt_fpath, fix requirements path, add tests Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Batch verify() into one AA API submission, use typed Turn 2 messages …

0165fbd

…for pydantic serialization warnings Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Add run progress signals for batched submissions

41db738

- Log per-verify buffer fill in verify() - Add /status route for curling Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Enable num_repeats > 1

0023a6c

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Make compute_metrics override emit as pass@k/accuracy

3546926

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Log exception from AA, add timeout, add debugging for when batch fires

1d46a78

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Merge remote-tracking branch 'github/main' into fsiino/critpt-benchmark

7de947c

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Skip api key false positive

4285f17

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Docs updates

3340eed

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Add progress counter for better tracking of tail of log file

9e1abc4

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Make AA api batch firing sequential

65c860b

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Revert "Make AA api batch firing sequential"

b5539a0

This reverts commit 65c860b. Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Make AA api batch firing sequential [corrected]

a29beb3

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Merge remote-tracking branch 'github/main' into fsiino/critpt-benchmark

9047d22

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Clarify observability in readme

659b620

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Merge remote-tracking branch 'github/main' into fsiino/critpt-benchmark

fc412dc

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Drop auto-gen example in data prep, add example + example_rollouts

1f5c575

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Fix typo, remove unneeded num_repeats

6ec7f80

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Update example rollouts with padding of empty dummies for smoke test,…

d3b1353

… update docs Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Fix READMEs inaccuracies

ef7c72d

- Correct reward in benchmark readme - Correct log prefix in /status - Distinguish flat-field vs pre-materialized jsonls - Fix output_jsonl_fpath collision risk Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Add timeout to bound await-future hang if sibling rollout dies

b38e4a8

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

Clean comment blocks

0cf282b

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

copy-pr-bot Bot temporarily deployed to public June 12, 2026 19:07 Inactive

copy-pr-bot Bot temporarily deployed to public June 12, 2026 19:08 Inactive

copy-pr-bot Bot temporarily deployed to public June 12, 2026 19:09 Inactive

fsiino-nvidia changed the title ~~Fsiino/critpt benchmark fix dco~~ Add CritPt Benchmark Jun 12, 2026

cmunley1 previously approved these changes Jun 12, 2026

View reviewed changes

cmunley1 requested a review from jiacheng-xu June 12, 2026 21:14

fsiino-nvidia requested a review from gwarmstrong June 16, 2026 20:32

Merge remote-tracking branch 'github/main' into fsiino/critpt-benchma…

1022c11

…rk-fix-dco Signed-off-by: Frankie Siino <fsiino@nvidia.com>

copy-pr-bot Bot temporarily deployed to public June 16, 2026 20:38 Inactive

copy-pr-bot Bot temporarily deployed to public June 16, 2026 20:39 Inactive

copy-pr-bot Bot temporarily deployed to public June 16, 2026 20:40 Inactive

gwarmstrong requested changes Jun 16, 2026

View reviewed changes

Add license, desc, value

719cd07

Signed-off-by: Frankie Siino <fsiino@nvidia.com>

fsiino-nvidia dismissed cmunley1’s stale review via 719cd07 June 16, 2026 21:21

copy-pr-bot Bot temporarily deployed to public June 16, 2026 21:22 Inactive

Merge remote-tracking branch 'github/main' into fsiino/critpt-benchma…

a4fe408

…rk-fix-dco Signed-off-by: Frankie Siino <fsiino@nvidia.com>

copy-pr-bot Bot temporarily deployed to public June 16, 2026 21:24 Inactive

gwarmstrong approved these changes Jun 16, 2026

View reviewed changes

gwarmstrong merged commit 74ebce9 into main Jun 16, 2026
16 checks passed

gwarmstrong deleted the fsiino/critpt-benchmark-fix-dco branch June 16, 2026 21:25

copy-pr-bot Bot temporarily deployed to public June 16, 2026 21:25 Inactive

linj-glitch mentioned this pull request Jun 18, 2026

fix: resolve CritPt benchmark config interpolation and add critpt_agent README #1642

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add CritPt Benchmark#1588

Add CritPt Benchmark#1588
gwarmstrong merged 31 commits into
mainfrom
fsiino/critpt-benchmark-fix-dco

fsiino-nvidia commented Jun 12, 2026 •

edited

Loading

Uh oh!

cmunley1 left a comment

Uh oh!

gwarmstrong left a comment

Uh oh!

gwarmstrong Jun 16, 2026

Uh oh!

gwarmstrong Jun 16, 2026

Uh oh!

fsiino-nvidia Jun 16, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Conversation

fsiino-nvidia commented Jun 12, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

cmunley1 left a comment

Choose a reason for hiding this comment

Uh oh!

gwarmstrong left a comment

Choose a reason for hiding this comment

Uh oh!

gwarmstrong Jun 16, 2026

Choose a reason for hiding this comment

Uh oh!

gwarmstrong Jun 16, 2026

Choose a reason for hiding this comment

Uh oh!

fsiino-nvidia Jun 16, 2026

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

fsiino-nvidia commented Jun 12, 2026 •

edited

Loading