rm-robustness

community

AI & ML interests

None defined yet.

Recent Activity

amphora submitted a paper about 5 hours ago

Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

JW17 authored a paper 7 months ago

AlphaPO -- Reward shape matters for LLM alignment

JW17 authored a paper 7 months ago

Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning

View all activity

rm-robustness 's datasets 5

rm-robustness/ultrafeedback-valid-4-mutual-ood

Viewer • Updated May 11, 2025 • 11.1k • 2

rm-robustness/ultrafeedback-valid-3-response-ood

Viewer • Updated May 11, 2025 • 51.2k • 1

rm-robustness/ultrafeedback-valid-2-prompt-ood

Viewer • Updated May 11, 2025 • 11.1k • 2

rm-robustness/ultrafeedback-valid-1-in-domain

Viewer • Updated May 11, 2025 • 51.2k • 7

rm-robustness/ultrafeedback-train

Viewer • Updated May 11, 2025 • 51.2k • 1

rm-robustness (rm-robustness)

rm-robustness

community

AI & ML interests

None defined yet.

Recent Activity

amphora submitted a paper about 5 hours ago

Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

JW17 authored a paper 7 months ago

AlphaPO -- Reward shape matters for LLM alignment

JW17 authored a paper 7 months ago

Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning

View all activity

rm-robustness 's datasets 5

rm-robustness/ultrafeedback-valid-4-mutual-ood

Viewer • Updated May 11, 2025 • 11.1k • 2

rm-robustness/ultrafeedback-valid-3-response-ood

Viewer • Updated May 11, 2025 • 51.2k • 1

rm-robustness/ultrafeedback-valid-2-prompt-ood

Viewer • Updated May 11, 2025 • 11.1k • 2

rm-robustness/ultrafeedback-valid-1-in-domain

Viewer • Updated May 11, 2025 • 51.2k • 7

rm-robustness/ultrafeedback-train

Viewer • Updated May 11, 2025 • 51.2k • 1