Fact — claim — Knowledge Tree

Debmalya Mandal, Andi Nika, Parameswaran Kamalaruban, Adish Singla, and Goran Radanovic study data corruption robustness for reinforcement learning with human feedback (RLHF) in an offline setting.

Authors

Person: Samuel Tesfazgi, Leonhard Sprandl, Sandra Hirche Organization: AISTATS
Track: Poster Session 3 - aistats 2026

Sources

Track: Poster Session 3 - aistats 2026 virtual.aistats.org Samuel Tesfazgi, Leonhard Sprandl, Sandra Hirche · AISTATS via serper

Referenced by nodes (1)

Reinforcement learning from human feedback (RLHF) concept