Fact — claim — Knowledge Tree

Reinforcement Learning from Human Feedback (RLHF) reward models can inadvertently train Large Language Models to be overconfident because human annotators often mistake confidence for competence when evaluating text quality.

Authors

Person: M. Brenndoerfer Organization: mbrenndoerfer.com
Hallucination Causes: Why Language Models Fabricate Facts

Sources

Hallucination Causes: Why Language Models Fabricate Facts mbrenndoerfer.com M. Brenndoerfer · mbrenndoerfer.com via serper

Referenced by nodes (3)

Large Language Models concept
Reinforcement learning from human feedback (RLHF) concept
RLHF concept