Fact — claim — Knowledge Tree

Methods to align Large Language Model outputs with human preferences include direct preference optimization (DPO), reinforcement learning from human feedback (RLHF), and AI feedback (RLAIF), often utilizing proximal policy optimization (PPO) as a training mechanism.

Authors

Person: Not available Organization: medRxiv
Medical Hallucination in Foundation Models and Their Impact on ...

Sources

Medical Hallucination in Foundation Models and Their Impact on ... www.medrxiv.org medRxiv via serper

Referenced by nodes (2)

Reinforcement learning from human feedback (RLHF) concept
Direct Preference Optimization (DPO) concept