Fact — procedure — Knowledge Tree

Factuality-aware Step-wise Policy Optimization (FSPO) is a reinforcement learning fine-tuning algorithm that incorporates explicit factuality verification at each reasoning step and dynamically adjusts token-level advantage values to maintain factual correctness.

Authors

Person: Not available Organization: GitHub
EdinburghNLP/awesome-hallucination-detection - GitHub

Sources

EdinburghNLP/awesome-hallucination-detection - GitHub github.com GitHub via serper

Referenced by nodes (1)

reinforcement learning concept