Fact — claim — Knowledge Tree

Training linear diagonal networks on square loss for regression tasks causes gradient descent to converge to special solutions, such as non-negative ones.

Authors

Person: Samuel Tesfazgi, Leonhard Sprandl, Sandra Hirche Organization: AISTATS
Track: Poster Session 3 - aistats 2026

Sources

Track: Poster Session 3 - aistats 2026 virtual.aistats.org Samuel Tesfazgi, Leonhard Sprandl, Sandra Hirche · AISTATS via serper

Referenced by nodes (2)

gradient descent concept
regression concept