Mówca
Dominik Jur
(Politechnika Wrocławska)
Opis
Nieoczekiwane skutki stosowania algorytmów gradientowych
Prezentacja omawia ukrytą regularyzację – zjawisko, w którym algorytmy optymalizacyjne, bez jawnego członu regularyzującego, preferują pewne rozwiązania, które lepiej generalizują.
Te zjawiska zostaną wyprowadzone za pomocą analizy wstecznej błędu.
- W Gradient Descent, dyskretyzacja kroku (skończony rozmiar $\eta$) jest równoważna dodaniu członu karzącego duże normy gradientu. Algorytm unika stromych regionów, co wyjaśnia lepszą generalizację przy większych krokach.
- W Stochastic Gradient Descent, pojawia się dodatkowy człon regularyzujący, proporcjonalny do wariancji gradientów partii. SGD wybiera minima, w których dane są stabilne, co sprzyja lepszej generalizacji.
Uwaga!!!
Wykład nie zakłada znajomości uczenia maszynowego.
Słowa klucz:
- Uczenie Maszynowe
- Sieci Neuronowe
- Optymalizacja
- Statystyka
- Metody Numeryczne
- Równania Rózniczkowe
Główny autor
Dominik Jur
(Politechnika Wrocławska)