Sveriges mest populära poddar

ExplAInable

על התאוריה של Replay Buffer עם שירלי די קסטרו שעשוע

21 min • 16 april 2023

פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא

On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא

Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.

שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL

Kategorier
Förekommer på
00:00 -00:00