פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL