Start / ExplAInable / %d7%a2%d7%9c %d7%94%d7%aa%d7%90%d7%95%d7%a8%d7%99%d7%94 %d7%a9%d7%9c replay buffer %d7%a2%d7%9d %d7%a9%d7%99%d7%a8%d7%9c%d7%99 %d7%93%d7%99 %d7%a7%d7%a1%d7%98%d7%a8%d7%95 %d7%a9%d7%a2%d7%a9%d7%95

על התאוריה של Replay Buffer עם שירלי די קסטרו שעשוע

21 min • 16 april 2023

פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא

On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא

Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.

שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL

Kategorier

Poddar Vetenskap

Förekommer på

Vetenskap

00:00 -00:00