Sveriges mest populära poddar

ExplAInable

Proximal Policy Optimization מה זה

34 min • 16 februari 2022

כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה

SOTA

עד שמגיעה גישה חדשה שטורפת את הקלפים.

לכן מעניין דווקא לדבר על

PPO

שנשאר הגישה הדומיננטי ב

Reinforcement learning

כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.

נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"

Kategorier
Förekommer på
00:00 -00:00