אורי גורן ותמיר נווה מדברים על
Machine Learning
ואתגרים בתעשייה עם מומחים מהתחום.
The podcast ExplAInable is created by Tamir Nave & Uri Goren. The podcast and the artwork on this page are embedded on this page using the public podcast feed (RSS).
היום בפרק נדבר עם סרג' סמורדינסקי, ראש תחום NLP ומחקר ב-Loris AI, לשיחה על חלופות להנדסת פרומפטים וכלי DSPy.
סרג' ישתף על האתגרים בעבודה עם מודלים לשוניים גדולים (LLMs)
וכיצד DSPy מאפשר יצירת פרומפטים דינמיים ואופטימליים.
נציע מבט חדשני על עתיד ה-NLP ושיטות עבודה מתקדמות בתעשייה.
ברוכים הבאים לפרק סיכום שנת 2024! הפעם שוחחנו עם איתן צימרמן, מוביל צוות הדאטא סייאנס ב-ARGMAX,
סיכמנו את שנת 2024 ועל המגמות, האתגרים וטרנדים שנתקלנו בהם לאורך השנה
בנוסף, שיתפנו את התחזיות שלנו לשנת 2025 – אילו טרנדים חדשים צפויים לצבור תאוצה? אילו בעיות טכנולוגיות נצטרך לפתור?
מה אתם צופים ששנת 2025 תביא איתה בעולמות הML?
היום בפרק נצלול לעומק עולמות האקדמיה בתחום הNLP
אבי ואמיר, חוקרים ומומחים בעולמות ה-NLP, משתפים במסלולי הקריירה שלהם, ההבדלים בין מחקר באקדמיה לעבודה בתעשייה, וכיצד ניתן למנף דוקטורט לקריירה מצליחה. נדון גם בשאלה מה הופך מחקר אקדמי למעניין, אילו כישורים ניתן לפתח בתהליך הדוקטורט, ומהם ההבדלים בין מחקר לתעשייה בעידן של LLMs
בפרק הבא נחקור יחד עם הדר שרביט את השילוב בין פיזיקה ללמידת מכונה בחיזוי סדרות זמן. נדון בהבדלים בין חיזוי לניבוי בזמן אמת, באתגרים תעשייתיים, ובדרכים שבהן מודלים פיזיקליים ונתוני חיישנים משתלבים כדי ליצור פתרונות מתקדמים.
בפרק זה נדבר עם לירון יצחקי אלרהנד באתגרים הטכניים ביצירת וידאו באמצעות בינה מלאכותית. נדון בניהול זיכרון, שמירה על קוהרנטיות בין פריימים, והקשרים בין מודלי שפה ליצירת וידאו, ונציג גם פתרונות חדשניים להתמודדות עם תנועות מורכבות ושיפור עקביות ויזואלית
פרק שני בסדרת ״מושג בקצרה עם מייק״ בה נצלול לעומקם של מושגים מעולמות הML וAI. בכל פרק נתמקד במושג אחד מרכזי – נסביר אותו בפשטות, נדון במשמעויותיו המעשיות, ונבחן את השפעתו על התחום והתעשייה.
בפרק זה נשוחח עם בן בורן, CTO של SwarmOne, על האתגרים בהכשרת מודלים בבינה מלאכותית.
בן יסביר על עבודה עם GPU, שמירה על אבטחת מידע, וסקלת מודלים גדולים. הם ונדון גם בהשפעת LLM ובדרכים לייעל את תהליכי ההכשרה.
והפעם, נדון בכל מה שקשור ל-RAG,
והאם אכן מכאן תגיע הישועה לפתרון בעיית ההזיות של מודלי שפה?
בפרק הבא נדבר עם עמית מנדלבאום על התפתחות סוכנים אוטונומיים תוך שימוש במודלים מתקדמים של ראיית מחשב ו-LLMs. נתייחס לאתגרים בשילוב יכולות היסק ושיקול דעת, ולבעיות שהיו בפרויקטים כמו AutoGPT. נציג את הצלחתה של חברת Anthropic בהבנה של פעולות ממסכי מחשב ונסביר כיצד טכנולוגיות אלו משפרות את ההתמודדות עם פעולות ממוחשבות בצורה קרובה להתנהגות אנושית.
https://medium.com/@luke.birdeau/reverse-engineering-chatgpt-o1-5cf3b61c6eee
פרק ראשון בסדרת ״מושג בקצרה עם מייק״ בה נצלול לעומקם של מושגים מעולמות הML וAI. בכל פרק נתמקד במושג אחד מרכזי – נסביר אותו בפשטות, נדון במשמעויותיו המעשיות, ונבחן את השפעתו על התחום והתעשייה.
בפרק הבא נדבר על העולם המורכב של זיהוי טקסט שנוצר על ידי בינה מלאכותית. נסקור את השימושים הנפוצים ב-ChatGPT, מהכתיבה ועד ליישומים אפורים כמו העתקות ובוטים. יחד עם אביב קרן, נדון בשיטות לזיהוי טקסט מג׳ונרט, השפעות על האקדמיה, שימושים בבינה מלאכותית לאימון מודלים, ונדבר גם על האתגרים האתיים והטכנולוגיים שמלווים את התחום.
A Survey on LLM-generated Text Detection: Necessity, Methods, and Future Directions
היום בפרק נעסוק בהבנת למידה ניגודית ובחקר ההתפתחות שלה בשנים האחרונות. נדבר על עקרונות הבסיסיים של למידת קונטרסט, כמו חיפוש דימויים דומים (חיוביים) ודימויים שונים (שליליים), על כך שלפעמים קשה להגדיר את הדימויים השונים בצורה חד משמעית, והצורך בהגדלת כמויות הדאטה כדי להשיג תוצאות טובות יותר. נזכיר את השיטות השונות שהתפתחו, כגון SimCLR ו-Moco, ונסביר את החשיבות של טרנספורמציות והתאמות בתמונות כדי ללמוד את הקשרים האמיתיים בין הדימויים. נתאר גם שיטות מתקדמות יותר כמו "למידת קונטרסט אקוויבריאנטית" ו-"Diff-CSE" שמתמודדות עם אתגרים של אוגמנטציה (הגברת מידע) בתמונות ובטקסטים.
היום בפרק נדבר עם גל פרץ, מהפודקאסט "LangTalks" ומומחה בתחום הבינה המלאכותית. נשוחח על נושאים כמו התפתחות השימוש במודלים של בינה מלאכותית, תפקידם של כלי No-Code בעולם הטכנולוגי, ואיך בינה מלאכותית משפיעה על הגישה ההנדסית והמחקרית של פיתוח מערכות היום. נבחנן גם את האתגרים וההזדמנויות שהתחום מציב עבור אנשי מוצר, מהנדסים וחוקרים, ועל חשיבותם של כלי Prompt Engineering ככלי שימושי בעבודה עם מודלים מתקדמים.
בפרק זה דיברנו על מאמר פורץ דרך בתחום הרובוטיקה: Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
המאמר טוען לשיפור של 46.9% במשימות מוטוריות של רובוטים.
הם מראים תוצאות על סימולציות ועל רובוטים פיסיים. פעולות כמו מזיגה, עירבוב, הנחת ספל והסביבה המפורסמת push-T.
בגדול הם לקחו את מה שכבר סקרנו בעבר stable diffusion לעולם הרובוטיקה, כאשר כאן נכנסת סדרת תמונות (המתקבלות ממצלמת הרובוט) ויש להחזיר סדרת פעולות מוטוריות לרובוט.
וגם כאן יש איטרציות של denoising אבל לא מתמונות אלא מסדרת פעולות מוטוריות.
האם זו המהפיכה הבאה ?
מוזמנים להגיב בדעתכם…
קישורים:
https://arxiv.org/pdf/2303.04137v5
https://diffusion-policy.cs.columbia.edu/
https://mobile-aloha.github.io/
https://wuphilipp.github.io/gello_site/
אחרת הטכניקות הקלאסיות (משנות ה80) שזוכה לאחרונה לפופולאריות מחודשת היא Conformal Prediction.
ברוב משימות הניבוי, לא מספיק לחזות רק מה התוצאה הכי סבירה - אלא מה הן מגוון האפשרויות, ומה הסבירות.
ניקח למשל רופא שצריך לאבחן מטופל על סמך הסימפטומים, תוצאת הדיאגנוזה שלו תגרור את הטיפול המתאים. לכל אבחנה מתוך סט האבחנות יש סיכוי, וייתכן שיידרשו בדיקות נוספות כדי לאסוף עוד נתונים.
ניבוי קונפורמי מנסה לקשור בין רמת הביטחון החזויה, לגודל הקבוצה החזויה.
אורי יסביר כיצד שיטה זו מספקת מסגרת מתמטית שמאפשרת לבצע ניבויים מדויקים יותר עבור מודלים של למידת מכונה, תוך התאמת רמת הוודאות של הניבוי בהתאם לקושי המשימה.
נספר על שלושת שלבי הניבוי, שמתאימים לכל מודל קלאסיפיקציה, ונדבר על ספרית MAPIE שהנגישה את המודל לקהילת הפייתון.
בפרק הבא נדבר על הגרסה החדשה
GPT-4o1,
שמבטיחה יכולות מתקדמות של הסקת מסקנות. מייק יסביר כיצד המודל מנסה להתמודד עם בעיות מורכבות שדורשות יכולת לוגית מרובה, ומעלה את השאלה האם המודל באמת מצליח להתמודד עם משימות הסקה מורכבות או שמא הוא "מגזים" בהערכותיו. נבדוק גם את ההבדלים בין גרסאות קודמות, כמו GPT-3 ו-GPT-4, ונבחן את האתגרים וההזדמנויות שהגרסה החדשה מביאה.
נדבר על איך אנחנו כבני חושבים ולמה הגרסה החדשה אמנם בכיוון הנכון אבל עוד רחוקה מלחשוב כמונו.
בפרק הבא, נצלול לנושא המורכב של מכניסטית אינטרפרטביליות (Mechanistic Interpretability) במודלים של שפה, וננסה לפשט את הדרך בה ניתן להבין מה מתרחש בתוך מודלים אלה. נסביר כיצד מודלים בשימוש רחב כמו טרנספורמרים ומבנים מתמטיים אחרים מנסים לפענח את מנגנוני השפה, אבל נדבר גם על הקושי להבין מה באמת קורה "מאחורי הקלעים" של רשתות נוירונים עמוקות. נבין את השיטות השונות לפרש את פעולת המודל תוך התמקדות בניתוח המכניסטי של שכבות ותהליכים פנימיים.
בפרק הבא, נארח את ניר דיאמנט, יועץ בתחום הבינה המלאכותית הגנרטיבית (GenAI)
שיספר לנו על המסע המקצועי שלו והתפתחויות חדשניות בתחום. ניר מצטרף אלינו בעקבות תרומתו המשמעותית לשיטות
RAG (Retrieval-Augmented Generation)
כולל פיתוחים כמו GenAI Agents ו-Controlable RAG, שזכו להכרה רחבה
ואף פורסמו על ידי מנכ״ל LangChain, האריסון צ׳ייס, כתכנים הפופולריים ביותר שלהם. בפרק נדון בפתרונות לשיפור החיפושים והשליפות, סידור מתקדם של דאטא, התאמות מולטימודל, ו-RAG עם לולאות פידבק להתאמת המידע לסוגי שאילתות שונים.
בפרק הזה דניאל ארונוביץ', מדען נתונים ותיק, מספר על המסע האישי שלו בתעשיית הטכנולוגיה לאורך 15 שנים. ניגע בהבדלים הבולטים בין העבר להווה, בכלים שהשתמשו בעבר לעומת הכלים שמשתמשים בהם היום שמחברים את המדע ישר לפרודקשן.
דניאל מתאר את השינויים במיומנויות הנדרשות ממדעני נתונים, מיכולת ניתוח בלבד להכרח להבין תהליכי פיתוח וניהול גרסאות. נשוחח על האתגרים הטכניים, השינויים בפרקטיקות העבודה, וכיצד התפתח התחום מימי האלגוריתמים הקלאסיים ועד לתפקידי הדאטה המודרניים בעולם התוכנה.
בפרק הזה, דוד שוקרון,
Head of DS & AI
בביטוח ישיר, מספק הצצה לעולם מדעי הנתונים בתעשיית הביטוח. נשמע ממנו על ההבדלים בין אקטואריה ל-Data Science,
ועל איך משלבים DS במערכות ותיקות של חברות ביטוח
דוד יסביר על יישומי DS בתעשייה עתירת נתונים כמו ביטוח, בשימוש בכלים ומודלים שונים, כולל השאלה אם יש צורך בכלים ייחודיים או שניתן להסתפק במוצרי מדף קיימים. בנוסף, נבין איך מודלי שפה משפיעים על תעשיית הביטוח, ומה הכיוונים העתידיים שמעצבים את התחום בעקבות החידושים האחרונים.
.
בפרק זה, אנחנו נשוחח עם אלעד נחמיאס
CTO של Bridgewise,
על השימוש במודלי שפה גדולים (LLMs) בתחום ההשקעות. אלעד יסביר לנו איך משלבים טכנולוגיות מתקדמות כדי לשפר תהליכי הייעוץ והאנליזה, תוך התמודדות עם אתגרים כמו דיוק הנתונים, הטיות פוטנציאליות ושמירה על פרטיות המידע.
נשמע על האתגרים הטכניים והאתיים של יישום
LLMs, איך Bridgewise מוודאת שהפתרונות שלה נשארים שקופים ואחראיים, ומה החזון העתידי שלה לשימוש בטכנולוגיה זו בתעשיית ההשקעות.
בפרק הזה, נצלול יחד עם לירון יצחקי אלרהנד ל
Interleaving Retrieval with Chain of Thought (IRCoT)
שיטה לשיפור מערכות שאלה ותשובה על ידי הרחבה איטרטיבית של תהליך חשיבה ואחזור מידע רלוונטי. נדבר על טכניקות שונות של אחזור אדפטיבי, נשווה את יעילותן על סמך מורכבות השאלה, ונדגיש את החשיבות של בחירת הגישה הנכונה לתרחישים שונים
המלצות של לירון למי שמועניין ללמוד עוד:
https://arxiv.org/abs/2212.10509
לא רק היופי הוא בעיניי המתבונן, מסתבר שגם הדימיון הסמנטי
בפרק הזה ענבל תספר לנו איך התגלגלה מטוקיו ל
בגונג senior staff researcher
כשחושבים על אמבדינגז, הרבה פעמים חושבים על חיפוש וקטורי ו
RAG
נדבר על החשיבות של אמבדינג טוב דווקא בשלב הכרת הדאטא ובחירת דוגמאות מעניינות לאימון.
נסקור את ההיסטוריה של אמבדינג, ללא הקשר, עם הקשר, ועד
Task aware embedding
שהוא צעד ביניים למודל שפה מלא
קישורים:
אינטל העולמית נמצאת השבוע בכותרות בעקבות ההצהרה על הצמצומים, וזו הזדמנות מעולה להזכיר על הפעילות המדהימה של קבוצת הדאטא סיינס של אינטל ישראל.
החודש פורסם כי הקבוצה
AI Solutions Group
זכתה בפרס הארגון המצטיין העולמי של אינטל.
בפרק זה ד"ר אמיתי ערמון יספר לנו על התפקיד שלו בתור ה
Chief Data Scientist
של הקבוצה, מה היא עושה? מה האתגרים היחודיים שלהם? ואיך מתנהלת העבודה של 250 עובדים שבונים ביחד מוצרים מבוססי בינה מלאכותית?
נדבר על פרוייקטים לדוגמא, על ללמים ועל המאמר שכתב
Tabular Data: Deep Learning is Not All You Need
שהגיע השבוע לאלף ציטוטים.
בפרק זה אמיר שחר יספר על שיטה חדשנית שפרסם לשילוב מודלי שפה יחד עם אלגוריתמים.
לפני 20 שנים, כנראה שאם הייתם אומרים AI הייתם מתכוונים לאלגוריתמי חיפוש בעצים.
אלגוריתמי חיפוש כמו
A Star
מנצחים מסטרים בשח מט, ואפילו עוזרים לנו להתמצא בעיר עם Waze.
למעשה, אם מסתכלים עמוק בתוך LLM מגלים גם בו שימושים באלגוריתמי חיפוש.
אמיר יספר מנסיונו איך אפשר לשפר אלגוריתמים, ובפרט אלגוריתמי חיפוש, על ידי שילובם עם מודלי שפה גדולים.
קישורים
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
End-to-End Object Detection with Transformers
https://medium.com/@monocosmo77/best-research-papers-on-vision-transformers-784e48a3593a
https://paperswithcode.com/methods/category/vision-transformer
קישורים
נתנאל, דאטא סיינטינסט ותיק שמוביל היום את המחקר בדאבל וריפיי ידבר איתנו על בעיה כואבת אך נפוצה.
גייסנו תקציבים, כוח אדם, ועם הרבה רצון ומוטיבציה ניגשנו לפרויקט חדש - פתחנו את מכסה המנוע, וגילינו לצערינו שאין מספיק נתונים- מה הלאה ?
נדבר על שלוש טקטיקות שאפשר לנקוט, בין אם זה תיוג עצמאי ורכישת דאטא, שימוש במודלים כגון
Label spreading, transfer learning, kde
או שימוש במודלים אנליטיים יותר, כגון שיטות בייסיאניות או מודלים פיסיקלים.
יצא לנו הרבה לדבר על מודלי שפה גדולים לאחרונה, ועל השימושים שלהם.
למעט שימוש בצ׳אטבוט או כעזר לכתיבה, לרוב אנחנו רוצים לקבל את הפלט של המודל בפורמט כלשהו כמו
Json / Data Class
נדבר על שלושת השלבים ביצירת הפלט, הטוקנייזר, הטרנספורמר, והמפענח.
ונסביר איך אפשר להתערב במפענח כדי לאלץ את המודל כדי לקבל תשובות במבנה מסוים, להכריח את מודל לענות ״כן״ או ״לא״, לאלץ את התשובה להיות מספרית, מתוך רשימה סגורה וכדומה.
ספריות שימושיות:
JSONFormer - https://github.com/1rgs/jsonformer
OpenAI Function calls - https://openai.com/blog/function-calling-and-other-api-updates
O
Data Operations IL
Links:
https://github.com/kkondo1981/aglm
GAM - Generalized additive models
בפרק זה אירחנו את מורן קורן, חוקר ומרצה לתורת המשחקים מאוניברסיטת בן גוריון.
דיברנו בעבר שימוש בערכי שייפלי לפרשנות מודלים, ערכי שייפלי הם נושא מחקר פעיל בתורת המשחקים והחלטנו להעמיק ולשפוך אור על תורת המשחקים ואיך הרעיונות משלימים את הנחקר בלמידת מכונה.
דיברנו על המונחים, מהו שיווי משקל ? איך מגדירים משחקים לפי ידיעה שלמה או גורל, על אסטרטגיה אופטימלית, ואיפה תורת המשחקים פוגשת אותנו כאנשי דאטא.
איך אפשר להשתמש בתורת המשחקים לצורך איסוף דאטא של מודלים כדי למנוע הטייה באיסוף הנתונים.
ונדבר על רעיונות מתורת המשחקים שהשפיעו על תחום המכרזים שמעסיק דאטא סיינטיסטים רבים.
קישורים:
אמיר ואורי נסעו במסגרת עבודתם בארגמקס לכנס הייסטאק
HayStack2023
המתמקד בחיפוש, ואימלקו לכם את הפרק לעשרים דקות צפופות על החידושים בתחום החיפוש בעידן ה
Language models
דיברנו על ארכיטקטורות חיפוש ובנוסף כוסו האלגוריתמים הבאים
בפרק זה אירחנו את רותם דמבו ועומר דודי, שסיפרו לנו על המעבר שעשו בשנה האחרונה, מתפקיד של אנליסט לתפקיד של מדען נתונים.
דיברנו על הפערים "התרבותיים" בין המקצועות, אילו יתרונות יש לאנליסט שמחפש להכנס לתחום מדעי הנתונים, אילו השלמות כדאי לעשות ואיזה טיפים יש להם לתת למי שנכנס לתחום.
הם יספרו על ההחלטה לעשות את המעבר, על הלימודים בתוכנית Y-DATA, על איך התוכנית סייעה להם במעבר ועל מה הם עושים כיום.
קשה לעבור ברחוב היום בלי לשמוע מישהו מספר לחברו על צ'אט ג'י פי טי או
LLM
אחד החידושים באימון שלו, למעשה ב
InstructGPT
היו השימוש בלמידה חיזוקית על בסיס דאטא מתויג אנושי בתהליך הדגימה
נספר על אלגוריתם ה
RLHF
ושילובו בתוך מודלי השפה
LLM
בפרק זה נדבר עם אוהד מדילטייל, העוסק בניתוח סיבתיות.
אנחנו כולנו למדנו בטירונות דאטא סיינס ש
Correlation does not imply causation
אבל מה כן ? האם חייבים לבצע ניסויים מדוקדקים? והאם זה רלוונטי רק לעולם הרפואה או לכולנו ?
קישורים:
מאמר של אוהד https://arxiv.org/abs/2207.01722
מאמר Ascarza
וקטורים, וקטורים בכל מקום ! דיברנו על מילים שהופכות לוקטורים, מסמכים שהופכים לוקטורים, תמונות שהופכות לוקטורים.
אבל ברוב המקרים, נדרש חיפוש של וקטורים דומים למשימות של קלאסיפיקציה, דירוג ואפילו זיהוי אנומליות.
חיפוש וקטורי בקנה מידה גדול זו בעיה הנדסית לא פשוטה, עם אילוצי זמן ריצה וזכרון.
בפרק קצרצר זה, נסקור שלושה אלגוריתמים לחיפוש מקורב ונדבר על סוגי הוקטורים המתאימים.
פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL
פרק זה הוא חסות מיוחד בשיתוף אנבידיה, שמוקדש לג'וניורים.
אנבידיה הפיקה את כנס ה
GTC
עם דגש מיוחד השנה של גנרטיב - להרשמה לחצו פה
בפרק ראיינו חמישה דאטא סיינטיסטים טריים: צחי מורד, טלחיים דמארי, נתי מגור, דין עזרא ואבי חביב.
בפרק זה אירחנו את איתן נצר, מ
data heroes
לדבר על בחירה חכמה של דגימות לצורך אימון מודלים.
אנחנו בעידן הדאטא, נאספים טרות של אירועים מדי יום - אבל המודל שלנו לאו דווקא מרוויח מכל השפע הזה.
האם אפשר להגיע לביצועים דומים עם שבריר הדאטא ובחירה חכמה של הדגימה ?
איתן יספר לנו על גישת ה
core set
שחקר, והחליט לימים להקים את דאטאהירוז על מנת להנגיש את הטכנולוגיה.
מבין המשקיעים בחברה, נמצא גם
Andrew Ng
שהוא מאמין גדול ב
Data Centric AI
קישורים:
בפרק זה נציג את אתגר הלווינות החדש בסדרת MAFAT Challenge.
אירחנו את ליאל ממפא"ת ואת שי ועידן מ-Webiks.
דיברנו על מהפכת החלל, האתגר בזיהוי אובייקטים מתצלומי לוויין במאפיינים שונים וההבדלים ביחס לגילוי אובייקטים קלאסיים.
קישור לתחרות:
https://codalab.lisn.upsaclay.fr/competitions/9603
זיהוי אנומליות הוא נושא שימושי למגוון בעיות, זיהוי סנסורים דפוקים, אאוטליירים בדאטא או התנהגות חשודה.
הבעיה היא שזיהוי אנמליות בפני עצמו הא לא תמיד שימושי, אם אין פעולה שאפשר לבצע בעקבות החריגה.
נדבר על הגישות הקלאסיות לאנומלי, כגון
* Density estimation
* Auto regressive
* Distance based measures
ועל הבעייתיות שנובעת מחישוב מרחקים במימדים גבוהים.
אנדרס יציג את הגישה ההירכית שעבדה להם בריסקיפייד, המבוססת על אימון מספר גדול (6000) של מודלים ברמות שונות, והפעלת לוגיקה סטטיסטית על החריגות של כל מודל בפני עצמו.
הגישה שונה מגישות קודמות, שכן כל מודל משויך למטריקה - אזי אפשר לא רק לחזות אנומליות , אלא גם להסביר מדוע זו אנומליה ולסנן אך ורק לאנומליות עבורן יש פעולה שאפשר לנקוט.
קישורים:
problems and challenges related to anomaly detection on big data
פרק זה הוא פרק סולו של אורי, בוא הוא יספר על החוויה שלו בפתיחת משרת ג'וניור בארגמקס.
המשרה זכתה לחשיפה גבוהה ברשתות החברתיות והגיעה ל40 אלף איש בעקבות שיטת הגיוס הלא שגרתית.
אורי יספר על מבחן הבית, ההיענות המפתיעה של מועמדים והביקורות שקיבל מקולגות לתחום.
באם יש לכם נסיון או מומחיות בתחום גיוס הג'וניורים, נשמח לפידבק בקבוצת הטלגרם שלנו
https://t.me/explainablepodcast
לעיון במבחן הבית:
בפרק זה אירחנו את חי מרון מ
nvidia
לדבר על עיבוד גרפים עם רשתות נוירונים.
נדבר על ישומים של גרפים בחיים האמיתיים, ועל ההבדל האינהרנטי שבין גרף לבין "תמונה" או מטריצה כללית.
נדבר על 4 הגישות הרווחות למידול
לקריאה נוספת:
https://www.cs.mcgill.ca/~wlh/grl_book/files/GRL_Book.pdf
הרצאה של חגי על יצוג גרפים כסימטריות
https://www.youtube.com/watch?v=k3E3XyMtQcA&list=PL7VfmMOOwNlJ5PndlhiMwjvqDTA6m1Z9i&index=2&t=120s
בפרק קודם דיברנו על קודקס, מודל השפה שמאחורי
Github Co-Pilot
בפרק זה, החלטנו להעמיק ולראיין את ערן יהב, חוקר באקדמיה והמוח מאחורי
TabNine
ואורי אלון, פוסט דוקטורט בתחום שחוקר את הנושא הרבה לפני שזה היה מגניב.
נדבר על ההיסטוריה של התחום, גישות מבוססות גרפים, דקדוק ומה הקשר בין שפת התכנות ליכולת החיזוי.
כמו כן נדבר על אתגרים מוצריים ב
TabNine
ועל המעטפת הנדרשת להפיכת מודל למוצר שאנשים משתמשים בו ומרוצים ממנו.
נראה שעולם המודלים הגיעה לבשלות, לא פעם יוצא לנסות כמה מודלים שונים ולהגיע לאותן מטריקות.
הטרנד של
data centric ai
שמוביל
Andrew Ng
דוגל בגישה שהפוקוס צריך לעבור לבחירה נכונה של הדאטא, ויצירה חכמה של דאטא סינטתי יותר מאשר אופטימיזציה של מודלים.
סיגל שקד תספר לנו על הגישה החדשה וההבדלי מונחים אל מול גישות קלאסיות של
resampling / augmentation
קישורים רלוונטים:
בפרק זה אירחנו את שי פרח ממכון וייצמן, מומחה להוראת המדעים.
בעידן שלנו, ללמוד לתכנת זה כישור יסוד כמו קריאה וכתיבה בעידן המחשב.
האם הגיע המקום לחשיבה בשיטת
ai4all
על משקל תנועת ה
coding4all
הפופולארי.
דיברנו על הכשרות בתחום הבינה המלאכותית בתוכנית הלימודים.
מה ההבדל בין "מדעי המחשב הקלאסי" לבין אפיון בעיה כ"למידת מכונה" מנקודת המבט של המהנדס.
מייק, אורח קבוע של הפודקאסט ידבר איתנו על
Normalized Flows
מודל חדש ליצירת תמונה מטקסט, או תמונה מתמונה בדומה ל
Diffusion model, GANS and VAE
נדבר על ההבדלים בין המודלים, על היתרון ב
density estimations
ונבחן לעומק את הבניה המיוחדת של ההמרה המתמטית שמאפשרת חישוב יעיל ומדויק של ההתפלגות
בפרק זה אירחנו את ערן אילת האנומליה, לדבר על חיזוי אנומליות בתמונות..
חיזוי של חריגות הוא קריטי לתחומים רבים כמו סייבר, הונאה פיננסית ובקרה על מודלים.
בעולמות התמונה, נדבר על שלושת הסוגים של חריגות, חריגה מההתפלגות
OOD
חריגה סמנטית, אובייקט לא מוכר.
ולבסוף חריגה כזיהוי של פגם (למשל בעולם היצור)
נדבר איך מודלים מתחום התמונה כמו קונטרסטיב, גאנ וטרנספורמרים משמשים גם לזיהוי חריגות
קרדיט למחקר משותף: מתן טור פז
תמיר ואורי, שניהם עוסקים כיועצים בתחום למידת המכונה - ועשו הרבה טעויות שניתן ללמוד מהם כשניגשים לפרויקט חדש.
בפרק זה, נדבר על שלושה פרויקטים לדוגמא - ומה הן השאלות והסוגיות שצריך להעלות לפני שמתחילים.
נדבר על מטריקות - איך מודדים פרויקט, על אתגרים טכניים.
איך בוחנים האם הדאטא מספק, והאם הארגון בכלל בשל ל
AI
והכי חשוב - תיאום ציפיות לתוצרים של הפרויקט.
הקופיילוט של גיטהאב הכניס למודעות תחום מחקר מרתק של
Program Synthesis
העוסק ביצירה של קוד מתוך טקסט או מתוך דוגמאות הרצה.
אורי, כמשתמש נלהב של טייס המשנה יספר מהחוויות שלו על השימוש - החוזקות והחולשות של הכלי.
ונדבר על קודקס, מודל השפה ש
Open AI
אימנו על גיטהאב, וכיצד הוא עובד.
כמו כן נסקור את תחום עיבוד השפה הפורמלי (לעומת שפה טבעית) ומה ההבדלים במטריקות והאתגרים הדומים והשונים.
בפרק זה אירחנו את שקד זיכלינסקי, ראש קבוצת ההמלצות של לייטריקס.
שקד ריכז עבורנו את ששת המאמרים החשובים שכל דאטא סיינטיסט מודרני חייב להכיר.
ששת המאמרים הם:
(1) Attention Is All You Need (2) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (3) A Style-Based Generator Architecture for Generative Adversarial Networks (4) Learning Transferable Visual Models From Natural Language Supervision (5) Mastering the Game of Go with Deep Neural Networks and Tree Search (6) Deep Neural Networks for YouTube Recommendationsשקד גם כתב בהרחבה במדיום פה:
https://towardsdatascience.com/6-papers-every-modern-data-scientist-must-read-1d0e708becd
בפרק זה אירחנו את זיו פרוינד שהכיר לנו מונח חדש לבעיה נפוצה.
מכירים את זה שאימנתם מודל שעובד מעולה כשמסווגים 10 מחלקות, אבל פתאום כשמגיעים לשטח מגלים שיש עוד 12 מחלקות שלא חשבתם עליהם ומבלבלות את המודל ?
זיו יספר על נסיונו בסיווג סיגנלים באלביט, ויספר על גישות לפתרון הבעיה.
נשמע לכם כמו קלאסטרינג ? גם לנו - נדבר על ההבדלים ועל שימוש בשיטות כמו
Contrastive
ללמידת ייצוגים מוכוונת לבעיית הקלאסיפיקציה שתבוא בהמשך.
לקריאה נוספת
[1]Hassen, Mehadi and Philip K. Chan. “Learning a Neural-network-based Representation for Open Set Recognition.” ArXiv abs/1802.04365 (2020): n. pag.
[1]Hassen, Mehadi and Philip K. Chan. “Learning a Neural-network-based Representation for Open Set Recognition.” ArXiv abs/1802.04365 (2020): n. pag.
[1]Hsu, Yen-Chang, ZhaoyangLv, and Zsolt Kira. "Learning to cluster in order to transfer across domains and tasks.” ICLR 2018
[1]Yang, Bo, et al. "Towards k-means-friendly spaces: Simultaneous deep learning and clustering." international conference on machine learning. PMLR, 2017.
[1]Geng, Chuanxing, Sheng-jun Huang, and Songcan Chen. "Recent advances in open set recognition: A survey." IEEE transactions on pattern analysis and machine intelligence 43.10 (2020): 3614-3631.
[1]Min, Erxue, et al. "A survey of clustering with deep learning: From the perspective of network architecture." IEEE Access 6 (2018): 39501-39514.
בפרק זה נראיין את איתי מרגולין על אחת הטכניקות הפרקטיות בתעשייה שכל עסקן דיפ לרנינג חייב להכיר.
מולטי-טאסק זו למידה של מספר משימות במקביל, ולמרות שהמונח קיים כבר עשרות שנים, הוא זכה להכרה מחדש עם פרוץ דיפ לחיינו.
נדבר על מתי למידה של מספר משימות מועילה, מתי היא מזיקה ?
מה ההבדל מול
Transfer learning ?
ואיך משלבים כמה מטרות לפונקציית לוס אחת
כמשתמשים אנחנו נחפשים למערכות המלצה כל הזמן, בין אם זה בסופר בקניות או בגלילת סרטים בנטפליקס.
בפרק זה נדבר עם דנה, על איך טאבולה, ענקית ההמלצות העולמית ממליצה לנו על כתבות דומות כשאנחנו גולשים באינטרנט.
נדבר על המלצות מבוססות תוכן בלבד
content filtering
המלצות מבוססות אינטראקציות בלבד, בהשראת פרס נטפליקס 2009
collaborative filtering
ונדבר על מימושים כגון וריאציות על
matrix factorization
ו
factorization machines
כדי לשלב גם תכנים וגם התנהגות משתמשים להמלצה אחת.
כמו כן נדבר על איך טאבולה עושים
Transfer learning
כשיש טראפיק מועט, או כשיש תלות גדולה בין אתרים.
בפרק זה נדבר על זיהוי אובייקטים בתמונה, ונארח את אברהם רביב - דוקטורנט בתחום בבר אילן ופעיל מאוד בקהילה עם הסקירות המעולות שלו.
נדבר על בעיות בראיה ממוחשבת, מקלאסיפיקציה, דרך זיהוי אובייקטים ועד סגמנטציה - ועל הקושי בתיוג.
זיהוי אובייקטים יכול להיות ממודל או כבעיה דו שלבית, הכוללת שלב נקודות עניין ואז קלאסיפיקציה או יחדיו - ונזכיר את
YOLO
שהיה מודל חלוצי בתחום.
נדבר על המעבר מרשתות
CNN
לטרנספורמרים, ועל המודל
DETR
סקירה של אברהם רביב על דיטר:
https://github.com/AvrahamRaviv/Deep-Learning-in-Hebrew/blob/main/deepnightleaners%20reviews/DETR.pdf
ראיון מיוחד עם מייק ארליכסון האחד והיחיד על מודל גנרטיבי "חדש".
Diffusion Models
הם שיטה חדש לפעפוע רעש, ואימון מודל להפוך רעש על ידי סדרה של מודלים לתמונות סופר איכותיות.
נדבר על המאמר:
Diffusion models beat gans on image synthesis
שמראה שמודלי דיפוזיה מצליחים להביס מודלים קודמים כגון
GANs.
ונסקור את המטריקות לאיכות תמונה שנבדקו, כמו כן נדבר על החסרונות של
DDPM
לעומת
VAE & GANsץ
בפרק זה נדבר עם אורן רזון שמוביל את
superwise
על שלושת השלבים של דיפלוימנט של מודלי למידת מכונה.
נדבר על מה יכול להשתבש בפרודקשן כשמודל מתיישן והעולם מתיישן, ואיך ניתן להיות עם יד על הדופק עם
Monitoring
קישורים רלוונטים:
Build or buy? Choosing the right strategy for your model observability Superwise Community Editionלמידת מכונה נורא כיפית ופשוטה כשמורידים מחברת מקאגל וכל הדאטא יושב בקובץ על המחשב ליד, אבל בחיים האמיתיים המצב לא כ"כ פשוט.
בפרק זה אסף פנחסי (יועץ בתחום, בוגר פייפל ובכיר בזברה מדיקל לש') לספר לנו על החיים האמיתיים.
שאלנו את אסף את כל השאלות הקשות: מחברות או קוד ? האם
feature store
זה משהו שאנחנו צריכים, ומתי הוא לא מתאים ?
וכמובן, מה ההבדל בין
ML engineering
ל
MLops
?
סטטיסטיקאים נחצים ל2 מחנות: הסטטיסטיקאים הקלאסיים-תדירותיים, והסטטיסטיקאים הבייסיאנים.
סטטיסטיקה בייסיאנית היא גישה שונה לסטטיסטיקה, שמנסה לדון בסבירות לא רק של הדאטא הנצפה בהנתן השערה, אלא גם בסבירות של הפרמטרים של ההתפלגות.
מודלים רבים כגון
GMM, Naive Bayes ו Latent Dirrechlet allocation
מתבססים על סטטיסטיקה בייסיאנית, ולאחרונה גם רשתות נוירונים זוכות לפרשנות בייסיאנית.
בפרק נדבר על ההבדלים, ועל האומדים השונים של 2 הגישות.
בפרק זה אירחנו את ברק אור לספר לנו על ניווט אינרציאלי.
כשאנחנו חושבים על ניווט, אנחנו חושבים על גוגל מאפס, ווייז ושלל אפליקציות שמשתמשות ב
GPS.
אבל לג'י פי אס יש מגבלות, ויש דרכים נוספות לנווט - כגון מדדי תאוצה, מהירות ומצפן.
ברק יספר לנו על אלגוריתם קלמן פילטר ששרד את מבחן הזמן ועל הרחבות שלו עם למידת מכונה.
בפרק זה ראיינו את רועי טבח שייספר לנו על האתגרים בעולם הסייבר,
דיברנו על שימוש באנומלי דטקשן להתראה על אירועים חשודים בלוגים של מערכות.
ודיברנו על מירוץ החימוש הנצחי בין התוקפים למגינים
כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה
SOTA
עד שמגיעה גישה חדשה שטורפת את הקלפים.
לכן מעניין דווקא לדבר על
PPO
שנשאר הגישה הדומיננטי ב
Reinforcement learning
כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.
נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"
בפרק זה אירחנו את דניאל חן מפייבר, לדבר על אלגוריתמי בנדיטים.
Multi armed bandit
היא גרסה מנוונת של
Reinforcement learning
אבל שימושית מאוד, עם אלגוריתמים ייחודיים לפתרון יעיל.
נדבר על שימושים בעולמות הפרסום, תימחור דינמי, ואיך מכניסים קונטקסט לבנדיטים ושומרים על שפיות.
פרק מהארכיון, עם מייק ארליכסון המפורסם מסקירות המאמרים.
בפרק זה נדבר על הדרך מאוטו-אנקודר אל
VAE
לצורך יצירה של דאטא סינטתי.
ונדבר על ההבדלים מול
GAN
בפרק זה נחזור לבסיס ונדבר על עצי החלטה, המודל הבסיסי והאינטואטיבי ביותר - שעדיין עובד יותר טוב על דאטא טבלאי.
נדבר על שיטות אימון חמדניות, ועל שימוש באנטרופיה כקירוב.
ונתאר מה ההבדל בין שיטות ה
ensemble
הנפוצות, בוסטינג לעומת באגינג.
נראה שלמידה ניגודית מקבלת המון תשומת לב לאחרונה, בעיבוד תמונה, טקסט ואפילו דאטא טבלאי.
נדבר על המאמר פורץ הדרך של הינטון
SimCLR
ונשווה אותו אל מול שיטות קלאסיות של הורדת מימד.
בהמשך לסיקור החדשותי של זילו, והחיזוי מחירי נדלן שהביאו להפסדים של מיליארדים - תמיר ואורי מתוודאים על פדיחות שעשו בפרויקטים.
מה קורה כשהמודל מושלם אבל תהליך יצירת הדאטא פחות ? איך פרויקט תיוג יכול להשתבש ולהתפוצץ בפנים, וכמובן - כמה חשוב לקרוא את האותיות הקטנות בדוקמנטציה.
בפרק זה אירחנו את אמיר עברי להסביר לנו על עיבוד קול, מה הם השלבים השונים בפייפליין של
Speech recognition
ועל האתגרים בתחום. בפרק נדבר על שיטות כגון
MFCC
לעיבוד אותות שמע, וכיצד אפשר להתמודד עם המימד הגבוה עםטכניקות כמו
Diffusion maps
כדי לאפשר עיבוד בזמן אמת.
על מהפכת הדיפ לרנינג לא צריך להרחיב, כולנו מכירים וחלקנו אף מימשנו.
אבל למה לעזאזל הדבר הזה עובד ? בפרק זה אירחנו את גלעד יהודאי, סטודנט לדוקטורט לתחום ושאלנו אותו את השאלות הקשות.
נלמד מה זה "אוברפיטינג שפיר" מה היא תופעת ה"ירידה הכפולה" ומה הם שלושת סוגי הטעויות בלמידה.
בפרק זה אורי מארח את רעות צרפתי לדבר על עיבוד שפה בעברית.
מה ההבדל בכלל בין עברית לאנגלית ? למה זה יותר קשה ?
האם החיים היו יותר קלים אם היינו כותבים עם ניקוד ?
ודיברנו על ההבדלים הבלשניים של שפות שמיות (עברית וערבית) אל מול שפות הודו אירופאיות.
קיבלתם פעם דאטאסט עם "כל הדברים שחשוב לזהות" אבל בלי אף דוגמא שלילית ?
אני בטוח שכן, אפשרות אחת לפתרון היא למדל את הבעיה כקלאסיפיקציה ואיכשהו להמציא דוגמאות שליליות.
או, לחילופין למדל את הבעיה כ
Positive Unlabeled Learning
אבל מה זה ?
שי פלצ'י יסביר לנו ויספר על הספריה שלו
pu-learn
En liten tjänst av I'm With Friends. Finns även på engelska.