איך מודדים אם מודל באמת טוב? זאת השאלה שמייצרת את 80% מההבדל בין מי שעובד עם AI ברצינות למי שמשחק. הינה חמישה מקורות בולטים בנושא.
1. "Holistic Evaluation of Language Models" (HELM)
Stanford. הציר המרכזי שכולם מודדים אליו ב-2026. מה לקרוא: ההקדמה והפרק על reliability metrics. מה לדלג: רוב הנספחים - חוזרים על אותם רעיונות.
2. Anthropic's "Faithful Reasoning" papers
סדרה של מאמרים על איך לוודא שמודל באמת חושב במקום לחקות חשיבה. חיוני למי שעובד עם chain-of-thought.
3. METR's "Tasks That Take Humans Hours"
הסדרה שעולה ככלי המרכזי למדידת capabilities ב-2026. תוצאות מהירות לקרוא: היחס בין זמן אנושי לזמן מודל לאותה משימה.
4. Hebrew - "סיכום השוואות מודלים בעברית" (TAU)
סדרה של דוחות מאוניברסיטת תל אביב על ביצועי מודלים בעברית במשימות שונות. חיוני למי שמתפעל בעברית.
5. The "Eval Hub" newsletter
ניוזלטר שבועי שמסכם בלוגים ופרסומים על LLM eval. שווה הרשמה - חוסך שעות חיפוש.
איך לגשת לרשימה
אל תקראו הכל. בחרו אחד, סכמו לעצמכם בכמה משפטים, וחזרו אליו אחרי שבוע. הבנת eval היא טובה יותר ב"גילוף" מאשר ב"שטף".