מונח היום 28.04: Context Window - הזיכרון של AI בשיחה אחת

אתמול הסברנו Embeddings. היום ננתח את המגבלה הכי חשובה של מודלי שפה - גודל ה-Context Window, וזה למה Claude זוכר 200K טוקנים אבל ChatGPT 'שוכח' אחרי 30K.

בטיפים הקודמים הסברנו Embeddings ו-RAG. שניהם דרכים לתת ל-AI גישה למידע. היום נדבר על המגבלה שמכריחה את שני אלה להתקיים: ה-Context Window.

הגדרה בשורה אחת

Context Window הוא כמות הטקסט המקסימלית שמודל AI יכול "לראות" בו-זמנית בשיחה אחת. הוא נמדד ביחידות שנקראות טוקנים - חלקיקים של מילים. במקרה של עברית, טוקן ממוצע הוא 2-3 אותיות. במקרה של אנגלית, מילה ממוצעת היא ~1.3 טוקנים.

הדוגמה הכי פשוטה

נניח שאתה מנהל שיחה ארוכה עם ChatGPT (ב-2026 הוא בגרסת GPT-5 עם חלון של 128K טוקנים). זה אומר שהמודל יכול לזכור בו-זמנית בערך 96,000 מילים באנגלית או ~50,000 מילים בעברית - בערך הספר הראשון של "הארי פוטר", לא יותר.

אם השיחה שלך עוברת את הגבול הזה, מה שקורה זה לא שהמודל "שוכח" את ההתחלה - הוא פשוט לא מסוגל לראות אותה יותר. הצ'אט נחתך אוטומטית מהזנב.

מודלים בולטים, אפריל 2026

מודלגודל Context Windowשווה ערך
GPT-5128K טוקניםהספר הארי פוטר 1
Claude Opus 4.6200K טוקניםשני ספרים שלמים
Gemini 2.5 Pro2M טוקנים10 ספרים שלמים או סדרת רומנים
Llama 4 (open-source)128K טוקניםהארי פוטר 1

למה זה חשוב במיוחד

שלושה מקרים שבהם Context Window עושה הבדל גדול בעבודה אמיתית:

  1. ניתוח מסמכים ארוכים. אם אתה רוצה לסכם 50 עמודי PDF, GPT-5 יוכל. Claude יוכל בנוחות יותר. Gemini יוכל לסכם 500 עמודים בו-זמנית.
  2. שיחות ארוכות. צ'אט שמתפתח שעות עם הקשר מצטבר. כש"זיכרון השיחה" מתמלא, המודל מתחיל "לשכוח" החלטות מוקדמות.
  3. קוד מורכב. אם אתה משתף 10 קבצי Python ומבקש לרפקטר, הקוד צריך להיכנס לחלון. Claude עם 200K עוזר. GPT-5 לפעמים יחתוך.

טריק חשוב: ה-Context Window גם משפיע על איכות התשובה

גם כשהמודל "מתאים" לתוך החלון, איכות הזיכרון לא אחידה. רוב המודלים מראים תופעה הנקראת "lost in the middle": מידע שנמצא באמצע החלון נזכר פחות טוב מאשר מידע שבהתחלה ובסוף.

הטיפ המעשי: אם יש לך הוראות חשובות, שים אותן בתחילת השיחה ובסוף הפרומפט שלך. אל תסתמך על האמצע.

הקשר לשני המונחים הקודמים

זוכרים RAG ו-Embeddings? עכשיו צריך להיות ברור: הסיבה שבגללה RAG קיים היא בדיוק כדי לעקוף את מגבלת ה-Context Window. במקום לדחוף מיליון טוקנים של מסמכים לתוך החלון, RAG משתמש ב-Embeddings כדי לאתר את 5-10 הקטעים הכי רלוונטיים ולשלוח רק אותם. החלון נשאר פנוי לחשיבה.

מחר במונח היום

נדבר על Tokens עצמם - איך הם נספרים, למה עברית "יקרה" יותר מאנגלית, ואיך לחסוב טוקנים בלי לאבד איכות.

מונח היום 27.04: Embeddings - איך AI "רואה" משמעות