בטיפים הקודמים הסברנו Embeddings ו-RAG. שניהם דרכים לתת ל-AI גישה למידע. היום נדבר על המגבלה שמכריחה את שני אלה להתקיים: ה-Context Window.
הגדרה בשורה אחת
Context Window הוא כמות הטקסט המקסימלית שמודל AI יכול "לראות" בו-זמנית בשיחה אחת. הוא נמדד ביחידות שנקראות טוקנים - חלקיקים של מילים. במקרה של עברית, טוקן ממוצע הוא 2-3 אותיות. במקרה של אנגלית, מילה ממוצעת היא ~1.3 טוקנים.
הדוגמה הכי פשוטה
נניח שאתה מנהל שיחה ארוכה עם ChatGPT (ב-2026 הוא בגרסת GPT-5 עם חלון של 128K טוקנים). זה אומר שהמודל יכול לזכור בו-זמנית בערך 96,000 מילים באנגלית או ~50,000 מילים בעברית - בערך הספר הראשון של "הארי פוטר", לא יותר.
אם השיחה שלך עוברת את הגבול הזה, מה שקורה זה לא שהמודל "שוכח" את ההתחלה - הוא פשוט לא מסוגל לראות אותה יותר. הצ'אט נחתך אוטומטית מהזנב.
מודלים בולטים, אפריל 2026
| מודל | גודל Context Window | שווה ערך |
|---|---|---|
| GPT-5 | 128K טוקנים | הספר הארי פוטר 1 |
| Claude Opus 4.6 | 200K טוקנים | שני ספרים שלמים |
| Gemini 2.5 Pro | 2M טוקנים | 10 ספרים שלמים או סדרת רומנים |
| Llama 4 (open-source) | 128K טוקנים | הארי פוטר 1 |
למה זה חשוב במיוחד
שלושה מקרים שבהם Context Window עושה הבדל גדול בעבודה אמיתית:
- ניתוח מסמכים ארוכים. אם אתה רוצה לסכם 50 עמודי PDF, GPT-5 יוכל. Claude יוכל בנוחות יותר. Gemini יוכל לסכם 500 עמודים בו-זמנית.
- שיחות ארוכות. צ'אט שמתפתח שעות עם הקשר מצטבר. כש"זיכרון השיחה" מתמלא, המודל מתחיל "לשכוח" החלטות מוקדמות.
- קוד מורכב. אם אתה משתף 10 קבצי Python ומבקש לרפקטר, הקוד צריך להיכנס לחלון. Claude עם 200K עוזר. GPT-5 לפעמים יחתוך.
טריק חשוב: ה-Context Window גם משפיע על איכות התשובה
גם כשהמודל "מתאים" לתוך החלון, איכות הזיכרון לא אחידה. רוב המודלים מראים תופעה הנקראת "lost in the middle": מידע שנמצא באמצע החלון נזכר פחות טוב מאשר מידע שבהתחלה ובסוף.
הטיפ המעשי: אם יש לך הוראות חשובות, שים אותן בתחילת השיחה ובסוף הפרומפט שלך. אל תסתמך על האמצע.
הקשר לשני המונחים הקודמים
זוכרים RAG ו-Embeddings? עכשיו צריך להיות ברור: הסיבה שבגללה RAG קיים היא בדיוק כדי לעקוף את מגבלת ה-Context Window. במקום לדחוף מיליון טוקנים של מסמכים לתוך החלון, RAG משתמש ב-Embeddings כדי לאתר את 5-10 הקטעים הכי רלוונטיים ולשלוח רק אותם. החלון נשאר פנוי לחשיבה.
מחר במונח היום
נדבר על Tokens עצמם - איך הם נספרים, למה עברית "יקרה" יותר מאנגלית, ואיך לחסוב טוקנים בלי לאבד איכות.