מונח AI: Context Window - הסבר פשוט עם דוגמאות 2026

בטיפים הקודמים הסברנו Embeddings ו-RAG. שניהם דרכים לתת ל-AI גישה למידע. היום נדבר על המגבלה שמכריחה את שני אלה להתקיים: ה-Context Window.

הגדרה בשורה אחת

Context Window הוא כמות הטקסט המקסימלית שמודל AI יכול "לראות" בו-זמנית בשיחה אחת. הוא נמדד ביחידות שנקראות טוקנים - חלקיקים של מילים. במקרה של עברית, טוקן ממוצע הוא 2-3 אותיות. במקרה של אנגלית, מילה ממוצעת היא ~1.3 טוקנים.

הדוגמה הכי פשוטה

נניח שאתה מנהל שיחה ארוכה עם ChatGPT (ב-2026 הוא בגרסת GPT-5 עם חלון של 128K טוקנים). זה אומר שהמודל יכול לזכור בו-זמנית בערך 96,000 מילים באנגלית או ~50,000 מילים בעברית - בערך הספר הראשון של "הארי פוטר", לא יותר.

אם השיחה שלך עוברת את הגבול הזה, מה שקורה זה לא שהמודל "שוכח" את ההתחלה - הוא פשוט לא מסוגל לראות אותה יותר. הצ'אט נחתך אוטומטית מהזנב.

מודלים בולטים, אפריל 2026

מודל	גודל Context Window	שווה ערך
GPT-5	128K טוקנים	הספר הארי פוטר 1
Claude Opus 4.6	200K טוקנים	שני ספרים שלמים
Gemini 2.5 Pro	2M טוקנים	10 ספרים שלמים או סדרת רומנים
Llama 4 (open-source)	128K טוקנים	הארי פוטר 1

למה זה חשוב במיוחד

שלושה מקרים שבהם Context Window עושה הבדל גדול בעבודה אמיתית:

ניתוח מסמכים ארוכים. אם אתה רוצה לסכם 50 עמודי PDF, GPT-5 יוכל. Claude יוכל בנוחות יותר. Gemini יוכל לסכם 500 עמודים בו-זמנית.
שיחות ארוכות. צ'אט שמתפתח שעות עם הקשר מצטבר. כש"זיכרון השיחה" מתמלא, המודל מתחיל "לשכוח" החלטות מוקדמות.
קוד מורכב. אם אתה משתף 10 קבצי Python ומבקש לרפקטר, הקוד צריך להיכנס לחלון. Claude עם 200K עוזר. GPT-5 לפעמים יחתוך.

טריק חשוב: ה-Context Window גם משפיע על איכות התשובה

גם כשהמודל "מתאים" לתוך החלון, איכות הזיכרון לא אחידה. רוב המודלים מראים תופעה הנקראת "lost in the middle": מידע שנמצא באמצע החלון נזכר פחות טוב מאשר מידע שבהתחלה ובסוף.

הטיפ המעשי: אם יש לך הוראות חשובות, שים אותן בתחילת השיחה ובסוף הפרומפט שלך. אל תסתמך על האמצע.

הקשר לשני המונחים הקודמים

זוכרים RAG ו-Embeddings? עכשיו צריך להיות ברור: הסיבה שבגללה RAG קיים היא בדיוק כדי לעקוף את מגבלת ה-Context Window. במקום לדחוף מיליון טוקנים של מסמכים לתוך החלון, RAG משתמש ב-Embeddings כדי לאתר את 5-10 הקטעים הכי רלוונטיים ולשלוח רק אותם. החלון נשאר פנוי לחשיבה.

מחר במונח היום

נדבר על Tokens עצמם - איך הם נספרים, למה עברית "יקרה" יותר מאנגלית, ואיך לחסוב טוקנים בלי לאבד איכות.