המונח של היום הוא RAG - ראשי תיבות של Retrieval-Augmented Generation. בעברית: "ייצור מוגבר אחזור". בפועל - הטכניקה שעומדת מאחורי כמעט כל מערכת AI ארגונית רצינית ב-2026. המשך למונח של אתמול: Fine-Tuning.
הסבר ב-30 שניות
בלי RAG: המודל יודע רק את מה שלמד באימון (cutoff date - תאריך שבו הסתיים האימון). אם תשאלו אותו על מסמך שלכם, הוא לא יכול לענות. עם RAG: לפני שהמודל עונה, מערכת חיצונית מאחזרת את החלק הרלוונטי של מסמך/בסיס ידע, ומעבירה אותו למודל. המודל מקבל את הקונטקסט הספציפי וענה בהתבסס עליו, לא רק על מה שהוא "זוכר" מהאימון.
איך זה עובד בפועל
- אינדקס - המסמכים שלכם (PDFים, אימיילים, מסמכי וויקי) מומרים לוקטורים מתמטיים (embeddings) ונשמרים במאגר וקטורי - כמו Pinecone, Weaviate, או pgvector.
- שאלה - המשתמש שואל שאלה. השאלה גם היא ממירה לוקטור.
- אחזור - המערכת מחפשת את הוקטורים הקרובים ביותר במאגר ושולפת את המסמכים המקוריים.
- ייצור - המודל מקבל את השאלה + המסמכים הרלוונטיים, ומייצר תשובה שמסתמכת עליהם.
למה זה חשוב לעסק ישראלי
כי בלי RAG, אי אפשר לבנות צ׳אטבוט שיודע את התעריפים של החברה שלכם, את מסמכי המדיניות הפנימית, או את היסטוריית התקלות של הלקוח. עם RAG - אפשר. הסיבה שכל פלטפורמה ארגונית רצינית (Microsoft Copilot, Glean, Notion AI Q&A) משתמשת ב-RAG היא בדיוק זאת.
פרקטית: צ׳אטבוט שירות לקוחות בעברית שעובד על בסיס מסמכי הנהלים שלכם, או עוזר פנימי שמשיב לעובדים על מסמכי משאבי-אנוש - אלה מקרי שימוש קלאסיים שדורשים RAG.
RAG מול Fine-Tuning
בטעות חושבים שאלו תחליפים - הם משלימים. Fine-Tuning מתאים כשאתם רוצים לשנות את הסגנון או הטון של המודל (למשל, שיענה בקצרה כמו ההנחיות שלכם), או ללמד אותו תחום מומחיות מאוד מסוים. RAG מתאים כשהתוכן משתנה לעיתים קרובות (מסמכים שמתעדכנים, נתוני מלאי, היסטוריית הזמנות).
כלל אצבע: אם המידע שלכם מתעדכן יותר מפעם בחודש - RAG. אם הוא יציב יחסית - Fine-Tuning. ברוב הארגונים - שניהם, ביחד.
טעויות נפוצות
- אינדקס לא מעודכן. RAG טוב רק כמו האינדקס שלו. תבנו תהליך אוטומטי לעדכון - לא ידני.
- חיתוך גרוע (chunking). איך מחתכים מסמך לחתיכות לפני שמפעילים עליו embedding משפיע מאוד. חיתוך לפי משפט או פסקה - לא לפי מספר תווים קבוע.
- קונטקסט גדול מדי. אם תעבירו 20 מסמכים למודל, הוא יתבלבל. אחזור של 3-5 הוא הנקודה הטובה.
מילון העזר
- Embedding - וקטור מתמטי שמייצג טקסט בצורה שמאפשרת חיפוש דמיון.
- Vector Database - מאגר נתונים שמיועד לאחסון embeddings וחיפוש מהיר בהם (Pinecone, Weaviate, pgvector, Chroma).
- Chunking - תהליך פיצול מסמך גדול לחלקים קטנים שכל אחד מהם מומר ל-embedding נפרד.
- Reranking - שלב נוסף אחרי האחזור, שמדרג מחדש את המסמכים שאוחזרו לפי רלוונטיות שאלה.
המונח של מחר
Tokens - היחידה הבסיסית שכל מודל שפה עובד איתה, ולמה זה משפיע על המחיר שאתם משלמים. נראה גם איך לחשב כמה טוקנים יש בטקסט עברי לעומת אנגלי.