כשאנחנו שומעים “בינה מלאכותית” בחדשות — ChatGPT שכותב מאמרים, מצלמה שמזהה פנים, רכב שנוסע לבד — כולם מסתמכים על טכנולוגיה אחת מרכזית: רשתות נוירונים. אבל מה זה בעצם? איך מחשב “לומד” לזהות חתול מתמונה, או לתרגם משפט מעברית לאנגלית? התשובה מרתקת הרבה יותר ממה שנשמע.
ההשראה: המוח האנושי
שם “רשת נוירונים” לא נבחר במקרה. הרעיון ההתחלתי היה לחקות, בצורה מופשטת מאוד, את הדרך שבה המוח האנושי עובד.
במוח שלנו יש כ-86 מיליארד תאי עצב, הנקראים נוירונים. כל נוירון מחובר לאחרים דרך קשרים שנקראים סינפסות. כשאנחנו לומדים משהו חדש, חלק מהקשרים האלה מתחזקים וחלק נחלשים. כך נוצרת “זכרון” — דפוס של קשרים חזקים שמייצג ידע.
מדעני מחשב שאלו עצמם בשנות ה-50 וה-60: אפשר לדמות את הרעיון הזה בתוכנה? התשובה, כפי שהתברר שבעה עשורים מאוחר יותר, היא כן — וזה שינה את הכל.
הבניין הבסיסי: פרצפטרון
היחידה הבסיסית של רשת נוירונים מלאכותית נקראת פרצפטרון (Perceptron) או נוירון מלאכותי. הדרך להבין אותו היא דרך משל פשוט:
דמיינו בלש שמחליט האם חשוד אשם. הוא שוקל מספר ראיות: יש אליבי? (כן/לא) האם נמצאו אצלו כלים? (כן/לא) האם יש עדים? (כן/לא). לכל ראיה יש משקל שונה בהחלטה הסופית. הבלש מחשב את ה“ניקוד” המצרפי ומחליט: אשם או לא אשם.
נוירון מלאכותי עובד בדיוק כך:
- קלט (Inputs): מספרים שמייצגים נתונים (פיקסלים בתמונה, מילים בטקסט, נתוני חיישן)
- משקלים (Weights): כל קלט מוכפל במשקל שמייצג כמה הוא חשוב
- סכימה (Sum): כל הקלטים המשוקללים מתחברים
- פונקציית הפעלה (Activation): הסכום עובר טרנספורמציה שקובעת מה הנוירון “ירה” הלאה
נוירון בודד יכול לפתור בעיות פשוטות מאוד. אבל כשמחברים אלפי, מיליוני ואפילו מיליארדי נוירונים יחד — הקסם מתחיל.
מבנה הרשת: שכבות
רשת נוירונים מסודרת בשכבות:
שכבת הקלט (Input Layer)
מקבלת את הנתונים הגולמיים. לדוגמה, בתמונה של 28x28 פיקסלים, שכבת הקלט תכיל 784 נוירונים — אחד לכל פיקסל.
שכבות נסתרות (Hidden Layers)
כאן מתרחשת עיבוד המידע. כל שכבה לוקחת את הפלט של השכבה הקודמת, מבצעת עליו טרנספורמציה, ומעבירה הלאה. שכבה ראשונה אולי לומדת לזהות קצוות וקווים פשוטים. שכבה שנייה משלבת אותם לצורות. שכבה שלישית מזהה עיניים, אוזניים, ועוד. וכך הלאה.
ה“עומק” של רשת (כמה שכבות נסתרות יש בה) הוא מה שנותן לטכנולוגיה את השם Deep Learning — למידה עמוקה.
שכבת הפלט (Output Layer)
מספקת את התשובה הסופית. לרשת שמסווגת מין חיות, שכבת הפלט תכיל נוירון לכל קטגוריה אפשרית: חתול, כלב, ציפור, וכן הלאה. הנוירון עם הערך הגבוה ביותר הוא ה“ניחוש” של הרשת.
הלמידה: איך רשת מתאמנת?
כאן מגיע החלק הכי מרתק. רשת נוירונים חדשה לא יודעת כלום. המשקלים שלה מאותחלים לערכים אקראיים — היא פשוט מנחשת. אז איך היא לומדת?
הצגת דוגמאות (Training Data)
הרשת מקבלת עשרות אלפי, לפעמים מיליוני, דוגמאות עם תשובות נכונות. “זו תמונה של חתול. זו תמונה של כלב.” לכל דוגמה, הרשת מנסה לנחש.
מדידת הטעות (Loss Function)
אחרי כל ניחוש, מחשבים כמה הרשת טעתה. אם היא אמרה “כלב” ב-70% ביטחון, אבל התשובה הנכונה היא “חתול” — זה טעות גדולה. הפונקציה שמודדת את הטעות נקראת “פונקציית הפסד” (Loss Function).
תיקון (Backpropagation)
לאחר שנמדדה הטעות, האלגוריתם עובר “אחורה” דרך הרשת ומחשב: אילו משקלים היו הכי אחראים לטעות? הוא מעדכן אותם בהדרגה — קצת מחזק את מה שעבד, קצת מחליש את מה שלא. תהליך זה נקרא Backpropagation.
חזרה (Iteration)
זה חוזר מיליוני פעמים. אחרי מספיק סיבובי אימון, הרשת לומדת. לא על ידי שמישהו הסביר לה “אוזניים מחודדות = חתול” — אלא על ידי שהיא ראתה מספיק דוגמאות וזיהתה את הדפוסים בעצמה.
למה “עמוק” עושה הבדל?
לפני עידן ה-Deep Learning, רשתות נוירונים היו בדרך כלל רדודות — שכבה או שתיים. הן יכלו לפתור בעיות פשוטות אבל נכשלו בבעיות מורכבות. הבעיה הייתה שני דברים: כוח מחשוב וכמות נתונים.
בשנות ה-2010 שני הגורמים האלה הבשילו בו-זמנית: מעבדי GPU שהתפתחו לצורך משחקי מחשב התגלו כמתאימים מאוד לאימון רשתות נוירונים, וכמות הנתונים שנצברה באינטרנט הפכה לעצומה. התוצאה: רשתות עמוקות מאוד הפכו לאפשריות, ו-Deep Learning פרץ.
ההישגים היו מהפכניים. ב-2012, רשת בשם AlexNet ניצחה בתחרות זיהוי תמונות בפער שהפתיע את כולם. ב-2016, AlphaGo ניצחה בשחמט-גו את האלוף האנושי. ב-2023, GPT-4 הוכיחה שרשתות נוירונים יכולות לכתוב, לנתח ולהסביר כמו אדם מיומן.
סוגי רשתות: לכל בעיה הארכיטקטורה שלה
לאורך השנים התפתחו ארכיטקטורות רשת שונות, כל אחת מותאמת לסוג שונה של נתונים.
CNN — לתמונות
רשתות נוירונים קונבולוציוניות (Convolutional Neural Networks) מותאמות לעיבוד תמונות. הן מסוגלות לזהות תכונות חזותיות ללא קשר למיקומן בתמונה — חתול בפינה השמאלית ובפינה הימנית יזוהה כחתול על ידי אותה הרשת. הן מאחורי זיהוי פנים בסמארטפון, בדיקות רנטגן ממוחשבות, ורכבים אוטונומיים.
RNN ו-LSTM — לרצפים
רשתות חוזרות (Recurrent Neural Networks) מיועדות לנתונים שלסדר חשובה בהם: טקסט, קול, נתוני זמן. הן מחזיקות “זיכרון” של מה שעיבדו קודם, ולכן מתאימות לתרגום, לזיהוי דיבור ולניבוי מניות. LSTM הוא גרסה משופרת שפותרת בעיית “שכחה” בטווח ארוך.
Transformer — המהפכה האחרונה
ארכיטקטורת ה-Transformer, שהוצגה ב-2017 במאמר שכותרתו “Attention Is All You Need”, שינתה הכל. הרעיון המרכזי שלה הוא “מנגנון תשומת לב” (Attention Mechanism) — היכולת של הרשת להחליט לאיזה חלק מהקלט לשים לב בכל שלב עיבוד.
כל מודלי השפה הגדולים — GPT, Claude, Gemini — מבוססים על Transformers. הם גם הבסיס ליצירת תמונות (Stable Diffusion, Midjourney) ולמודלים מולטי-מודליים שמבינים גם טקסט גם תמונה.
כיצד רשת “יודעת” ומה היא לא יודעת?
אחת השאלות שאנשים שואלים הכי הרבה: “האם ה-AI באמת מבין?” התשובה תלויה בהגדרה של “הבנה”, אבל כמה דברים ברורים:
מה שרשתות נוירונים טובות בו: לזהות דפוסים בנתונים. הן מצוינות בזה. אם נתוני האימון מייצגים היטב את העולם האמיתי — הרשת תתפקד מצוין.
מה שקשה להן: הכללה מחוץ לנתוני האימון (Out-of-Distribution). אם הרשת אומנה על תמונות שצולמו ביום ומתבקשת לזהות אותם דברים בלילה — היא עשויה להיכשל. רשתות גם אינן מסבירות את עצמן — הן “קופסה שחורה”.
ה“הזיות”: מודלי שפה גדולים לפעמים ממציאים עובדות שלא קיימות. זה לא באג, זה תכונה של הארכיטקטורה: הרשת לומדת להיות “שכנועית” ולהשלים דפוסים גם כשהמידע חסר — וזה מוביל לעיתים לאי-דיוקים.
כמה פרמטרים יש במודלים מודרניים?
כשמדברים על “גודל” של מודל AI, מדברים בדרך כלל על מספר הפרמטרים — המשקלים שהרשת לומדת. ככל שיש יותר פרמטרים, כך הרשת יכולה לייצג ידע מורכב יותר, אבל גם דורשת יותר כוח מחשוב ויותר נתונים לאימון.
- GPT-2 (2019): 1.5 מיליארד פרמטרים
- GPT-3 (2020): 175 מיליארד פרמטרים
- GPT-4 (2023): מוערך ב-1 טריליון פרמטרים
- Claude 3 Opus (2024): מאות מיליארדי פרמטרים
לשם השוואה: המוח האנושי מכיל כ-100 טריליון סינפסות — ארבעה סדרי גודל יותר מהמודלים הגדולים ביותר כיום. עדיין יש הרבה מה לגדול.
למה זה חשוב לי?
שאלה לגיטימית. לא כולם צריכים להבין לפרטים כיצד עובד backpropagation. אבל ההבנה הכללית חשובה כי:
לדעת ציפיות ריאליות: AI לא “חושב” כמו אדם. הוא מזהה דפוסים. כשיודעים זאת, מבינים גם מתי לסמוך עליו ומתי לבדוק פעמיים.
להשתמש נכון: כלי AI עובד הכי טוב כשמספקים לו הקשר ברור ודוגמאות. זה נובע ישירות מהדרך שבה רשתות נוירונים לומדות — מדוגמאות.
להיות אזרח מושכל: החלטות על אשראי, ביטוח, קבלה לעבודה ואפילו אבחנות רפואיות מתקבלות יותר ויותר על ידי רשתות נוירונים. הבנה בסיסית של איך הן פועלות — ואיפה הן טועות — היא כישור אזרחי חשוב.
לאן הולכים?
המחקר ברשתות נוירונים מתפתח בקצב מהיר. כמה כיוונים מרכזיים שאפשר לצפות להם בשנים הקרובות:
מודלים קטנים ויעילים: הכיוון הנוכחי הוא לא רק לבנות מודלים ענקיים, אלא לבנות מודלים קטנים שמתפקדים טוב מאוד. זה מאפשר להריץ AI ישירות על טלפון או על מחשב רגיל, ללא תלות בענן.
מולטי-מודליות: מודלים שמבינים טקסט, תמונות, קול ווידאו בו-זמנית כבר קיימים — ויהיו שכיחים הרבה יותר.
הסברתיות (Explainability): אחת הביקורות הגדולות על רשתות נוירונים היא שהן “קופסאות שחורות”. מחקר בתחום XAI (Explainable AI) מנסה לפתח כלים שיסבירו מדוע הרשת הגיעה להחלטה מסוימת.
סיכום
רשתות נוירונים מלאכותיות הן סימולציה מופשטת של מה שאנחנו מכירים מהמוח: יחידות עיבוד קטנות, מחוברות ברשת, שלומדות מדוגמאות. הן לא קסם ולא מדע בדיוני — הן מתמטיקה, הרבה נתונים, וכוח מחשוב.
ההבנה שמה שנקרא “AI” מסתמך ברובו על טכנולוגיה אחת מרכזית — רשתות נוירונים — נותנת פרספקטיבה חשובה: AI הוא לא קסם, אלא הנדסה. הוא יכול להיות עצום ומרשים, ויכול להיות שגוי ומגביל, בדיוק כפי שכל הנדסה טובה ורעה.
הדבר שמייחד את עשורנו הוא שלראשונה בהיסטוריה, הטכנולוגיה הזו נגישה לכולם — לא רק למעבדות מחקר גדולות. וזה, יותר מכל מספר פרמטרים, הוא המהפכה האמיתית.