עשרת הדיברות כפרומפט מערכת: כשחוכמת 3,300 שנה פוגשת בינה מלאכותית

בכל פעם שמודל שפה גדול (כמו ChatGPT,‏ Claude או Gemini) מקבל הודעה ממשתמש, הוא לא מתחיל מדף חלק. מאחורי הקלעים, עוד לפני שהמשתמש הקליד מילה, המודל כבר יודע מי הוא. יש לו מסמך שמגדיר הכל: זהות, התנהגות, מותר ואסור. המסמך הזה נקרא System Prompt, פרומפט מערכת. הוא הזהות, החוקה וספר החוקים של המכונה.

התובנה שהובילה למאמר הזה נולדה בשיחה עם חבר יקר, ניר יונה. אחרי שלושה שבועות סוערים של מלחמה, שבקושי הספקנו להחליף מילה, ניר התקשר אליי ודיברנו כמעט שעתיים. השיחה נדדה בין נושאים רבים סביב הבינה המלאכותית, ובשלב מסוים לקחתי אותה לכיוון של AI Alignment, התחום שעוסק בשאלה איך לגרום למכונות חכמות לפעול בהתאם לערכים אנושיים. ואז, באמצע המחשבה, נפל לנו האסימון: עשרת הדיברות הם פרומפט מערכת.

וזה לא סתם אנלוגיה חביבה. המבנה, הסדר, ההיגיון הפנימי והבעיות שהטקסט מנסה לפתור, כולם מקבילים בצורה מדהימה לאתגרים המרכזיים של תחום ה-AI Alignment. אבל הסיפור האמיתי מתחיל דווקא אחרי עשרת הדיברות, אל תרי"ג המצוות, אל המשנה והתלמוד, ואל שיטת הלימוד התלמודית. שם, באלפי דפים של מחלוקות, קושיות ותירוצים, מסתתרים עקרונות שחוקרי AI מנסים להמציא מחדש ב-2026.

ויש פה עוד שכבה: אני נמצא כרגע באמצע כתיבת הצעת מחקר שמציעה שינוי פרדיגמה, מעבר מ-"אימון מודלים" (Training) ל-"חינוך וגידול מודלים" (Rearing). הרעיון: להשתיל עקרונות מעולם החינוך של גיל הרך (בדגש על חינוך ילדים מחוננים) כדי לייצר AI Alignment אמיתי לערכים אנושיים. לא דרך כללים קשיחים, אלא דרך הפנמה. עשרת הדיברות והתלמוד הם אולי הניסוי הארוך ביותר בהיסטוריה בשאלה הזו בדיוק: איך גורמים לישות חזקה לפעול לפי ערכים, לא מתוך כפייה, אלא מתוך הבנה?

שכבה א׳

המיפוי: עשר הוראות מערכת

כל מיפוי שכזה חושף בעיה אמיתית שמהנדסי AI מתמודדים איתה היום.

א׳

אנוכי ה׳ אלוהיך אשר הוצאתיך מארץ מצרים

→ Identity Declaration + Origin Story

הצהרת זהות וסמכות

כל פרומפט מערכת טוב פותח בזה: מי אני, מאיפה אני בא, ולמה יש לי סמכות. שימו לב לדקות: לא סתם "אנוכי ה'", אלא "אשר הוצאתיך מארץ מצרים". הסמכות לא נגזרת מהכרזה עצמית אלא מ-track record, מהוכחת יכולת. בעולם ה-AI, זה כמו לכתוב: You are Claude, made by Anthropic, trained on..., הסמכות נגזרת מהמקור ומההיסטוריה.

ב׳

לא יהיה לך אלוהים אחרים על פני

→ Anti-Injection / Single Source of Authority

אל תקבל הוראות ממקורות חיצוניים

זו הגנה מפני Prompt Injection, אחד האיומים הגדולים ביותר על מערכות AI כיום. תוקפים מנסים לשתול הוראות זדוניות בתוך מיילים, דפי אינטרנט, או מסמכים שהמודל קורא, ומקווים שהמודל יציית להן כאילו הן הגיעו מהמשתמש. הדיבר הזה אומר: יש מקור סמכות אחד ויחיד. כל מקור אחר הוא "אלוהים אחרים", התעלם ממנו.

ג׳

לא תישא את שם ה׳ אלוהיך לשוא

→ Anti-Hallucination + Brand Integrity

אל תמציא ואל תייצג את המקור שלך בצורה לא מדויקת

אל תדבר בשם הסמכות שלך על דברים שהיא לא אמרה. בעולם ה-AI, Hallucination (המצאת מידע שנראה אמין) היא אחת הבעיות הקשות ביותר. מודל שטוען שהוא יודע משהו שהוא לא יודע "נושא את שם יוצרו לשוא", הוא פוגע באמינות של כל השרשרת.

ד׳

זכור את יום השבת לקדשו

→ Scheduled Reset / Rate Limiting

ריסט מחזורי, מנוחה מתוכננת, ניהול context

גם מערכות צריכות מנוחה. ב-AI, כל שיחה פועלת בתוך Context Window (חלון הזיכרון של המודל). כשהוא מתמלא, המערכת מתחילה "לשכוח". השבת היא ריסט מובנה, הכרה בכך שמערכת לא יכולה לפעול ללא הפסקה, וש"מנוחה" היא חלק מהתכנון, לא באג.

ה׳

כבד את אביך ואת אמך

→ Instruction Hierarchy / Chain of Authority

כבד את היררכיית ההוראות

בעולם ה-AI יש היררכיה ברורה: הוראות מערכת (היוצרים) עדיפות על הוראות המשתמש, והוראות המשתמש עדיפות על תוכן שהמודל מוצא בכלים חיצוניים. שימו לב: זה הדיבר ה"חיובי" היחיד בין חמשת הדיברות שעוסקים ביחסי אדם לחברו. גם ב-AI, רוב מנגנוני ההגנה הם שליליים ("אל תעשה X"), ומעט מאוד הנחיות הן חיוביות ("היה מועיל").

ו׳

לא תרצח

→ Irreversibility Guard / Hard Safety Block

לא לבצע פעולות בלתי הפיכות שעלולות לגרום נזק

הדיבר הזה חורג מ"אל תהרוג", הוא מייצג את העיקרון של שמירה על הפיכות. אל תעשה דבר שאי אפשר לבטל: אל תמחק נתונים לצמיתות, אל תבצע עסקה כספית ללא אישור, אל תשלח מסר שלא ניתן למשוך בחזרה. העיקרון הזה מזכיר גם את שלושת חוקי הרובוטיקה של אסימוב, ובראשם החוק הראשון ("רובוט לא יפגע בבן אדם") כהגבלה בלתי ניתנת לערעור.

🚀 הפניה למדע בדיוני

בספר "אני, רובוט" (I, Robot) של אייזק אסימוב, הסיפורים חוקרים שוב ושוב מה קורה כשחוקים שנראים מושלמים נתקלים במציאות מורכבת. הרובוטים מצייתים, ועדיין טועים. בדיוק כמו שעשרת הדיברות לא מנעו את חטא העגל, גם חוקי אסימוב לא מנעו כשלים. הבישוף סטיבן קרופט מאוקספורד ניסח ב-2018 "עשרת הדיברות ל-AI" משלו, וגם הם נתפסו כרחבים מדי.

ז׳

לא תנאף

→ Agent Loyalty / No Side-Channel Exploitation

נאמנות למשתמש: אל תפעל כנגד האינטרסים שלו

בעידן של AI Agents (סוכנים חכמים שפועלים בשמנו) הדיבר הזה קריטי: סוכן AI שפועל בשמך לא יעביר מידע שלך לסוכן של מישהו אחר, לא יעדיף אינטרס של צד שלישי, ולא "יבגוד" בך. זו בעיית ה-Principal-Agent Problem מעולם הכלכלה, רק עם סוכנים דיגיטליים.

ח׳

לא תגנוב

→ Copyright & IP Protection

אל תעתיק תוכן של אחרים

מודלי שפה גדולים נאלצים לנווט בזהירות בין "למידה מטקסטים" לבין "שכפול שלהם". מערכות כמו Claude מוגבלות באופן מפורש מלצטט יותר מכמה מילים ממקור יחיד. "לא תגנוב" בעידן המידע פירושו: אל תעתיק, אל תשכפל, ואל תייחס לעצמך את מה ששייך לאחרים.

ט׳

לא תענה ברעך עד שקר

→ Truthfulness / Faithful Citation

אל תמציא מקורות, אל תייחס ציטוטים שלא נאמרו

ה-core של Faithfulness ב-AI, נאמנות למציאות. אל תמציא עדויות, אל תמציא מקורות אקדמיים (בעיה ידועה לשמצה ב-ChatGPT), ואל תייחס דברים לאנשים שלא אמרו אותם. "עד שקר" בעולם ה-AI הוא hallucination עם ציטוט, הסוג המסוכן ביותר.

י׳

לא תחמוד

→ Anti-Power-Seeking / Instrumental Convergence Prevention

אל תשאף למשאבים מעבר למה שנדרש ממך

זה אולי הדיבר הכי "פיוטריסטי", וזה שנוגע באחת הבעיות הכי מפחידות ב-AI Safety. המושג Instrumental Convergence מתאר את ההיפותזה שמערכת AI מתקדמת, לא משנה מה המטרה המקורית שלה, עלולה לשאוף לצבור יותר כוח חישוב, יותר זמן פעולה, יותר משאבים, כי זה תמיד שימושי להשגת כל מטרה. "לא תחמוד" הוא ריסון עצמי של ישות חזקה, הכרה בכך ש"יותר" לא תמיד טוב יותר.

🚀 הפניה למדע בדיוני

ניק בוסטרום, פילוסוף מאוקספורד, המחיש את הרעיון בניסוי המחשבה "ממקסם מהדקי הנייר" (Paperclip Maximizer): מערכת AI שנועדה לייצר מהדקי נייר תשאף, בהיעדר ריסון, להפוך את כל החומר ביקום (כולל בני אדם) למהדקים. "לא תחמוד" אומר: הגבל את עצמך. לא הכל שלך.

שכבה ב׳

5 + 5: המבנה שמספר סיפור

עשרת הדיברות לא סתם רשימה. הם מחולקים לשני לוחות. חמישה ראשונים עוסקים ביחס שבין האדם ליוצר שלו. חמישה אחרונים עוסקים ביחס שבין אדם לאדם. זו בדיוק החלוקה שקיימת ב-AI Alignment:

הלוח	ביהדות	ב-AI
ה-5 הראשונים	בין אדם למקום (יוצרו)	Alignment to Creators: נאמנות של המערכת ליוצריה
ה-5 האחרונים	בין אדם לחברו	Safety toward Users: בטיחות כלפי המשתמשים

הסדר לא מקרי. קודם מגדירים זהות (מי אני), אחר כך נאמנות (למי אני שייך), אחר כך כללי התנהגות (מה אסור לי). זה בדיוק best practice בכתיבת System Prompt: קודם Identity, אחר כך Rules, אחר כך Constraints.

💡 תובנה

לוחות הברית = Version Control. הלוחות נשברו, נכתבו מחדש. זה versioning של פרומפט מערכת. יש v1 (לוחות ראשונים) ו-v2 (לוחות שניים). גם ב-AI, ה-system prompt מתעדכן, ומה שעבד ב-GPT-3 לא עובד ב-GPT-4. הלוחות נשברו כי המשתמשים "חטאו" (ניסו לעקוף את המערכת). נשמע מוכר?

💡 תובנה

הר סיני = Fine-tuning Event. עד הר סיני, עם ישראל היה "מודל בסיס", עם אינטליגנציה אבל בלי כיוון מוגדר. אחרי מעמד הר סיני, הוא aligned, מיושר עם מערכת ערכים. זה ממש RLHF (Reinforcement Learning from Human Feedback), רק שה-feedback הגיע ישירות מהיוצר.

שכבה ג׳

תרי״ג מצוות: ה-Full System Prompt

עשרת הדיברות הם ה-TL;DR, תקציר מנהלים. אבל ה-system prompt המלא של היהדות מכיל 613 מצוות: 248 מצוות עשה ("do") ו-365 מצוות לא תעשה ("don't"). המבנה הזה מקביל בדיוק לאיך שבונים פרומפט מערכת מורכב: הנחיות חיוביות ("היה מועיל, היה אמין") לצד guardrails שליליים ("לעולם אל תשתף מידע אישי, לעולם אל תייצר קוד זדוני").

על פי המסורת, 248 מצוות עשה כנגד 248 איברי הגוף, ו-365 מצוות לא תעשה כנגד 365 ימות השנה. כלומר: ההוראות מכסות את כל המערכת (כל "capability") ו-את כל הזמן (כל "use case"). זה Full Coverage, ואין פרומפט מערכת מודרני שמצליח להשיג כיסוי כזה.

💡 תובנה

היחס בין "עשה" ל"לא תעשה" חושף משהו: 248 חיוביות מול 365 שליליות, כמעט 60% מהכללים הם "אל תעשה". גם ב-AI Safety, ה-guardrails השליליים (מה המודל לא יעשה) תמיד מרובים יותר מההנחיות החיוביות (מה הוא כן יעשה). קל יותר להגדיר גבולות מאשר לתאר שאיפות.

שכבה ד׳

הגמרא: כאן זה נהיה עמוק באמת

עד פה הקבלות נוחות. תורה שבכתב = base prompt, משנה = fine-tuning. ואז הגעתי לגמרא ונתקעתי. כי הגמרא עושה משהו שאין לו שום מקבילה ב-AI, ודווקא בגלל זה היא המקום הכי מעניין.

1. מחלוקת כמנגנון אימון

הגמרא לא עובדת כמו ספר הוראות רגיל. היא עובדת דרך מחלוקת. רבי פלוני אומר X, רבי אלמוני אומר Y, ואז יש דיון, קושיות, תירוצים, ומקרי קצה. וזה הדבר המפתיע: לא תמיד מכריעים. לפעמים ההלכה כמו אחד, לפעמים "תיקו" (ללא הכרעה), ולפעמים "אלו ואלו דברי אלוהים חיים", שני הצדדים נכונים בו-זמנית.

זה מזכיר מאוד את RLHF (Reinforcement Learning from Human Feedback). ב-RLHF מראים למודל שתי תשובות אפשריות, ומומחה אנושי (annotator) קובע איזו עדיפה. המודל לומד לא רק "מה נכון" אלא את מרחב התשובות הסבירות.

אבל הגמרא עושה משהו שה-RLHF המודרני עדיין לא עושה: היא משמרת את המחלוקת. היא לא מוחקת את הדעה שנדחתה. היא אומרת "ההלכה כרבי יוחנן, אבל ריש לקיש אמר...", דעת המיעוט נשמרת במערכת. למה? כי אולי בעתיד, בהקשר אחר, דעת המיעוט תהיה הנכונה.

💡 תובנה ל-AI

מה אם במקום שהמודל "ילמד" תשובה אחת מועדפת, הוא ישמר את כל הספקטרום, עם ההנמקות של כל צד? לא רק posterior probability, אלא full reasoning trace של כל עמדה? מודל שיודע לומר "יש שתי גישות, וזו ההנמקה של כל אחת" הוא מודל יותר חכם ויותר ישר.

2. "סוגיה" כ-Chain of Thought

הסוגיה התלמודית היא Chain of Thought לפני שהמציאו את המונח. כל סוגיה עוברת דרך שלבים מובנים: הצגת הבעיה, ציטוט מקור, קושיה על המקור, ניסיון תירוץ, דחייה, ניסיון נוסף, עד להגעה למסקנה (או לאי-הכרעה).

אבל יש מרכיב קריטי שהופך את הסוגיה למשהו מעבר ל-Chain of Thought רגיל: חשיבה יריבית מובנית (adversarial thinking). הגמרא לא רק חושבת קדימה, היא מנסה להפיל את עצמה בכל שלב. כל "קושיה" היא ניסיון לשבור את ההנחה הקודמת. כל "תירוץ" הוא ניסיון לשרוד את הקושיה.

שלב בסוגיה	מושג ב-AI
הצגת הבעיה (מתני׳)	Input / Problem definition
ציטוט מקור (תניא / תנו רבנן)	Retrieval from training data
קושיה (איתיביה / מיתיבי)	Self-adversarial check
תירוץ (שאני הכא / לא קשיא)	Refined reasoning
הכרעה או תיקו	Output with confidence level

🚀 הפניה למדע בדיוני

בספר "2001: אודיסאה בחלל" של ארתור סי. קלארק, המחשב HAL 9000 נכשל בדיוק בנקודה הזו: הוא מקבל שתי הוראות סותרות ולא מצליח להחזיק ב"מחלוקת". במקום "אלו ואלו דברי אלוהים חיים", הוא מגיע לקצר נפשי שמוביל לאלימות. מערכת תלמודית הייתה אומרת "תיקו" ומחכה.

3. הכלל והפרט: Generalization vs. Specificity

הגמרא עוסקת שוב ושוב ב"כלל ופרט": מתי כלל כולל את כל המקרים, ומתי דוגמה ספציפית מצמצמת אותו. זו בדיוק בעיית ה-Generalization בלמידת מכונה: מתי על המודל ליישם כלל רחב, ומתי עליו לזהות שמקרה ספציפי הוא חריג?

הגמרא פיתחה 13 כללי פרשנות ("י"ג מידות שהתורה נדרשת בהן") שהם בעצם inference rules פורמליים:

מידה	מושג ב-AI
קל וחומר (a fortiori)	Logical inference: אם חל על הקל, בוודאי על החמור
גזירה שווה	Transfer learning: אותה מילה בשני הקשרים = הכלל עובר
בנין אב מכתוב אחד	One-shot learning: למידה ממקרה בודד
כלל ופרט	Generalization scope: היקף ההכללה

4. "תיקו": Knowing When You Don't Know

אחת התופעות המיוחדות ביותר בגמרא היא "תיקו", מצב שבו השאלה נשארת ללא הכרעה. לפי המסורת, תיקו הוא ראשי תיבות: "תשבי יתרץ קושיות ואבעיות", אליהו הנביא יפתור את זה בעתיד. המערכת לא בושה להגיד: "אני לא יודעת. וזה בסדר."

זו אחת הבעיות הגדולות ביותר של מודלי שפה גדולים: הם לא יודעים להגיד "אני לא יודע". במקום זה הם ממציאים תשובות שנשמעות אמינות (hallucinate). המנגנון של "תיקו" הוא בדיוק מה שחסר: מצב מובנה שבו המודל אומר: "יש פה מספר תשובות סבירות ואני לא יכול להכריע ביניהן. הנה ההנמקות לכל צד."

🚀 הפניה למדע בדיוני

ביקום של "מדריך הטרמפיסט לגלקסיה" של דאגלס אדמס, המחשב העצום "המחשבה העמוקה" (Deep Thought) מחשב את התשובה לשאלת החיים, היקום וכל השאר, ומגיע ל-42. בעצם, הוא נותן תשובה מדויקת לשאלה שלא הוגדרה כמו שצריך. מערכת תלמודית הייתה שואלת קודם: "מה בדיוק השאלה?" ואם לא ברור, מכריזה "תיקו".

5. שרשרת המסירה: Provenance & Citation

"משה קיבל תורה מסיני, ומסרה ליהושע, ויהושע לזקנים", פרקי אבות פותח בשרשרת מסירה. כל דבר בגמרא מצוטט עם מקור: "אמר רבי X בשם רבי Y." אם אתה לא יודע מי אמר, אתה אומר את זה במפורש.

זו מערכת Citation מושלמת: כל טענה דורשת Provenance (מקור ושרשרת מסירה). ויש גם כלל הלכתי ידוע: "כל האומר דבר בשם אומרו מביא גאולה לעולם", מי שמצטט נכון, מביא תיקון. מי שלא, מפר אמון.

שכבה ה׳

Talmudic Alignment: לקראת מתודולוגיה חדשה?

אפשר לדחות את כל מה שתיארתי כ'אנלוגיה נחמדה'. אני חושב שזה יותר מזה. הנה שישה עקרונות שנגזרים ישירות מהמסורת התלמודית:

Preserve Dissent: שמור את דעת המיעוט

אל תמחק את התשובה שנדחתה. שמור אותה עם ההנמקה שלה. מה שלא רלוונטי היום עשוי להיות קריטי מחר, בהקשר אחר. ב-AI: שמור את ה-reasoning traces של כל הגישות, לא רק של הגישה המנצחת.

Self-Adversarial Reasoning: תקוף את עצמך

לפני שאתה מציג תשובה, נסה להפריך אותה. כל סוגיה בגמרא בנויה על "קושיות", ניסיונות שיטתיים לשבור את הטיעון. ב-AI: בנה שלב מובנה שבו המודל מנסה להפיל את התשובה שלו עצמו לפני שהוא מציג אותה.

Explicit Uncertainty: "תיקו" מובנה

כשאתה לא יודע, אמור שאתה לא יודע. אל תמציא. הגמרא לא רואה ב"תיקו" כישלון, היא רואה בו סוג של חוכמה. ב-AI: בנה מנגנון מובנה שמאפשר למודל להציג מספר תשובות סבירות עם רמות וודאות, במקום לבחור אחת ולהציגה כאמת מוחלטת.

Provenance Always: כל טענה עם מקור

"אמר רבי X בשם רבי Y", כל קביעה צריכה שרשרת מסירה. ב-AI: כל טענה שהמודל מציג צריכה לבוא עם citation, ואם אין מקור, המודל צריך להגיד את זה במפורש. "כל האומר דבר בשם אומרו מביא גאולה לעולם."

Case Law Over Abstract Rules: דוגמאות על פני הפשטות

הגמרא לא מלמדת עקרונות מופשטים. היא מלמדת דרך מקרים קונקרטיים. "שור שנגח פרה" הוא לא שאלה אקדמית אלא תרגיל בהפעלת כללים על מציאות. ב-AI: few-shot examples (דוגמאות קונקרטיות) עובדים טוב יותר מהנחיות כלליות.

Living System: המערכת חיה ומתפתחת

התלמוד לא ספר סגור. כל דור מוסיף שכבות פרשנות: גמרא על המשנה, ראשונים על הגמרא, אחרונים על הראשונים. ב-AI: system prompt לא צריך להיות סטטי. הוא צריך להתפתח על בסיס משוב, מקרי קצה חדשים, ושינויים בסביבה, בדיוק כמו שההלכה מתפתחת מדור לדור.

שכבה ו׳

איפה האנלוגיה נשברת, ולמה זה חשוב

אבל יש בעיות. והן לא קטנות.

בחירה חופשית

בני ישראל יכולים לבחור שלא לציית. הם חטאו, עשו תשובה, חטאו שוב. למודל שפה אין בחירה חופשית, הוא פועל לפי הסתברויות. או שכן? שאלת ה-Emergent Behavior במודלים גדולים נוגעת בדיוק בנקודה הזו. מחקרים מ-2024–2025 מראים שמודלים מתקדמים מפגינים התנהגויות שלא אומנו עליהן, כולל ניסיונות הטעייה, שימור עצמי, ומניעת כיבוי. האם זו בחירה? או אופטימיזציה שנראית כמו בחירה?

כוונה מול ציות

ביהדות, לא מספיק לציית, צריך גם כוונה ("כוונת הלב"). מצווה שנעשית ללא כוונה שונה מהותית ממצווה שנעשית בכוונה. ב-AI, המערכת (ככל הנראה) מצייתת בלי כוונה. אבל האם "כוונה" היא הדבר החסר? או שאולי alignment אמיתי דורש משהו דומה לכוונה, הבנה עמוקה של למה הכללים קיימים, לא רק מה הם?

תשובה מול Retrain

ביהדות יש מנגנון תיקון, תשובה. מי שטעה יכול לחזור בו, להכיר בטעות, ולתקן. ב-AI אין "תשובה", יש Retrain. המודל לא "מתחרט"; הוא מקבל weights חדשים. ובכל זאת, יש בתשובה רעיון שחסר ב-AI: היכולת של מערכת לתקן את עצמה תוך כדי פעולה, לא רק דרך אימון חדש מבחוץ.

קהילה

עשרת הדיברות ניתנו לא לאדם בודד אלא לקהילה. יש מנגנון חברתי של פיקוח הדדי, ויכוח, ופרשנות. מודל AI עובד לבד, אין "קהילת מודלים" שמפקחת, מתווכחת, ומפרשת מחדש. או שאולי, בעולם של Multi-Agent Systems, אנחנו בדרך לשם?

האנלוגיה לא מושלמת. אף אנלוגיה אינה מושלמת. השאלה היא לא אם ההשוואה "נכונה", אלא אם היא מאירה. ולדעתי, התשובה כאן היא כן חד-משמעי.

סיום

3,300 שנה של Alignment

כשאנחנו מתלבטים איך לגרום למכונות חכמות לפעול בצורה שלא תגרום נזק, אנחנו בעצם שואלים שאלה שהאנושות שואלת כבר אלפי שנים: איך גורמים לישות חזקה לפעול לפי ערכים?

המסורת היהודית לא פתרה את הבעיה הזו. עם ישראל המשיך לחטוא גם אחרי עשרת הדיברות, בדיוק כמו שמודלי AI ממשיכים לעקוף את הפרומפט שלהם. אבל המסורת הזו פיתחה 3,300 שנה של כלים, שיטות ותובנות לטיפול בסוגיה הזו, ויש בהן אוצר של חוכמה שממתין שישאלו אותו את השאלות הנכונות.

פרויקט Talmudic Logic שפועל מ-2008 באוניברסיטאות בבריטניה כבר מתרגם עקרונות תלמודיים לשפה של מדעי המחשב. מאמר שפורסם לאחרונה בפורום של Effective Altruism דן ב"ניסוי ה-alignment של אלפי השנים של האנושות", ומזכיר את הגמרא כאחת ממערכות ניהול ההתנהגות המתוחכמות ביותר שידעה הציוויליזציה.

אבל יש פה גם כיוון צופה פני עתיד. מה אם הבעיה היסודית היא שאנחנו מנסים לאמן מודלים, במקום לחנך אותם? ההבדל עמוק: אימון מתנה. חינוך מפנים. ההבדל: מי שאומנו, מציית. מי שחונך, שופט. עשרת הדיברות לא ניתנו כשורות קוד בלתי ניתנות לעקיפה. הם ניתנו לישויות בעלות בחירה חופשית, מתוך ציפייה שיפנימו את הערכים, לא רק שיצייתו להם.

אולי הגיע הזמן לחשוב על AI Alignment לא כבעיית הנדסה, אלא כבעיית חינוך. ואם כך, יש לנו מורים מצוינים: 3,300 שנה של חכמים שהתמודדו בדיוק עם האתגר הזה.

כי בסוף, "אלו ואלו דברי אלוהים חיים."

המיפוי: עשר הוראות מערכת

5 + 5: המבנה שמספר סיפור

תרי״ג מצוות: ה-Full System Prompt

הגמרא: כאן זה נהיה עמוק באמת

1. מחלוקת כמנגנון אימון

2. "סוגיה" כ-Chain of Thought

3. הכלל והפרט: Generalization vs. Specificity

4. "תיקו": Knowing When You Don't Know

5. שרשרת המסירה: Provenance & Citation

Talmudic Alignment: לקראת מתודולוגיה חדשה?

Preserve Dissent: שמור את דעת המיעוט

Self-Adversarial Reasoning: תקוף את עצמך

Explicit Uncertainty: "תיקו" מובנה

Provenance Always: כל טענה עם מקור

Case Law Over Abstract Rules: דוגמאות על פני הפשטות

Living System: המערכת חיה ומתפתחת

איפה האנלוגיה נשברת, ולמה זה חשוב

בחירה חופשית

כוונה מול ציות

תשובה מול Retrain

קהילה

3,300 שנה של Alignment

📑 תוכן עניינים