עיבוד שפה טבעית

ערך זה עוסק בעיבוד שפה טבעית. אם התכוונתם למשמעות אחרת, ראו NLP.

עיבוד שפה טבעית (באנגלית: Natural Language Processing - NLP) הוא תת-תחום של בינה מלאכותית ובלשנות. הוא עוסק בבעיות הקשורות לעיבוד ומניפולציה של שפה טבעית והבנה של שפה טבעית על מנת לגרום למחשבים "להבין" דברים שנאמרים או נכתבים בשפות אנושיות.

עיבוד השפה הטבעית קשור לתחום הבלשנות החישובית, ולעיתים משתמשים במונחים אלה ללא הבחנה ביניהם. כאן, נתייחס לעיבוד שפה טבעית כתחום המעשי של פיתוח יישומי מחשב המטפלים בשפה אנושית. הערך "בלשנות חישובית" עוסק בפן התאורטי של שילוב רעיונות מתחום מדעי המחשב בחקר השפה האנושית.

עיבוד שפה טבעית

בשנות ה-50 וה-60 מערכות מוקדמות כמו SHRDLU, שעבדו ב"עולמות קוביות" עם אוצר מילים מצומצם, ולאחר מכן ELIZA, עבדו היטב, והובילו את החוקרים לאופטימיות מוגזמת, שחלפה במהירות כאשר המערכות הוגדלו למצבים מציאותיים יותר עם המורכבות וחוסר הבהירות של העולם האמיתי.

הבנת שפה טבעית תלויה בידע רחב על העולם, ידע שלעיתים קרובות נתפס כטריוויאלי, אבל יש להזין אותו למערכת כדי שתוכל לפענח את השפה. גם ההגדרה של המושג "הבנה" היא בעיה מרכזית בעיבוד שפה טבעית.

דוגמאות לבעיות העומדות בפני מערכות הבנת שפה טבעית:

למשפטים "נתנו לקופים את התפוזים משום שהם היו רעבים", ו"נתנו לקופים את התפוזים משום שהם היו רקובים", יש לכאורה מבנה תחבירי זהה, אף כי למעשה באחד מהם המילה "הם" מתייחסת לקופים, ואילו באחר לתפוזים. אי אפשר להבין את המשפט כראוי ללא היכרות עם המאפיינים והתכונות המתייחסים לקופים ולתפוזים.
בשפות רבות קשה למיין את מרכיבי המשפט ולסמן את היחסים ביניהם באמצעות ניתוח פשוט של המבנה התחבירי. למשל, יש שפות שקשה לדעת בהן לאיזה שם עצם מתייחס שם התואר, ויש שפות בהן אין סימון מורפולוגי לחלקי הדיבר.

כדי לפתור את הבעיות האלו, הציעו כמה בלשנים וחוקרי אינטליגנציה טבעית לעשות שימוש בשפה מלאכותית, שתוכל לבטא את כל הדקויות והעומק של השפות הטבעיות שאנו מכירים, אך עם זאת שתהיה בעלת תחביר וחוקי כתיב עקביים מבחינה לוגית או מתמטית, כדי להסיר כל עמימות או רב-משמעות הנובעת ממבנה המשפט. דוגמה לשפה שכזו היא לוז'באן.

המשימות העיקריות של עיבוד שפה טבעית

הפיכת טקסט לדיבור
זיהוי דיבור
יצירת שפה טבעית
תיוג תפקידים סמנטי
תרגום מכונה
מענה על שאלות
כריית מידע
מציאת מידע
בדיקת טקסטים
גרירה טקסטואלית
סיווג טקסטים
סיכום (יצירת תקציר) אוטומטי

בעיות המקשות על עיבוד שפה טבעית

הפרדת משפט למילים: בשפה מדוברת אין בדרך כלל הפרדה ברורה בין מילים; רוב הבלשנים מניחים כי הדוברים מזהים מילים ורכיבים תחביריים אחרים במשפט על-פי רמזים פרוזודיים (בעיקר הטעמה) ואינטונציה. גם בשפה הכתובה אין בהכרח הפרדה בין המילים. בשפות כמו סינית אין רווחים בין המלים, ובווייטנאמית מסמנים רווח בין הברות ולא בין מילים. גם בשפות אירופיות כללי ההפרדה בין המילים משתנים משפה לשפה (למשל, באנגלית משתמשים ברווח יותר מאשר בגרמנית).

רב־משמעות לקסיקלית: למלים רבות יש יותר ממשמעות אחת; מציאת המשמעות הנכונה מחייבת התחשבות בהקשר וב"ידע העולם". רב-משמעות לקסיקלית עשויה להביא ליצירת צירופים שנראים אבסורדיים, אך בעצם הם מובנים לדוברי השפה, למשל: "סבון נטול סבון" (סבון במשמעות "תכשיר רחצה" לעומת סבון במשמעות "סוג של חומר").

פתרון רב־משמעות לקסיקלית חשוב לזיהוי אוטומטי של ישויות (named entity recognition), למשל ההבחנה בין "Nice System is an Israeli company" ל "I have nice systems at home".

עמימות תחבירית: התחביר של השפות הטבעיות הוא עמום, כלומר אין יחס של אחד לאחד בין מבנים תחביריים לבין משמעות. מבנים תחביריים שונים עשויים לשאת משמעות זהה, ולמבנה תחבירי אחד עשויות להיות מספר משמעויות. בחירת המובן הנכון מצריכה מידע סמנטי, קונטקסטואלי וידע חוץ-לשוני על העולם. לדוגמה: "דוב נמלים" הוא בעל-חיים שאוכל נמלים. "כלב זאב" אינו בעל חיים שאוכל זאבים. מצד שני, "כלב זאב" הוא סוג של כלב, ואילו "דוב נמלים" אינו סוג של דוב. על אף כל זאת, המבנה התחבירי בשני המקרים זהה.

קלט לא ברור: מבטאים מקומיים או זרים, הפרעות בדיבור, טעויות הדפסה או לשון; טעויות בזיהוי תווים אופטי (OCR). כמחצית מהדוברים עברית ישראלית אינם דוברים ילידיים, ולפיכך נושאים מבטא זר כלשהו, דבר המקשה על פענוח ממוחשב של הדיבור. בערבית קיימים סגנונות רבים של כתבי יד, דבר המקשה מאוד על פיתוח זיהוי תווים אופטי לכתב יד ערבי.

פרגמטיקה של השפה: פירוש המשפט אינו נובע בהכרח ממשמעות המילים והמבנים התחביריים. למשל: המשפט: "האם אתה יכול להעביר את המלח?", אף שהוא בנוי כשאלת "כן או לא", אינו שאלה למעשה, אלא בקשה. התגובה המצופה למשפט כזה היא העברת המלח למבקש. התשובה "לא" עדיין נשמעת סבירה, אבל התשובה "כן" לשאלה כזאת נשמעת מוזרה. מבחינה לוגית פשוטה, קשה להסביר מדוע התשובה "כן" אינה קבילה עבור משפט שמנוסח כשאלת "כן או לא". התשובה לשאלה: "כמה תלמידים נכשלו בבחינה?" צריכה להיות "כולם" אם כל התלמידים שניגשו לבחינה נכשלו. התשובה "שלושה" (במקרה שבו רק 3 תלמידים ניגשו לבחינה) נתפסת כבלתי-קבילה, אף שמבחינה לוגית אין בה פגם. פול גרייס ניסח שורה של כללים המכונים "עקרון שיתוף הפעולה" שמסבירים את המקרים האלה, אולם אלה הם כללים פסיכולוגיים או סוציולוגיים, ואינם כללים לוגיים. לפיכך, קשה מאוד לכתוב תוכנית מחשב שתכלול אותם.

עיבוד שפה טבעית סטטיסטי

עיבוד שפה טבעית סטטיסטי משתמש בשיטות של סיכויים והסתברויות על מנת לפתור כמה מהבעיות שצוינו למעלה, במיוחד אלה שעולים מכך שמשפטים ארוכים הם לרוב לא ברורים כשמעבדים אותם בשיטות לשוניות, והדבר מביא לאלפי או מיליוני אפשרויות ניתוח. שיטות להבהרת המצב משתמשות בדרך כלל באוצר של טקסט מוכן ובמודלי מרקוב. הטכנולוגיה לעיבוד סטטיסטי מגיעה בעיקר מתחומי למידת מכונה וכריית מידע, שני תחומים באינטליגנציה מלאכותית העוסקים בלימוד ממידע.

ראו גם

קישורים חיצוניים

מדיה וקבצים בנושא עיבוד שפה טבעית בוויקישיתוף

אורי אליאבייב, המהפכה הלשונית השנייה: עכשיו תורן של המכונות ללמוד לדבר, באתר Machine Learning Israel, תאריך 4 במאי 2016
אקונומיסט, סירי, מה זה טכנולוגיית זיהוי שפה ודיבור?, באתר TheMarker‏, 12 בפברואר 2017
מרכז הידע לתקשוב בשפה העברית
עיבוד שפה טבעית בישראל
האיגוד הישראלי לטכנולוגיות שפת אנוש - תכנים לאימון שפה טבעית לעברית וערבית
LightTag - כלי תיוג המשמש להכנת טקסט לעיבוד שפה טבעית
לשון טבעית, עבוד (מדעי המחשב), דף שער בספרייה הלאומית

תחומים במדעי המחשב
יסודות מתמטים	לוגיקה מתמטית • תורת הקבוצות • תורת המספרים • תורת הגרפים • תורת הטיפוסים • תורת הקטגוריות • אנליזה נומרית • תורת האינפורמציה
תורת החישוביות	תורת האוטומטים • תורת הרקורסיה • תורת הסיבוכיות • מחשוב קוונטי
אלגוריתמים ומבנה נתונים	אנליזה של אלגוריתמים • גאומטריה חישובית
שפות תכנות ומהדרים	מפרש • פרדיגמת תכנות (תכנות פרוצדורלי • תכנות מונחה עצמים • תכנות פונקציונלי • תכנות לוגי)
חישוב מבוזר ועיבוד מקבילי	עיבוד מקבילי • מחשוב סריגי • בקרת מקביליות
הנדסת תוכנה	ניתוח מערכות מידע • עיצוב תוכנה • תכנות מחשבים • שיטות פורמליות • בדיקות תוכנה • מתודולוגיית פיתוח תוכנה
תקשורת	ניתוב • טופולוגיית רשת • קריפטוגרפיה
מסד נתונים	מסד נתונים יחסי • SQL • תנועה • אינדקסים • כריית מידע • CAP theorem
בינה מלאכותית	חשיבה אוטומטית • בלשנות חישובית • ראייה ממוחשבת • עיבוד שפה טבעית • בינה חישובית • מערכת מומחה • למידה חישובית • רובוטיקה
גרפיקה	הדמיה ממוחשבת • הנפשה ממוחשבת • עיבוד תמונה
שפות פורמליות	שפה רגולרית • שפה חסרת הקשר • שפה תלוית הקשר • ההיררכיה של חומסקי
שימושים במדע	ביואינפורמטיקה • מדעים קוגניטיביים • כימיה חישובית • פיזיקה חישובית • אנליזה נומרית

בינה מלאכותית
כללי	מבחן טיורינג • היסטוריה של הבינה המלאכותית • ציר הזמן של בינה מלאכותית • התקדמות הבינה המלאכותית • אוריינות AI • סוכן תבוני • AI-שלמות מערכת מומחה • אסדרת בינה מלאכותית (בישראל) • בינה מלאכותית צרה • בינה חישובית • הסברתיות בינה מלאכותית • הפרדוקס של מורבק • סוכן תבוני • אתיקה של בינה מלאכותית
תחומים	עיבוד שפה טבעית • ראייה ממוחשבת • בינה מלאכותית יוצרת • אומנות בינה מלאכותית • בינה מלאכותית כללית (AGI)
סוגי למידת מכונה	מערכת לומדת • למידה מונחית • למידה בלתי מונחית • למידה עמוקה • למידת חיזוק • סיווג בייסיאני נאיבי • רשת בייסיאנית
אלגוריתמי למידת מכונה קלאסית	פרספטרון • עץ החלטה • מכונת וקטורים תומכים • Bag of words • אלגוריתם k-מרכזים • אלגוריתם מיקסום התוחלת • הורדת ממד • אלגוריתם שכן קרוב • יער אקראי • Q-learning •‏ T-SNE •‏ Tf–idf • חיזוק גרדיאנט
למידה עמוקה	רשת עצבית מלאכותית • רשת זרימה קדימה • רשת עצבית רקורסיבית • פונקציית אקטיבציה • טרנספורמר • Attention •‏ GAN
עיבוד שפה טבעית	מודל שפה • שיכון מילים (אנ') • בלשנות חישובית • תרגום מכונה • חילוץ מידע (אנ') • ניתוח סנטימנט • זיהוי חלקי דיבר (אנ') • מערכת זיהוי דיבור • זיהוי ישויות • כריית טקסט • תיוג תפקידים סמנטי • Word2vec • מודל שפה גדול • GPT •‏ BERT (אנ') • מודל Bag-of-words (אנ') • יצירת טקסט בשפה טבעית (אנ') • מילת עצירה • ניתוח מחרוזות • Stemming (אנ') • למטיזציה (אנ')
יישומים לבינה מלאכותית (אנ')	צ'אטבוט • זיהוי דובר • זיהוי עצמים • זיהוי תבניות • עוזר וירטואלי • זיהוי תווים אופטי • מחולל תמונות • הזיות
מערכות בינה מלאכותית	אלייזה • ChatGPT •‏ DALL-E •‏ Midjourney •‏ Gemini • קלוד •‏ Perplexity •‏ SearchGPT •‏ GitHub Copilot • דיפ־פייק • סירי • Google Assistant • אמזון אלכסה • מיקרוסופט קופיילוט
סוגיות בטיחות בינה מלאכותית (אנ')	סכנה קיומית מבינה מלאכותית כללית • בינה מלאכותית חזקה • יישור בינה מלאכותית (אנ') • בקרת יכולות בינה מלאכותית (אנ') • בינה מלאכותית ידידותית (אנ') • התכנסות אינסטרומנטלית (אנ') • סינגולריות טכנולוגית • השתלטות הבינה המלאכותית
ספריות בשימוש נרחב	TensorFlow •‏ PyTorch •‏ Torch •‏ Hugging Face •‏ Keras •‏ spaCy (אנ') •‏ Caffe
לקטגוריית הבינה המלאכותית