למה שמות של סרטים מתורגמים כל כך גרוע לעברית? ניתוח NLP עם Language-agnostic BERT Sentence Embeddings

בחנתי תרגומים לשמות של סרטים משנות ה-40 ועד היום. החדשות הטובות: השיא בתרגומים הגרועים מאחורינו, וגם – זה גרוע יותר בשפות אחרות

תרגום משפה זרה הוא לא מלאכה פשוטה כלל, ותרגום שמות של כותרים הוא קשה במיוחד. משא כבד מוטל על גבי השם שצריך לייצג בכמה מילים בודדות יצירה שלמה ולשקף את תוכנה לקהל הפוטנציאלי. ועדיין כולנו לבטח נתקלנו לא פעם בתרגומים ממש איומים לשמות של סרטים, ותהינו למה המתרגמים לא נצמדים פשוט למקור. חלק מהתרגומים הגרועים ממש ידועים לשמצה, כמו "האקדח מת מצחוק" (The Naked Gun), "חרמן על הזמן" (Superbad), "גשם של פלאפל" (Cloudy with a Chance of Meatballs) ו"להציל את מארק וואטני" (The Martian). אבל עד כמה תרגומים גרועים הם באמת נפוצים, ומה מסביר אותם? החלטתי לצאת לחקור.

בישראל שמות הסרטים המתורגמים נקבעים על ידי העובדים של חברות ההפצה המקומיות – יש כמה כאלה באזור. בריאיון להארץ מ-2019 סיפרה אביטל רוזן, מנהלת הפצת סרטים זרים באחת החברות, על השיקולים שמנחים את בחירת השמות: "יש כאלה שמאוד לא אוהבים את זה שאתה מתרחק מהשם המקורי, אבל אנחנו לא רוצים רק להפיץ את הסרט, אלא רוצים גם שאנשים יבואו לראות אותו, אז אנחנו מנסים לבחור בשם שהקהל יוכל להתחבר אליו". אז עד כמה תרגומי השמות באמת רחוקים מהמקור? ומה מסביר את זה?

נתונים

ראשית, צריך קצת נתונים. לרוע המזל, נתוני הסרטים לא מרוכזים במקום אחד, ואין ברירה אלא ללקט מפה ומשם. תחילה הורדתי מה-API של The Movie Database נתונים על כחצי מיליון סרטים, כולל השמות המתורגמים בשפות השונות. מתוך אלה, 13,779 הם סרטים ששפת המקור שלהם היא אנגלית, עם כותרת מתורגמת בעברית (כלומר, שלא השאירו פשוט את הכותרת באנגלית). את הנתונים האלה חיברתי לציוני הסרטים מ-IMDb, ולנתונים ממאגר OMDb. לבסוף הוספתי נתוני מכירות בקופות באמצעות סקרייפינג לאתר Boxoffice Mojo.

כל תרגום גרוע גרוע בדרכו

שנית, צריך דרך לכמת עד כמה התרגום לעברית של שם הסרט הוא גרוע. בתור קירוב, החלטתי לבדוק עד כמה התרגום הוא מילולי, או עד כמה הוא משקף את התוכן הסמנטי של השם המקורי. כמובן, זה לא תמיד נכון, ולפעמים דווקא יש הברקות בתרגומים לא מילוליים או רחוקים סמנטית (כמו "הנוסע השמיני" ל-Alien), אבל ככלל זה נראה פרוקסי די הגיוני וסביר. על אף שעברית היא כידוע כוכב קטן וזנוח בגלקסיה הגדולה של ה-NLP, יש לנו כאן כמה וכמה אפשרויות לבדיקת הדמיון הסמנטי בין השם המקורי לבין השם המתורגם. בניתוח הזה אשתמש במודל LaBSE החדש של גוגל. בואו נסקור בקצרה (אבל ממש) איך עובד המודל.

אם אתם עוסקים ב-NLP, בוודאי שמעתם על BERT, מודל-השפה של גוגל שהזניק את הביצועים של למידת מכונה בכל מטלות ה-NLP בצורה משמעותית. ל-BERT אף יש גרסה רב-לשונית שתומכת גם בעברית. BERT מבוסס על ארכיטקטורת הטרנספורמר שנהגתה לראשונה לשימוש בתרגום מכונה, עם כמה שינויים. הטרנספורמר המקורי מכיל שני רכיבים גדולים, מקודד (encoder) ומפענח (decode). מחוללי טקסט כמו GPT-2 מכילים רק את הרכיב המפענח. BERT לעומת זאת מכיל רק מקודד. בהפשטה, אם נזין משפט ל-BERT, הוא יקודד לנו אותו – בגרסה הקטנה של BERT, נקבל עבור כל מילה וקטור (רשימת מספרים) באורך 768 שמייצג אותה. בקלט של BERT המילה הראשונה תמיד תהיה התג המיוחד [CLS], ולוקטור שהיא מקבלת אפשר להתייחס בתור הייצוג של המשפט בכללותו. עם הוקטור הזה אפשר לעשות הרבה דברים, כמו להזין אותו כקלט למסווג שינבא מאפיינים של הטקסט. ואפשר גם פשוט להשוות את הוקטורים של משפטים שונים כדי לבדוק את הקרבה ביניהם. הבעיה, לענייננו, היא ששיטת האימון של BERT מביאה לכך שהייצוגיים ש-BERT ודומיו מנפקים לא טובים במיוחד בתפיסת הדמיון הסמנטי בין משפטים. בחבילה המצוינת sentence-transformers עשו אדפטציה ל-BERT כך שיפיק ייצוגיים בעלי משמעות סמנטית, באמצעות אימון נוסף על מטלות של דמיון סמנטי כמו STS ו-NLI. המאמר החדש של גוגל נוקט בגישה מעט אחרת, ומציג את LaBSE  – Language-agnostic BERT sentence embeddings, מודל רב-לשוני שתומך ב-109 שפות. המטרה של המודל היא לקודד משפטים בשפות שונות למרחב וקטורי משותף, כך שמשפטים דומים יקבלו ייצוג דומה,  ובפרט שתרגומים של משפט יקבלו ייצוג דומה למשפט המקורי. אין כאן הרבה חידושים עקרוניים על פני מודלים קודמים, אבל במבחן התוצאה יש שיפור ניכר בכמה וכמה ומטלות, ובייחוד ביכולת להרחיב את הכיסוי לשפות נוספות מבלי לפגוע בביצועים.

בקצרה ובנפנוף ידיים, הארכיטקטורה היא של רשת סיאמית עם צמד מקודדים זהים עם משקולות קשורות. מאתחלים את המקודד עם משקולות של מודל דמוי BERT שאומן בשיטה הרגילה של מודל שפה עם מאסקינג, עם תוספת קטנה. בשיטת המאסקינג הרגילה מזינים למודל משפט שבו מוחקים באקראי חלק מהמילים, ומאמנים את המודל לנבא את המילים שנמחקו באמצעות המילים האחרות. התוספת לשיטה הזו ב-LaBSE (כמו כן מודלים רב-לשוניים אחרים) היא Translated Language Modeling  – משרשרים משפט והתרגום שלו בשפה אחרת, ומוחקים באקראי מילים מהרצף המלא, כך שבניבוי המילים החסרות המודל יעשה שימוש באינפורמציה שבשתי השפות וילמד לייצג באופן דומה מילים מתורגמות בשפות שונות.

צמד המקודדים הזהים מנפקים ייצוג למשפט א', וייצוג למשפט ב', והדמיון בין המשפטים מחושב לפי מרחק קוסינוס שמכמת את הזווית בין הוקטורים. בשלב השני, מאמנים את צמד המקודדים על דירוג תרגומים – בהינתן משפט בשפת המקור, תרגום של המשפט בשפת היעד, וסט של משפטים אחרים בשפת היעד, מטרת האימון היא שהייצוג של משפט המקור יהיה דומה יותר למשפט המתורגם מליתר המשפטים. זוהי הארכיטקטורה של הרשת:

המודל זמין ב-TFHub, ואפשר גם לטעון גרסת פייטורץ' כאן. השתמשתי במודל כדי לקודד את כותרות הסרטים המקוריות באנגלית ואת הכותרות המתורגמות בעברית, וחישבתי את המרחק ביניהם לפי דמיון קוסינוס, שנע בין 1 למינוס 1. ערך של 1 משמעו שהוקטורים מצביעים באותו כיוון במרחב הרב-מימדי, ערך של 0 משמעו שהם אורתוגונליים האחד כלפי השני, וערך של מינוס 1 משמעו שהם הפוכים. בפועל, הערכים כאן נעים בין 0.2 (משפטים מאוד שונים) ל-1 (משפטים מאוד דומים).

לשם ההשוואה, השתמשתי גם במודל DistilUSE בחבילה sentence-transformers. כולידציה, נוכל לדגום 2 תרגומים מכל עשירון במרחק הקוסינוס כדי לראות האם הוא תופס היטב את הדמיון בין התרגום למקור:

LaBSE Cosine Percentileכותרת מקוריתכותרת מתורגמתLaBSE CosineDistilUSE Cosine
0.2Tiptoesמשפחה קטנה שלי0.2950.204
0.2D.O.A.מי רצח אותי?0.2240.171
0.3Made in Dagenhamאיזה מין שוויון0.3690.007
0.3Follow Meאין לאן לברוח0.3810.283
0.4Never Leave Aliveהמשחק המסוכן ביותר0.4290.229
0.4It's a Wonderful Afterlifeמתים להתחתן0.4720.387
0.5Leatherfaceהמנסרים מטקסס: ההתחלה0.5790.079
0.5Louder Than Bombsהשקט שבפנים0.5780.436
0.6Game Changeחוקי המשחק0.6680.567
0.6Remo Williams: The Adventure Beginsרמו0.6630.074
0.7Cleanerקלינר0.7230.510
0.7The Stranger Withinהזר בתוכי0.7640.683
0.8Winnie the Pooh: Seasons of Givingפו הדב: עונות הנתינה0.8900.600
0.8Seal Team Six: The Raid on Osama Bin Ladenצוות אריות הים 6: המטרה בן לאדן0.8570.574
0.9In the Bedroomבחדר המיטות0.9170.964
0.9Robinson in Ruinsרובינסון בהריסות0.9210.793

ההבדל במידת המילוליות של התרגום בהחלט מורגש לאורך הסקאלה של מרחקי הקוסינוס – בהכללה, ערכי 0.8-1 הם תרגומים של מילה במילה, ערכי 0.6-0.8 הם תרגומים ישירים עם טוויסט או שינוי מסוים, וערכים מתחת ל-0.6 הם תרגומים שאין ביניהם לבין המקור שום קשר ישיר. עם זאת לא לגמרי ברור שהערך המדויק הוא בעל משמעות, וקשה למצוא הבדל גדול בין תרגומים עם ציון 0.2 לתרגומים עם ציון 0.5, לדוגמה. 0.6 נראה כמו רף שרירותי-אך-סביר שמבחין בין השמות המתורגמים לשמות ה"מונפצים".

על אף שיש קורלציה חזקה של 0.78 בין מרחקי הקוסינוס על בסיס LaBSE ואלו שעל בסיס DistilUSE, מהסתכלות על המקרים עם הפער הכי גדול בין השיטות נדמה שמרחקי ה-LaBSE תופסים מעט יותר טוב את המרחק הסמנטי. זה בייחוד נכון בתעתיקים של מילים לועזיות, כמו "בייבי דרייבר" או "סטריטדנס D3", שמקבלים מרחק גבוה (כלומר, ערך נמוך) בDistilUSE על אף שלצורך שלנו כאן הם יחסית דומים.

עיון ברשימת התרגומים עם דמיון הקוסינוס הכי נמוך מגלה כמה פנינים שלא הכרתי:

  • Havoc → משחקי גנגסטה
  • Gigli → אהבה מחוץ לחוק
  • Serendipity → בדיוק כשהתאהבנו
  • You Were Never Really Here → יום נפלא
  • Wanderlust → את, אני והשאר
  • Joy Ride → לעולם אל תשחקו עם זרים
  • Matewan → עבודה שחורה
  • Taking 5 → תחטפי את ליבי
  • Kuffs → עצמאי בשטח
  • Griffin & Pheonix → רגעים יקרים של אהבה

ועוד, ועוד.. אז מה אפשר ללמוד מהנתונים האלה?

מגמות לאורך זמן

מבין כל התרגומים הגרועים לשמות של סרטים, ידוע לשמצה במיוחד התרגום הנורא של Knocked Up  מ-2007 ל"הדייט שתקע אותי". דורית ישי, מנהלת הפצה לשעבר, מספרת להארץ לגבי התרגום: "זה היה לפני שנים, טרום העידן הדיגיטלי, והיינו צריכים לתת שם לסרט עוד לפני שצפינו בו ולפני שידענו לאן הוא הולך". לטענתה, על אף שגם היום המפיצים נדרשים לתת שם עוד לפני שהעותק מגיע לארץ, המשימה קלה יותר "כי אפשר למצוא הרבה יותר מידע זמין על הסרט באינטרנט".

האמנם? הגרף שלמטה ממפה את 14~ אלף הסרטים שבמאגר לפי תאריך היציאה ולפי דמיון התרגום למקור (דמיון הקוסינוס). לחצו על הנקודות כדי לראות את הכותרת המקורית ואת התרגום. ראשית, עצם ריבוי הסרטים בשני העשורים האחרונים בולט מאוד. שנית, ניתן לראות שבין שנות ה-40' לשנות ה-80' הרוב המכריע של הסרטים תורגמו מילולית. בארבעת העשורים האחרונים, על אף שעדיין מרבית הסרטים מתורגמים יחסית מילולית, הרבה יותר סרטים מופיעים מתחת לקו ה-0.6 – כלומר, מתורגמים גרוע. עם זאת, על אף התחושה הרווחת שהתרגומים לעברית של שמות סרטים הם איומים, מדובר בסופו של דבר רק במיעוט המקרים – בסך הכל, רק 9.2% משמות הסרטים בכל התקופה מתורגמים גרוע (מתחת ל-0.6), וברוב המקרים התרגום נאמן למקור.

הגרפים שלהלן ממפים את הממוצע וסטיית התקן של הדמיון הסמנטי בין הכותר המקורי לתרגום העברי, מדי שנה.

כפי שניתן לראות בפאנל השמאלי, תחילת שנות ה-90 היו עדנתם של תרגומי הסרטים הגרועים, ומאז אנחנו נמצאים במגמת שיפור – על אף שהדרך עוד ארוכה ממילוליות התרגומים של הסרטים משנות ה-40, ה-50 וה-60. השונות בין המילוליות בתרגום שמות הסרטים השונים, עם זאת, נשארה כמעט קבועה מתחילת שנות ה-90. כלומר, בממוצע יש (קצת) פחות תרגומי סרטים גרועים, אבל האאוטליירים הם כנראה תרגומים גרועים בלתי נשכחים.

אבל למה?

ראינו שבסך הכל, היקף התופעה הוא קטן – הרוב הגדול של שמות הסרטים מתורגמים בתרגום יחסית מילולי. אז למה חלק מהסרטים מקבלים תרגום שנצמד למקור, ואחרים לא? באותו ראיון מציינת אביטל רוזן: "זה הרבה פעמים תלוי בסרט. סרט שהוא יותר איכותי, נשתדל להישאר כמה שיותר קרוב לשמו המקורי. ובסרט שהוא יותר מסחרי, עממי, מכוון לקהל הרחב, אנחנו נותנים לעצמנו קצת יותר חופש לשנות, כי אנחנו רוצים שהקהל יתחבר אליו ויבוא לראות את הסרט. אבל בדרך כלל, אם אנחנו יכולים להישאר נאמנים לשם הסרט המקורי, נעשה זאת".

אריה ברק, יחצן באחת מחברות ההפצה, מעלה בריאיון לynet מ-2002 השערה אחרת:

"ומה לגבי ההחלטה לתרגם סרטים כך שהקשר בינם לבין שמם המקורי יהיה מקרי בהחלט? "בדרך כלל אנחנו עושים את זה עם סרטים שלא הצליחו כל כך בארה"ב", מסביר ברק. "אם אנחנו יוצאים אחרי האמריקאים, ואנחנו רואים טייטל אמריקאי שלא עבד, אנחנו מחליטים לשנות אותו וגם החברה האמריקאית אומרת לנו לפעמים: 'תשמעו, השם הזה לא עבד אצלנו, תנסו לעשות עם זה משהו'."

אז האם עממיות ומסחריות עומדות מאחורי תרגומים גרועים, או שאלו דווקא סרטים שנכשלו? או שאולי מאפיינים אחרים של הסרט הם שמסבירים את איכות התרגום? בואו נבחן זאת באמצעות כמה פרמטרים.

א. ז'אנר

סביר להניח שבז'אנרים מסוימים התופעה של שמות שמתורגמים גרוע נפוצה יותר מבאחרים. בחרתי מתוך רשימת הז'אנרים את 10 המרכזיים, וחישבתי את אחוז התרגומים הגרועים בכל ז'אנר (כל סרט בדרך כלל משתייך ליותר מז'אנר אחד).

ניתן לראות שבז'אנר הדוקומנטרי התרגומים הם הכי מילוליים, ושבז'אנרים היותר פופולריים (קומדיה ורומנטי) הם הכי פחות מילוליים.

ב. דירוג גיל

מדד פשוט לרוחב קהל היעד המיועד של הסרט הוא דירוג הגיל של איגוד הסרטים האמריקאי. הגרף שלהלן מציג את אחוז הסרטים עם תרגום גרוע, לפי דירוג גיל.

ניתן לראות ששיעור השמות שמתורגמים גרוע דווקא גדל ככל שסרט מיועד לקהל מבוגר יותר (למעט הקטגוריה 17-NC שאסורה לחלוטין לילדים מתחת גיל 17, אך זוהי קטגוריה נדירה מאוד שכוללת רק 16 סרטים, מתוכם רק אחד מתורגם גרוע – "הזר", Young Adam). התרגומים הגרועים לא נפוצים בסרטים לקהל הרחב, אלא דווקא נועדו לפתות מבוגרים.

ג. עממיות/מסחריות

אז תכלס, האם עממיות ומסחריות הן מה שעומד מאחורי תרגומים גרועים? זה טריקי לבדוק. אמנם ז'אנר ודירוג גיל קשורים לעממיות, אבל החלטתי לבדוק זאת בצורה ישירה יותר באמצעות 4 מדדים. הראשון הוא תיאור הסרט באנגלית, ועד כמה הוא מורכב. כאן נוכל להשתמש במדד Flesch לסיבוכיות טקסטואלית – זה מדד פשוט וישן אך אפקטיבי, שמבוסס על מספר ההברות הממוצע במילה ואורך המשפט הממוצע בטקסט. ציון גבוה משמעו טקסט שקל לקריאה (כלומר, סרט עממי), וציון נמוך משמע טקסט קשה. אפשר להניח שסרטים עממיים שמיועדים לקהל רחב ישווקו עם תיאור יחסית פשוט.

מבין הסרטים העממיים ביותר מבחינת ציון ה-Flesch ניתן למצוא:

  • A Fighting Man – “Two men meet in the ring for a fight that will change their lives”
  • Brother in Arms – “Old West. New Soul. Big Payback.”
  • Fired Up – “2 Guys. 300 Girls. You Do the Math. The two most popular guys in high school decide to ditch football camp for cheerleader camp. For the girls and for the glory.”

ומבין הסרטים הכי פחות עממיים:

  • Sexual Life – "Disparate individuals rationalize their infidelities."
  • There be Dragons – “Arising out of the horror of the Spanish Civil War, a candidate for canonization is investigated by a journalist who discovers his own estranged father had a deep, dark and devastating connection to the saint's life.While researching the life of Josemaria Escriva, the controversial founder of Opus Dei, the young journalist Robert uncovers hidden stories of his estranged father Manolo, and is taken on a journey through the dark, terrible secrets of his family’s past.”
  • Lions for Lambs – “Three stories told simultaneously in ninety minutes of real time: a Republican Senator who's a presidential hopeful gives an hour-long interview to a skeptical television reporter, detailing a strategy for victory in Afghanistan; two special forces ambushed on an Afghani ridge await rescue as Taliban forces close in; a poli-sci professor at a California college invites a student to re-engage.”

שני מדדים נוספים הם תקציב ההפקה של הסרט ונתוני ההצלחה בקופות ברחבי העולם, בדולרים. הנתונים האלה זמינים לגבי כמחצית מהסרטים. ניתן להניח שסרטים עם תקציב גדול והרבה מכירות הם סרטים עממיים ומסחריים, וכשמדובר בהפקות גדולות מחו"ל המפיצים המקומיים יעשו יותר מאמץ לשבש את שמו של הסרט במטרה "למשוך קהל".

לבסוף, את איכות הסרט ניתן למדוד באמצעות ציוני Metascore של אתר Metacritic, שממצעים דירוגים של מבקרי סרטים מקצועיים.

עבור כל אחד מהמדדים האלה התאמתי רגרסיה לוגיסטית לניבוי הסיכוי ששם הסרט יהיה מתורגם גרוע. הגרף שלהלן מציג את ההסתברות המנובאת לתרגום גרוע לאורך הסקאלה של המשתנים הללו.

בניגוד למה שניתן היה לצפות, הן תקציב הפקה והן הכנסת הסרט בקופות מנבאים דווקא הפחתה בהסתברות ששם הסרט יתורגם גרוע. איכות הסרט – כפי שזו משתקפת בציוני המבקרים – אכן מפחיתה את הסיכוי לתרגום גרוע כצפוי. עם זאת כל הקשרים מעט חלשים מבחינה מהותית. מבחינת תיאורי הסרטים, ציון Flesch גבוה (סרט עממי) אכן מנבא עליה בהסתברות לתרגום גרוע, אך הקשר מובהק סטטיסטית רק ברמה של 90%.

בחינה השוואתית

עד כה הסתכלנו על המצב בישראל. מתבקש לשאול — איפה אנחנו עומדים בהשוואה לשאר העולם? תחת ההנחה שהרף השרירותי של 0.6 שמצאנו תקף גם עבור שפות אחרות, חישבתי באותה צורה את אחוז הסרטים המתורגמים גרוע ל-9 שפות נוספות (את השפות בחרתי לפי זמינות נתוני התרגום). למען ההשוואה בחנתי רק את 14 אלף הסרטים שלהם יש תרגום עברי. ושנכללו בניתוחים עד כה. הגרף הבא מראה את אחוז הסרטים ששמם תורגם גרוע, לפי שפה:

באופן מפתיע, הבדיקה מעלה שעד כמה שתרגומי הסרטים לעברית מגוחכים לעיתים, מצבנו טוב מאוד – רק בהולנד פחות סרטים מתורגמים גרוע. כנראה שבפורטוגזית אוהבים במיוחד למות מצחוק.

לסיכום

על אף שלא פיצחנו עד הסוף את הסוד האפל של תעשיית הפצת הסרטים, גילינו כמה תובנות מעניינות. וחשוב מכך, נהנינו מהדרך (טוב, אני נהניתי). אם יש לכם הערות או רעיונות לניתוחי המשך, אשמח לשמוע.

4 מחשבות על “למה שמות של סרטים מתורגמים כל כך גרוע לעברית? ניתוח NLP עם Language-agnostic BERT Sentence Embeddings

  1. בגלל מנגנון ההפצה בשנות ה90, הרבה סרטים הם תרגום של תרגום.
    לדוגמא alien. תורגם בעברית – ״הנוסע השמיני״ – אין קשר לאנגלית , אבל תרגום מדוייק לחלוטין של השם הצרפתי של הסרט, יהיה מעניין לראות אם ה 16% באיטליה ובצרפת הם בלתי תלויים – הימור שלי – הם יהיו קרובים מ5% בין הולדנדחת לאנגלית

  2. מעניין מאוד! תוהה אם יכול להיות שבשפות אחרות "תרגום גרוע" שלא נצמד למקור, לא מתפקד גרוע כמו בעברית

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *