איך מזהים טקסט שנכתב על ידי בינה מלאכותית?
נכתב ב-1 בפברואר 2023
בעידן בו רוב האנשים לא יודעים להבחין בין טור דעה וכתבה עיתונאית, בין תוכן שיווקי לאייטם חדשותי, בין פייק ניוז לעובדות – אנחנו נכנסים לטריטוריה מבלבלת עוד יותר: תוכן שנכתב על ידי מחולל טקסטים AI.
בתקופה האחרונה ChatGPT חדר לתודעה הציבורית, והפך לנושא שיחה בקרב אנשי טכנולוגיה, תוכן, שיווק ועוד. כולם מנסים פרומפטים מול ה-AI, ויוצרים ים של טקסטים – משירים מגוחכים ועד מאות שורות קוד בשפות תכנות שונות.
תוכן שנכתב על ידי בינה מלאכותית הוא לא דבר חדש, וקיים באינטרנט באלפי אתרי ספאם שמטרתם לייצר כמויות גדולות של תוכן ירוד במהירות גדולה, ולעשות כסף מפרסומות או מבניית לינקים. למעשה, סביר להניח שנתקלתם בטקסטים כאלה יותר מפעם אחת – רק לא בטוח שהצלחתם לזהות אותם. למרבה הצער, למרות המאמצים של גוגל בעניין, היא לא מצליחה לנקות את תוצאות החיפוש (אפילו הגבוהות שבהן) מאתרים כאלה – לפחות לא באופן מוחלט. המחוללים האלה עדיין לא עובדים בעברית, אבל אין שום בעיה לקחת טקסט באנגלית, שנוצר על ידי AI, ולהעביר אותו בזריזות בגוגל טרנסלייט, והופ – הא לכם טקסט AI בעברית. וכך אנחנו מקבלים יצירות מופת כמו אלה:
העיסוק שלי בניהול וקידום אתרים, גורם לכך שאני נתקלת בטקסטים כאלה על בסיס יומי. בעברית, למרבה המזל, עדיין די קל לזהות אותם, כי הם כתובים בצורה באמת מטומטמת (אם כי כבר ראיתי כבר תוכן שנוצר על ידי בני אדם, והוא מטומטם לא פחות). באנגלית, לעומת זאת, בגלל ההתקדמות המטאורית של מחוללי הטקסטים מבוססי הבינה המלאכותית באנגלית, נדרשת עין מקצועית, או לפחות חדה במיוחד, כדי לזהות טקסטים כאלה, ולא תמיד הזיהוי ודאי. מדברים עכשיו על "סימן מים" לטקסטים של AI, כדי לנסות ולהילחם בתופעת הררי הזבל הטקסטואליים שכבר נשפכים לאינטרנט, אבל להערכתי מדובר בכוסות רוח למת.
הכלים האלה לא פסולים מהיסוד, כמובן, אבל צריך לדעת להשתמש בהם באחריות ובתבונה. כלים כמו ChatGPT יכולים לחסוך הרבה זמן, גם ביצירת תוכן איכותי, אבל שימוש בלעדי וחסר אבחנה בהם לא יסייע לכם לכתוב טוב יותר, אלא רק לכתוב מהר יותר – והרבה פעמים תקבלו בליל אותיות חסר משמעות.
למה חשוב לזהות טקסט שנכתב על ידי AI?
האמת היא שלא לכל אחד זה חשוב. עם זאת, אם למשל אתם בעלי אתר אינטרנט שזקוקים לשירותי תוכן, סביר להניח שלא תרצו לשלם על טקסטים רדודים שנוצרו בחצי דקה על ידי מכונה, ולא תורמים כלום לגולשים שלכם (אם כי הם בהחלט יכולים לעזור לקדם את האתר – כל עוד גוגל לא נלחמת בתופעה).
בנוסף, הטקסטים האלה הרבה פעמים רצופים שגיאות עובדתיות. לא ברור למה, אבל ChatGPT ממציא ציטוטים, מספרים ועובדות באופן כללי, כך שלא רק איכות הכתיבה עומדת כאן למבחן, אלא גם בדיקת העובדות. מי שעוסק במחקר (ואפילו אם זו רק עבודה לבית הספר), עלול ליפול במלכודת ולהסתמך על טקסט שגוי עובדתית.
אבל בסופו של דבר, זה עניין עקרוני. אישית, אני רוצה לראות את התמונה המלאה – ואם טקסט נוצר על ידי AI, אני פשוט רוצה לדעת שזה המצב, כדי להחליט בצורה מושכלת איך להתייחס לטקסט הזה (במשנה זהירות, תודה ששאלתם).
איך מזהים טקסט שנכתב על ידי בינה מלאכותית?
באופן פרדוקסלי, אחת הדרכים היא כלים אוטומטיים שאמורים לזהות טקסטים שנוצרו על ידי מחולל. הבעיה הנוכחית היא שרוב הכלים האלה מאומנים ומבוססים על המודל GPT-2, שכבר תיכף הופך ללא רלוונטי (אנחנו בגירסה 3 כרגע). עדיין, זו דרך לא רעה להתחיל לאבחן טקסטים. כלי חינמי כזה לדוגמא הוא GLTR, שנוצר על ידי חוקרים ממעבדת MIT-IBM והרווארד. כדי להשתמש בכלי, פשוט מעתיקים חלק מהטקסט החשוד לתוך תיבת הטקסט. הכלי ינתח את הטקסט ויציג סקאלת צבעים שמעריכה אם מדובר בטקסט אנושי או לא. אם אתם רואים הרבה ירוק, סימן שכנראה זה טקסט AI. בדקתי את הכלי הזה ולא התרשמתי שהוא נותן תוצאות מדויקות במיוחד. גם טקסטים שנכתבו בוודאות על ידי בן אנוש, קיבלו הרבה צבע ירוק, מה שאומר שהכלי לא מספיק טוב, או שה-AI כבר כל כך טוב שאי אפשר להבדיל אוטומטית.
מאחר שהכלים האלה לא מספיק מדויקים, וגם ממילא לא יעבדו בעברית, כדאי לשים לב לסימנים מחשידים בטקסטים, כדי לאבחן אם הם נכתבו על ידי מחולל AI כלשהו.
- כתיבה מקורטעת ומגושמת ללא פואנטה – מי שעוסק בטקסטים וקורא הרבה מהם, יבחין מיד בכך שהתוכן כתוב בצורה מגושמת ולא "זורם" כמו טקסטים אנושיים, והרבה פעמים מדובר בחרטטת מילים נטולת משמעות. הנה פסקה לדוגמא: "שיווק מבוסס נתונים מתחיל באיסוף נתונים. משווקים אוספים נתונים ממגוון מקורות, כולל ניתוח אתרים, מדיה חברתית, סקרי לקוחות וחקר שוק. נתונים אלה מנותחים לאחר מכן כדי להבין את התנהגות הלקוח והעדפותיו. חמושים עם התובנות הללו, משווקים יכולים לפתח קמפיינים שיווקיים ממוקדים ואפקטיביים יותר".שיווק מבוסס נתונים מתחיל באיסוף נתונים? באמת?!?! ואז מנתחים את הנתונים. ואז עושים קמפיין. מדהים.
- חזרה שוב ושוב על מונחים עיקריים – כמו ילד קטן, שלא יודע את התשובה וחוזר על השאלה בווריאציות שונות, ככה מתנהג גם ה-AI, במיוחד בטקסטים שאמורים להיות "רציניים". אם תבקשו ממנו טקסט על סוסי צעד, הוא יחזור על המינוח הזה המון פעמים, בהגזמה ובצורה לא טבעית, וזה סימן ברור לכך שמדובר בטקסט שנוצר על ידי בינה מלאכותית.
- עברית ופנייה בזכר – אין עדיין כלי AI שמספק טקסטים בעברית. אז מה עושים? מתרגמים אותו כמו שהוא בגוגל טרנסלייט וזורקים לאתר. אחד הסממנים הבולטים הוא שכל הטקסט יהיה בזכר יחיד – "עליך להירשם", "כעת אתה יכול" וכו' – זה בולט במיוחד ב"מדריכים", טקסטים מורכבים שיצרני הזבל כמובן מתעצלים לכתוב, ולכן פונים ל-ChatGPT ולכלי התרגום של גוגל.
- עילגות בטקסטים בעברית – בגלל השימוש בכלי תרגום, והעובדה שהרבה פעמים משתמשים בבינה המלאכותית כדי לכתוב טקסטים עם מונחים טכניים, אפשר לראות תרגומים מביכים וטקסטים שפשוט נשמעים מטופשים לחלוטין. בחלק מהמקרים זו גניבת תוכן שעברה בגוגל טרנסלייט, ועכשיו זה גם פשוט טקסט AI שתורגם ולא נערך, אלא נזרק לאתר כמות שהוא. משפט לדוגמא: "אמצע מסע הוא כלי קנייני המופעל על ידי AI שיכול ליצור תמונות מקלט טקסט. בניגוד לדגמים אחרים מסוגו, הגישה לשירות Midjourney מתבצעת דרך שרת דיסקורד מקוון". "אמצע מסע" זה כמובן מידג'רני. אין כמו להשתמש בבינה מלאכותית כדי לכתוב על בינה מלאכותית…
- שגיאות עובדתיות – מכיוון שכל המטרה של יצרני תוכן הזבל היא ליצור כמויות גדולות של טקסטים בזמן מינימלי, הם כמובן לא יטרחו עם בדיקת עובדות (בדומה לעיתונות הישראלית, למשל). ולכן, יש סיכוי טוב שבטקסטים של AI תמצאו הרבה שגיאות עובדתיות והמצאות – אפילו בכל הקשור למידע בסיסי שאפשר למצוא בקלות בגוגל. כל מה שצריך זה לבדוק מול מקורות אמינים.
- אין ניתוח – מחולל AI יכול בקלות לשלוף עובדות (גם נכונות, כמובן) ולכתוב עליהן הרבה מלל. אבל הוא לא יכול לנתח ולהסיק מסקנות עמוקות. לכן, אם אתם קוראים טקסט שמבצע אנליזה מעמיקה – סביר שהוא נכתב על ידי יצור אנושי. רצף של עובדות והצהרות יבשות עלול להצביע על כך שמדובר בטקסט של בינה מלאכותית.
כמו עם האלגוריתם של גוגל, בעברית אנחנו עדיין רחוקים שנות אור מהבעיה של אבחון טקסטים רובוטיים, אבל באנגלית ובשפות לועזיות אחרות, הבעיה תלך ותחמיר. אישית, אני מוטרדת בעיקר מנושא בדיקת העובדות ומכך שהכלים האלה מאפשרים להציף את האינטרנט הרבה יותר בקלות בערימות אשפה נטולות משמעות, שרק יקשו על אנשים לקבל מידע אמין ואיכותי.