האלגוריתם מזהה חדשות מזויפות על סמך הסגנון הכתיבה

האלגוריתם מזהה חדשות מזויפות על סמך הסגנון הכתיבה

ד"ר אנג. עובד על האלגוריתם, שמבוסס על התכונות הסגנוניות של טקסט המידע, מגלה אם הוא שגוי או מניפולציה. פיוטר פריז'יבלה מהאקדמיה הפולנית למדעים. באופן זה, הצוות שלו רוצה לאתר לא רק חדשות מזויפות אלא גם בוטים ברשתות החברתיות.

אלגוריתמים המאתרים תוכן מניפולטיבי או מזיק אינם חדשים. הם משמשים, למשל, מדיה חברתית כמו פייסבוק וטוויטר. עם זאת, תאגידים גדולים אינם ששים לחלוק מידע על אופן פעולתם.

"אין שקיפות מצדם בעניין זה" - סבור ד"ר אנג. פיוטר פריז'יבלה מהמכון למדעי המחשב של האקדמיה הפולנית למדעים. הצוות בראשותו בנה אלגוריתם שהוא בעיקרו חדשני מכיוון שעד כה מדענים התמקדו בניתוח אמיתות העובדות המופיעות בתוכן. Przybyła אמר שכדאי לבחון את סגנון הטקסטים המוצעים ברשת, בצורה של כתבות חדשותיות ופוסטים ברשתות החברתיות.

"אנו רוצים לראות מה היעילות של הערכת אמינות המסמך תתבסס על מאפיינים סגנוניים בלבד", הוסיף.

הוא מדגיש כי מטרתו ליצור אלגוריתם שלא רק מגלה חדשות מזויפות (שהן הדוגמה הבולטת ביותר לתוכן מניפולטיבי) אלא גם טכניקות תעמולה ובוטים אחרים.

כיצד נוצר האלגוריתם שפיתח החוקר? ראשית, צוותו אסף מאגר מידע גדול של טקסטים באנגלית (כ- 100,000), שמקורם בין היתר מארגונים לבדיקת עובדות (מה שמכונה ארגונים לבדיקת עובדות). במקביל, האלגוריתם קיבל מידע על אילו תכונות להשתמש כדי להבחין בין טקסטים אמינים ולא אמינים.

"מודל הלמידה המכונה שלנו לומד מעצמו - אנו נותנים לו נתוני קלט עם תיוג ספציפי והתכונות המתארות את הנתונים. ואז על אלגוריתם להחליט לקשר בין תכונות לאמינות", הוא מתאר.

המדען מצביע על השליטה בתהליך זה כקושי הגדול ביותר. "יכול להיות שלמרות מאמצינו האלגוריתם יונחה על ידי הנחות יסוד שהיינו מעדיפים שהוא לא יונחה על ידי" - הוא מוסיף.

מציין כי, למשל, מידע מ- BBC זוהה כמוסמך. "אבל לא היינו רוצים שהאלגוריתם שלנו יחשיב כנכון רק חדשות שנכתבו בסגנון השדר הבריטי המסוים הזה", הוא אומר.

ד"ר פריז'יבלה מציין כי טקסטים רבים שאינם מהימנים בתקשורת בשפה האנגלית נוגעים לקיטוב הפוליטי בארה"ב. ברבים מהם מופיעים שמות הנשיאים דונלד טראמפ וברק אובמה. לכן, כדי שהאלגוריתם יעבוד טוב יותר ולא יהיה "משוחד" למילים כאלה, פריז'יבלה הסיר אותן מהטקסטים שהועברו לאלגוריתם. הוא מקווה שבאופן זה הנתונים שהוגשו להמשך ניתוח יהיו אובייקטיבים יותר - האלגוריתם יקבל מידע שלמשל, משפט מורכב משם תואר, שם עצם, כינוי, פועל, וכך יהיה עיוור למידע שחוקרים. רוצים לסנן כי הם משבשים את עבודת האלגוריתם.

החוקרים עצמם הטילו את אלגוריתם הקטגוריות של מילים כדי להקל על השליטה. שלוש קטגוריות סגנוניות עיקריות של מידע לא אמין נצפו. ראשית, מדובר במלים המתארות שיקול דעת ונוגעות לערכים ולמטרות מוסריות. שנית, מדובר במלים המתארות כוח, כבוד והשפעה. הקבוצה השלישית מורכבת ממילים המושפעות מאוד מהרגשות - חיוביים ושליליים כאחד.

בתורם, טקסטים אמינים מצטטים מקורות אחרים ומציגים נתונים רבים.

"כמובן, זהו פשט נהדר, מכיוון שהבדלנו מעל 900 תכונות המנחות את האלגוריתם שלנו" - הוא מוסיף.

Przybyła התמקד בבדיקת השיטה בשפה האנגלית מכיוון שהיא ידועה לכל החוקרים העובדים בתחום זה. "קל יותר לגשת למספר רב של נתונים מוכנים ומוכחים היטב, דבר המשפר את עבודתנו" - הוא מציין. רק אז - כאשר הנחות המודל יתבררו כנכונות - ניתן יהיה ליצור אלגוריתם אנלוגי לשפות אחרות, כולל פולנית.

האלגוריתם כבר יעיל ב 80-90 אחוז, אך יעילות כזו אינה מספקת עבור החוקר. לכן העבודה על שיפורו נמשכת. השלב הבא של הפרויקט יבחן את פעולתו על משתמשי האינטרנט. מדענים רוצים לבדוק כיצד זה ישפיע על תפיסת האמינות של התוכן על ידי אנשים.

לדברי ד"ר פריז'יבלה, לא כדאי לשלב אלגוריתם זה עם אחרים כדי ליצור "אלגוריתם-על". "על המשתמש לדעת על בסיס המכונה שמקבלת החלטות. עליה להיות שקופה. אם לא, ייתכן שלא נסמוך עליה" - הוא מדגיש.

Przybyła מתנגד לאוטומציה של הפעלת האלגוריתם - למשל על ידי ניתוק המשתמש מהתוכן שהוא רואה כלא נכון. עם זאת, החלטה כזו צריכה להתקבל על ידי האדם עצמו - הוא מדגיש.

הפרויקט של דר. ה- HOMADOS החדש ממומן על ידי הסוכנות הלאומית לפולין לאקס אקדמי