פונקציה תפריט

קטגוריות

גוון עור

סגנון שיער

מין

רֶגֶשׁ

גרסה

אימוג'י מלאים ברגש. זה יכול לשפר או להתאים את הטון ואת הלך הרוח של הטקסט, יחד עם זאת, הרגשות שמביעים על ידי אימוג'י יכולים להיות ברורים יותר ממילים בלבד.

למשל האימוג'י הזה 👿 (פרצוף זועם עם קרניים). זה בצורה של דמות שטן ללא ספק, כך שיש אולי מחשבות שנחשבו שזה אימוג'י "רע", כמו כמה מחשבות רעות בראש של מישהו.

אבל עדיין, תיאור מסוג זה הוא מאוד מופשט. לכן, האם אנו יכולים לדמיין את סוגי הרגש והרמות המובעים על ידי האימוג'ים הללו?


התשובה היא "כן" כמובן! ביצענו עיבוד שפה טבעית (NLP) על דוגמאות ציבוריות של לא פחות מ- 50 מיליון ציוצים, ואנחנו משתמשים בניתוח סנטימנט טקסט (נקרא גם כריית דעה) כדי לשייך את סנטימנט האימוג'י למערכת ערכים ולהמחיש אותו. הקדשנו הרבה זמן, אנרגיה וכוח מחשוב בכדי להפוך את ניתוח הסנטימנטים של אמוג'י למדעי וקפדני יותר, כך שכולם ירגישו את הקסם ויבינו טוב יותר את האימוג'י.

תרשימים חזותיים לניתוח רגש אמוג'י

נתונים כגון ערך סנטימנט האימוג'י חושבו על פי ניתוח סנטימנט טקסט, השייך לסטטיסטיקה ולתיאוריית ההסתברות. לאחר שפתרנו את בעיית האלגוריתם וכוח המחשוב, נתקלנו בקשיים חדשים: כיצד לגרום למשתמשים להבין את הנתונים המקצועיים הללו?

מחשבה עוברת במוחנו - - היי! מה דעתך שנדמיין ערכי סנטימנטים של אימוג'י עם כמה עיצובים מדליקים!

💡: המירנו את הנתונים המחושבים והניתוחים (משמאל) לתרשים שניתן להבין טוב יותר על ידי המשתמשים (מימין), מה שיכול להראות בצורה אינטואיטיבית יותר את החלוקה הרגשית של האימוג'י;

אז תן לי להסביר את התרשים הבא, המתאר את תוצאות ניתוח הנטיות של אמוג'י בתקשורת ממשית.

💡: שני סוגים של תרשימים לניתוח הסנטימנט של אמוג'י, כאן אנו מנתחים רק את התרשים שלמעלה.

קשת חצי העיגול בתמונה מחולקת לשלושה צבעים, המייצגים נטיות רגשיות שונות של אימוג'י 👿 . כפי שאנו רואים, הפרופורציות של שלושת הרגשות הללו הן בערך 4: 1: 5, לירוק ולכתום יש פרופורציות דומות, מה שאומר שאימוג'י זה הוא יותר ניטרלי (הפתעה !!).

  • הסמן האפור הוא רמת הביטחון , מושג סטטיסטי. מיקומו ורוחבו מציינים: Expected Value ± Confidence .
  • ערך צפוי : זהו הממוצע המשוקלל של משתנים אקראיים מפוזרים של ערך סנטימנט האימוג'י, המשמש לביטוי הסתברות, c ∈ [−1, 0, +1] .
  • ביטחון : זו קבוצת הפרמטרים של התפלגות ערכי הרגש של האימוג'י, מראה טווח שגיאות סביר בצורה של מרווח חיובי ושלילי. וככל שמספר דגימות הקורפוס גדול יותר, כך הטעות קטנה יותר.

במילים פשוטות, ככל שהסמן קרוב יותר לשמאל, הרגש של האימוג'י הזה הוא שלילי יותר. נהפוך הוא, ככל שהסמן קרוב יותר לימין, כך הרגש החיובי יותר מבוטא על ידי האימוג'י הזה. וככל שהסמן צר יותר, שיפוט הרגש מדויק יותר.


עכשיו, האם אתה יכול להבין את תרשים ניתוח הסנטימנטים של האימוג'י שלנו?

מהי ניתוח רגש?

אני מאמין שהבנת את תרשים הנתונים של ניתוח סנטימנטים של אימוג'י, אז בוא נדבר על מה זה ניתוח סנטימנט.

ניתוח סנטימנטים נקרא גם כריית דעה. מבחינה טכנית, ניתוח סנטימנטים הוא חלק ממחקר עיבוד השפה הטבעית (NLP). שיטות ניתוח הרגש מתחלקות לשני סוגים: למידת מכונה ושיטות מבוססות מילון . אך עם התפתחות טכנולוגיית הלמידה העמוקה, השימוש בטכנולוגיה זו לניתוח סנטימנטים הפך למיינסטרים.

תהליך ניתוח הסנטימנט כולל עיבוד מקדים של נתונים, הנדסת תכונות והדרכת מודלים. באופן כללי, שלב עיבוד המקדים של הנתונים מחלק בעיקר את הטקסט למילים ומסיר מילות עצירה ופיסוק. עם זאת, ניתוח הסנטימנט שלנו שומר על סימני פיסוק ומילות עצירה. בשלב הנדסת התכונות בחרנו במילה ייצוג הטמעה (Word2Vec) שהוצע על ידי צוות גוגל בשנת 2013, המחולק למודל CBOW (שקית רציפה של מילים) ולמודל Skip-gram . תוצאות המודל הן כדלקמן:

💡 : משמאל דגם CBOW, מימין דגם Skip-gram

CBOW מבוסס על ההקשר לחיזוי מילת היעד לאימון להשגת המילה וקטור. כפי שמוצג באיור, W (t) נחזה על בסיס ארבע מילים W(t-2), W(t-1), W(t+1), W(t+2) ; ו- Skip-gram הוא לחזות את המילים שמסביב על פי מילת היעד להתאמן להשגת המילה וקטור. כפי שמוצג באיור הוא לחזות W(t-2),W(t-1),W(t+1),W(t+2) פי W (t) .

בשלב חיזוי המודל אנו מחלקים את הנתונים לשני חלקים: מערך האימונים מחולק ביחס של 5: 1 ומערכת המבחנים ומערכת האימונים מעובדים שלא בסדר.

יישום ניתוח סנטימנטים באימוג'י

ניתוח סנטימנטים הוא שיטת ניתוח מקיפה המשלבת למידה מעמיקה וסטטיסטיקה. השגנו את ערך הסנטימנט של אמוג'י לאחר ניתוח מורכב וחישוב מקורות נתונים ותהליך ניתוח הסנטימנטים המלא של אמוג'י הוא כדלקמן:

תהליך ניתוח הסנטימנטים של אימוג'י

  • תווית קורפוס רשתות חברתיות
  • עיבוד מקדים של נתונים
  • חלק את מערך הנתונים: סט אימונים (80%), ערכת בדיקות (20%)
  • השתמש ברשת העצבים LSTM לבניית מודל
  • על פי ביצועי המודל על ערכת הבדיקה, התאם את היפרפרמטרים כדי לשפר את יכולת ההכללה של המודל
  • בצע את אותה פעולת עיבוד מקדים של נתונים על נתונים ללא תווית
  • השתמש במודל חיזוי הסנטימנט המאומן כדי לחזות את נטיית הסנטימנט בנתונים ללא תווית

אנו מבצעים ניתוח סנטימנטים באימוג'י ומשתמשים בטכנולוגיית למידה עמוקה כדי להתאמן לקבלת מסווג טקסטים של אמוג'י. עבור שכבת הפלט של המסווג, אנו בוחרים את הפונקציה sigmoid להפעלה, ומקרינים את תוצאות שכבת הפלט לרווח של 0-1. ככל שהטקסט קרוב יותר ל- 0, כך הוא שלילי יותר, וככל שהוא קרוב יותר ל- 1, כך הוא חיובי יותר.

נוסחת הפונקציה sigmoid היא: F(x)=1/(1+ex)

אנו משתמשים בנתוני מדגם גדולים של 50 מיליון ציוצים המכילים אימוג'י כקורפוס ניתוח, ואז מכניסים את הצורך בקורפוס לסיווג הסנטימנטים המאומן לצורך חיזוי סנטימנט. לבסוף, תוצאות חיזוי הסנטימנט על ידי המסווג נחלקות לשלושה סוגים: שלילי, ניטרלי וחיובי. קריטריוני הסיווג הם:

בכל מקרה, זה קשה, אבל הצלחנו !!

השימוש והסיכוי לניתוח רגש אמוג'י

ניתוח רגשות נמצא בשימוש נרחב בתחומי השיווק, הפרסום, הפסיכולוגיה, הרפואה ואחרים. אנו מחליטים לבצע ניתוח סנטימנטים של אמוג'י הוא לעזור לאנשים להבין יותר את אמוג'י באינטראקציה חברתית בפועל, לבטל את העמימות ואת אי ההבנה של האימוג'י בצורה יעילה יותר.

לדוגמא, כאשר אתה משוחח עם חברך (או המחץ שלך) באופן מקוון, האדם האחר עשוי לשלוח לך לפעמים אימוג'ים שאתה לא כל כך מבין. למעשה, ישנם מצבים רבים כאלה, כגון:

  • מה הפירוש של if אם מישהו עונה לתמונה שלי?
  • מה זה אומר כאשר ילדה שולחת 😊 לי?
  • אם המחץ שלי שולח אותי , האם זה סימן טוב?

כידוע, אינך יכול להגיד את המשמעות המדויקת של אימוג'י, אולם באמצעות ניתוח הסנטימנט שלנו, אתה יכול לנתח את האימוג'ים האלה מבחינה פסיכולוגית, כמו "היא שלחה לי 💞, זה סימן חיובי, אולי עלי לבקש ממנה" או " למה החבר שלי שולח לי 😒? זה די שלילי, האם הוא כועס עלי? " , משהו כזה. בעזרת ניתוח הרגש שלנו באמוג'י אני מאמין שתוכלו להבין עמוק יותר לעומק.


בסך הכל שילמנו הרבה עבור פרויקט ניתוח הסנטימנטים האימוג'י הזה. למרות שזה קשה, אנחנו עדיין רוצים להעמיק אותו. כעת אנו מנתחים אימוג'י בשפות שונות, את השפעת הרווח הרגשי של אמוג'י על טקסט טהור, וכמה מחקרים מתקדמים אחרים נחשבו גם הם. כל אלה נועדו לחקור שימוש רב יותר באימוג'י, ולקוות שתמצאו אמוג'י מעניינים ואינפורמטיביים.