כל אימוג'י הוא מיוחד. כל עוד אתה מנתח את זה בצורה נכונה, אתה יכול לגלות מידע רב כגון משמעויות, קטגוריה, נושא קשור, אפילו שימוש ייחודי באימוג'י במבט חטוף👀. לאחר שאנו מבצעים כמות גדולה של חישוב וניתוח לכל אימוג'י, סוף סוף אנו מקבלים Emoji Tag Cloud , מילות מפתח וביטויים הקשורים לאמוג'י ספציפי, ומייצגים אותו בצורה ויזואלית חדשנית.
🔺ענן התגים של האימוג'י [חד קרן🦄]
איך אנחנו משיגים תגים?
כפי שכולנו יודעים, טוויטר הוא שירות רשת חברתית מפורסם בעולם, ואנשים אוהבים לצייץ טקסטים עם אימוג'ים כדי להביע את רגשותיהם או סתם כקישוט. רוב התגים שלנו הם מציוצים בכל רחבי העולם. אנו מנתחים ציוצים מ-2018.01 עד 2021.11 ומחלצים את התגים מ -812 מיליון ציוצים המכילים אימוג'י. לאחר מכן אנו משתמשים בסטטיסטיקה ובאלגוריתמים כדי לבחור את הטקסטים הרלוונטיים ביותר לאמוג'י ספציפי, ולהבדיל בין השפה. באמצעות זה, אנו אפילו יכולים לדעת כיצד נעשה שימוש באמוג'י במדינות שונות.
כאן אנו משתמשים באתר באנגלית כדוגמה. 2 האימוג'ים האלה בעמוד האנגלי שלנו: 😎 (פרצוף מחייך עם משקפי שמש) ו🦄 (חד קרן). אנחנו מבצעים להם חילוץ תגים ומקבלים מילים כמו [מגניב] או [ניקי] .
כאן מופיעה בעיה חדשה❓: כמובן שיש הרבה טקסטים הקשורים לאמוג'י, אז איך אנחנו בוחרים את התג המתאים ביותר ואיך לסדר אותם?
במצב זה, הם כרוכים באלגוריתמים נוספים.
ההסבר הטכנולוגי המקצועי של חילוץ תגים
ישנם סוגים רבים של טכנולוגיות חילוץ תגים עם אפקטים שונים, כגון חילוץ מופשט למאמרים ואלגוריתמים לתיוג מילות מפתח עבור טקסטים קצרים. "חילוץ תגיות אמוג'י בענן-טוויטר" שלנו מבוסס על אלגוריתם TF-IDF . זה בוצע בתהליך שונה המבוסס על המאפיינים של נתוני טוויטר, שהוא אלגוריתם לחילוץ תוויות טקסט קצר ללא פיקוח.
כדי להקל על ההבנה, כאן אנו מסכמים את הליך חילוץ התגים ל-3 שלבים.
- ראשית, אנו מבצעים חילוץ אמוג'י וניקוי טקסט עבור כל ציוץ עם חודש כיחידה, מסירים נושאים וכינויים כמו [@xx], [#xx], ומוחקים את כתובת האתר של הציוץ. במהלך ניקוי הטקסט, אנו מסננים גם מילות עצירה בשפות שונות (לדוגמה, מסירים חלקיקים מודאליים כמו אה, אה וכו'), קיצורים, צורות מילים, אותיות רישיות וגורמים נוספים, לבסוף מקבלים נתוני מידע על תדירות מילים התואמים לכל אימוג'י .
- שנית, אנו משתמשים באלגוריתם ייצוג הטקסט TF-IDF (תדר תדירות הפוך של מסמך) כדי לחשב משקל טקסט ראשוני של תווית בהתבסס על התוצאות שהתקבלו בשלב הקודם.
- היחידות המחושבות בשני השלבים הראשונים הן נתונים חודשיים, וסך הנתונים הוא ארבע שנים. בשלב האחרון, נבצע סבב נוסף של חישובים סטטיסטיים מאוחדים על כל הנתונים החודשיים.
נוסחת החישוב היא: TF-IDF = TF * IDF
TF (Term Frequency) מתקבל על ידי חלוקת מספר המופעים של מילה התואמת לאמוג'י במספר הכולל של המילים התואמות לאמוג'י. IDF הוא תדירות מסמכים הפוכה, IDF = log( N / N(w) ) , בעוד ש-[N] מייצג את המספר הכולל של האימוג'ים, [N(w)] מייצג את מספר האימוג'ים המכילים את המילה [w].
🔺כאשר מילה מופיעה גם באימוג'יA וגם באימוג'יB, זה אומר שהמילה לא מייצגת מספיק, ויש להפחית את המשקל של המילה הזו. מהנוסחה IDF = log( N / N(w) ), ניתן לראות שהטווח של IDF בין 0 לאינסוף חיובי יורד עם העלייה של N(w).
כאשר מונח מופיע יותר פעמים במאמר, זה אומר שמשקלו של המונח גדול יותר. עם זאת, המילים המופיעות לרוב הן מילים המבטאות גוון או שאין להן משמעות ממשית, כגון [אוי], [אוי] או [RT]. קשה להימנע מסינון של מילים כאלה אם רק מיון וסינון לפי ערך TF. אז מספר המסמך ההפוך של צה"ל מוכנס כאילוץ, על מנת לחשב ערך מדויק יותר לייצג את משקל טקסט התווית.
בסוף שלב 2, נסנן את הערכים המופיעים ביותר מ -15% מסך האימוג'ים.
המר את נתוני הציוץ המחושבים של ארבע שנים בצורה של [(sum(tfidf_m) / M) * log(M)] , וחשב עוד את המשקל של כל ערך תג. [sum(tfidf_m)] מייצג את סכום ערכי ה-TF-IDF של המונח בכל חודש, ו-[M] מייצג את מספר החודשים שבהם המונח מופיע.
אלו, אם כן, שיטת החישוב המשוערת של נתוני תגי אימוג'י. לאחר סיכום הנתונים הסופיים, גם נבדוק ידנית ונבצע סינון לפי השפה על מנת לקבל תוצאות מדויקות יותר של התגים.
בנוסף, התגיות ישתמשו גם בשם קצר CLDR ומילות מפתח CLDR לעיון, הם טקסט התג הבסיסי ביותר, מה שאומר שתמיד תראה חלק מהמילים הללו בענן ה-Emoji Tag Cloud.
🔺 כאשר אמוג'י נשלח ל-Unicode Consortium, יש צורך לכלול שם קצר CLDR ומילות מפתח CLDR בהצעה שלו, אז מילים אלו חייבות לקחת בחשבון את בחירת התג. המידע של האימוג'י [חד קרן🦄], שמנו את השם הקצר שלו וכמה ממילות מפתח לענן התגיות שלו.
כיצד להשתמש בענן התגים של האימוג'י שלנו?
זה היה די הרבה זמן ששחררנו את Emoji Tag Cloud. באופן אישי, אני מאמין שזהו כלי מאוד מצחיק ושימושי לצפייה באימוג'י ספציפי, לפעמים אפשר אפילו לדעת איזו קבוצה או נושא מגמתי מעדיפים להשתמש באימוג'י זה. תן לי להראות לך איך להשתמש בענן תגיות האימוג'י שלנו!
כפי שצוין לעיל, המשקל של כל טקסט תג שונה. אתה יכול פשוט לשפוט את המתאם בין תגיות לאמוג'י לפי גודל העיגול (ככל שגדול יותר, כך רלוונטי יותר). או שאתה יכול לשים את העכבר על העיגול, יופיע ריבוע קטן עם [מספר, תג טקסט]. במצב זה, ככל שהמספר קטן יותר, התגית במעגל זה רלוונטית יותר לאמוג'י. אתה יכול גם ללחוץ על התגים האלה כדי לחפש אימוג'ים קשורים אחרים!
ובכל זאת, אנו משתמשים בחד קרן כדוגמה. ענן התגים של האימוג'י [חד קרן 🦄 ] הוא כמו למטה:
כפי שאתה יכול לראות, 5 התגים המובילים של 🦄 הם [חד קרן], [ניקי], [חדי קרן], [פלט] ו-[ברבז] .
המילה [חד קרן] היא השם הקצר CLDR של האימוג'י הזה, ושאר 4 התגיות מופקות כולן מטוויטר. [nicki] ו-[barbz] קשורים לניקי מינאז' ולקבוצת המעריצים שלה , והמילה [plt] מתייחסת ל- [Pretty Little Thing] , קמעונאית אופנה בבריטניה או רק לביטוי הזה. 🦄 הוא אימוג'י פופולרי ב-SNS, ואימוג'י מאוד מייצג עבור מעריצי ניקי מינאז'. אם אתה אוהב את ניקי, אתה בהחלט צריך להשתמש באימוג'י הזה!
בסך הכל, על ידי שימוש בענן האימוג'י שלנו, תוכל לגלות בקלות את התוכן הקשור לאמוג'י ספציפי, אולי אפילו תוכל לדעת יותר על תרבות הפופ ולהימנע ממבוכה של אי ידיעת המשמעות הבסיסית והמורחבת של האימוג'י. לפעמים השימוש באימוג'י יכול להפוך לתופעה חברתית, כמו האימוג'י הזה 🥺 ביפן. כאימוג'י להבעת תחנון, טרוניה או אהבה, המילה הזו 'ぴえん🥺' זכתה ב"JC&JK Buzzword Awards 2019", "2019 Gal Buzzword Award" במקום השני, המקום הראשון של "Instagram Buzzword Award למחצית הראשונה של 2020" והפך לאמוג'י טרנד בכל יפן! במקרה זה, עבור אנשים מסוימים, Emoji Tag Cloud הוא גם כלי נהדר להכיר את תרבות האינטרנט, הכל תלוי איך אתה משתמש בה.
כל אלה נועדו לחקור יותר שימוש באמוג'י, ומקווים שתמצאי אימוג'י מעניינים ואינפורמטיביים. על מנת לספק לך תוכן מדויק הקשור לאמוג'י, הנתונים גם ימשיכו להתעדכן. אם יש לך עצות נוספות לגבי Emoji Tag Cloud, אנא הודע לנו בתגובות למטה👇!