כיום נוצרים יותר ויותר שימושי אימוג'י פרקטיים ומעניינים, למשל, קטגוריות שונות של אימוג'י ישולבו יחד כדי להפוך ל-Meme, או שניתן למעשה להשתמש באימוג'י שלכאורה לא קשור לתיאור אותה משמעות, מה שגורם לאמוג'י ליצור חיבור בין אוֹתָם. אנחנו רוצים להראות את הקשר הזה בין אימוג'י באופן ויזואלי ולאפשר למשתמשים להבין יותר את השימוש באמוג'י, אז אנחנו משתמשים באלגוריתמים של למידת מכונה כדי לחשב את הקשר בין האימוג'י ולמשוך את התוצאה לתמונה קלה להבנה, שהיא יחסי האמוג'י. גרף .

מהו גרף יחסי אמוג'י?

ידוע שהאימוג'ים בדרך כלל מוצגים כתמונות, אבל אי אפשר להבין את הקשר בין אימוג'י לתמונות, כי השימוש העיקרי באימוג'י הוא העברת מידע ורגשות, הם יותר כמו שפה, אז זה יהיה מדויק יותר לחקור את מערכת היחסים שלהם באמצעות המשמעות והשימוש באימוג'י. לכן, השגנו את כל הציוצים המכילים אימוג'י מ-2018 עד 2021, בסך הכל 812 מיליון ציוצים . בהתחשב בכך שהשימוש באמוג'י יהיה שונה בסביבות שפה שונות, סיווגנו את הציוצים לפי שפה, ולאחר מכן חישבנו את דמיון הטקסט בין אמוג'י בכל שפה לפי אלגוריתם למידת מכונה, כדי לקבל את גרף יחסי האמוג'י המתאים לכל שפה.

כיצד להבין את גרף יחסי האמוג'י?

זהו גרף יחסי האמוג'י של 👉 לספרדית. התיבה האדומה מציגה את 9 האימוג'י הקרובים אליו, אורך הקרן מייצג את מידת הקשר, ככל שהקרן קצרה יותר, הקשר קרוב יותר. בנוסף, הגרף מציג גם חלק מגרף היחסים של אימוג'י אחרים. בקופסה השחורה נמצא גרף היחסים של 👆 , ובתיבה הכתומה נמצא גרף היחסים של .

התוצאות המשתקפות בגרף היחסים מאפשרות לנו הבנה עשירה יותר של השימוש באימוג'י. לדוגמה, שני האימוג'ים👈 🥺האלה משמשים לעתים קרובות כשילוב עם 👉 בשנים האחרונות כדי להביע פגועים, ביישנים או תחנונים, ולכן הם מופיעים בגרף היחסים הזה:

שני האימוג'ים האלה משמשים לעתים קרובות לציון קישורים, מה שאומר שיש להם קווי דמיון בשימוש, כך שהם קרובים זה לזה בגרף היחסים:

אם תתעמק בטבלת יחסי האמוג'י, תוכל לרענן את התפיסה שלך לגבי כמה אימוג'ים.

איך לחשב את הקשר בין האימוג'י?

לאחר מכן ניתן לך תיאור מפורט של תהליך החישוב. ניתן לחלק אותו באופן גס לשלושת השלבים הבאים:

  • ראשית, אנו משתמשים באלגוריתם TF-IDF כדי לחלץ את התגים של כל אימוג'י מהציוצים ואת המשקל המתאים לכל תג. תגיות מתייחסות לאותן מילים שהכי קשורות לאמוג'י, המקבילות למאפיינים של אימוג'י; ומשקולות מתייחסות לקרבת הקשר בין תגיות לאמוג'י, ככל שהמשקל גבוה יותר, הקשר קרוב יותר. על האלגוריתם ותהליך החישוב של קבלת תגים, כתבנו מאמר כדי להציג אותו בפירוט, אתה יכול ללחוץ על הקישור הנכון כדי לקרוא אותו: ☁️Emoji Tag Cloud: Help You To Get More Knowledge Of Emoji!
  • לאחר השגת התוויות, מתעוררת בעיה חדשה. כשזה מגיע לחישובים, כולנו יודעים שבדרך כלל אפשר לחשב רק ערכים מספריים, אבל התגים מוצגים כטקסט, אז איך אפשר לחשב אותם בצורה אלגוריתמית? לכן, הצעד השני שלנו הוא להמיר את הטקסט לערכים המספריים שניתן לחשב —— וקטור . תהליך זה נקרא Embedding של Word . עלינו לקרוא תחילה כמות גדולה של נתוני ציוץ באמצעות אלגוריתם word2vec (אחת מהשיטות להטמעת מילים) כדי להפוך כל מילה בטקסט לווקטור, לאחר מכן נוכל להשיג מטריצת הטבעת מילים המורכבת מכל הוקטורים בעלי המימד הגבוה. של מילים, ובהמשך למפות כל מילה המתאימה לכל תגית שקיבלנו בשלב הראשון לווקטור גבוה ממדי דרך מטריצת המילה Embedding. לפיכך, השלמנו את המרת הטקסט לוקטור. וקטורים בעלי מימד גבוה אלו מחושבים על ידי ניתוח ההקשר של הטקסט, מה שיכול לשמר היטב את המידע הסמנטי של כל מילה ובכך להבטיח את דיוק הדמיון בטקסט. אלגוריתם word2vec מוסבר בפירוט גם בבלוג שלנו, אם תרצו פרטים נוספים תוכלו לקרוא אותו: 🔍Emoji Sentiment Analysis
  • השלב האחרון הוא לחשב את דמיון הטקסט בין האימוג'ים. האלגוריתם הנפוץ לחישוב דמיון טקסט הוא VSM (Vector Space Model) . זהו אחד מדגמי חישוב הדמיון הנפוצים ביותר, אך הוא משיג תוצאות על ידי חישוב מילים המתרחשות במקביל (מילים המופיעות בשני הטקסטים) של שני טקסטים, דבר שאינו מדויק כאשר עומדים בפני טקסטים בעלי אותה משמעות אך ניסוח שונה. כדי למנוע מצב זה, בחרנו באלגוריתם אחר - SCM (Soft Cosine Measure) . הוא יכול למדוד את הדמיון בין מילים, כך שגם אם לשני טקסטים אין מילים משותפות, אלגוריתם זה יכול לחשב את הדמיון של שני טקסטים על ידי הערכת דמיון המילה. לאחר שאנו משתמשים ב-SCM כדי למדוד את הווקטור, ככל שהערך שנקבל גדול יותר אומר הדמיון בין האימוג'ים לטקסט גבוה יותר, וככל שדמיון הטקסט גבוה יותר, הקשר ביניהם קרוב יותר.

סיכום

באמצעות גרף היחסים, נוכל להבין את ההרגלים וההעדפות של אנשים להשתמש באמוג'י, ולחקור את מגמת השימוש באמוג'י. אולי תופתעו לגלות שכמה אימוג'ים שלא הייתם משייכים זה לזה הם למעשה קשורים מאוד, וזה עשוי להיות שימוש אופנתי חדש באימוג'י שעדיין לא הכרתם! כמו כן, אם יש לך הצעות, אנא ספר לנו בתגובה!


פונקציה תפריט

קטגוריות

גוון עור

סגנון שיער

מין

רֶגֶשׁ

גרסה