Heutzutage werden immer mehr praktische und interessante Emoji-Verwendungen geschaffen, zum Beispiel werden verschiedene Kategorien von Emojis miteinander kombiniert, um ein Meme zu werden, oder scheinbar nicht verwandte Emojis können tatsächlich verwendet werden, um die gleiche Bedeutung zu beschreiben, wodurch Emojis allmählich eine Verbindung zwischen ihnen herstellen Sie. Wir möchten diese Beziehung zwischen Emojis visuell darstellen und den Benutzern ein tieferes Verständnis der Emoji-Nutzung ermöglichen. Daher verwenden wir maschinelle Lernalgorithmen, um die Beziehung zwischen Emojis zu berechnen und das Ergebnis in ein leicht verständliches Bild zu zeichnen, die Emoji-Beziehung Grafik .
Was ist ein Emoji-Beziehungsdiagramm?
Es ist bekannt, dass Emojis normalerweise als Bilder dargestellt werden, aber es ist unmöglich, die Beziehung zwischen Emojis und Bildern herauszufinden, da Emojis hauptsächlich dazu dienen, Informationen und Emotionen zu vermitteln, sie sind eher wie eine Sprache, also wird es so sein genauer, um ihre Beziehung durch die Bedeutung und Verwendung von Emojis zu erkunden. Daher haben wir alle Tweets mit Emoji von 2018 bis 2021 erhalten, insgesamt 812 Millionen Tweets . Da die Verwendung von Emojis in verschiedenen Sprachumgebungen unterschiedlich sein wird, haben wir die Tweets nach Sprache klassifiziert und dann die Textähnlichkeit zwischen Emojis in jeder Sprache durch einen maschinellen Lernalgorithmus berechnet, um das entsprechende Emoji-Beziehungsdiagramm für jede Sprache zu erhalten.
Wie ist das Emoji-Beziehungsdiagramm zu verstehen?
Dies ist das Emoji-Beziehungsdiagramm von 👉 für Spanisch. Das rote Kästchen zeigt die 9 nächstgelegenen Emojis, die Länge des Strahls stellt den Verwandtschaftsgrad dar, je kürzer der Strahl, desto enger die Verwandtschaft. Darüber hinaus zeigt das Diagramm auch einen Teil des Beziehungsdiagramms anderer Emojis. Im schwarzen Kasten ist der Beziehungsgraph von 👆 , und im orangen Kasten der Beziehungsgraph von ⤵ .
Die Ergebnisse, die sich im Beziehungsdiagramm widerspiegeln, ermöglichen uns ein besseres Verständnis der Verwendung von Emojis. Zum Beispiel werden diese beiden Emojis 👈 🥺 in den letzten Jahren oft in Kombination mit verwendet👉, um gekränkt, schüchtern oder flehend auszudrücken, daher erscheinen sie in diesem Beziehungsdiagramm:
Diese beiden Emojis werden oft verwendet, um Links anzuzeigen, was bedeutet, dass sie Ähnlichkeiten in der Verwendung aufweisen, sodass sie im Beziehungsdiagramm nahe beieinander liegen:
Wenn Sie sich mit dem Emoji-Beziehungsdiagramm befassen, können Sie Ihre Wahrnehmung einiger Emojis auffrischen.
Wie berechnet man die Beziehung zwischen Emojis?
Als nächstes geben wir Ihnen eine detaillierte Beschreibung des Berechnungsprozesses. Sie lässt sich grob in die folgenden drei Schritte unterteilen:
- Zuerst verwenden wir den TF-IDF-Algorithmus , um die Tags jedes Emojis aus den Tweets und die jedem Tag entsprechende Gewichtung zu extrahieren. Tags beziehen sich auf die Wörter, die am engsten mit Emojis verwandt sind, die den Eigenschaften eines Emojis entsprechen; und Gewichtungen beziehen sich auf die Nähe der Beziehung zwischen Tags und Emoji, je höher die Gewichtung, desto enger die Beziehung. Über den Algorithmus und den Berechnungsprozess zum Abrufen von Tags haben wir einen Artikel geschrieben, um ihn im Detail vorzustellen. Sie können auf den richtigen Link klicken, um ihn zu lesen: ☁️Emoji-Tag-Cloud: Helfen Sie, mehr über Emoji zu erfahren!
- Nach Erhalt der Etiketten tritt ein neues Problem auf. Wenn es um Berechnungen geht, wissen wir alle, dass im Allgemeinen nur Zahlenwerte berechnet werden können, die Tags jedoch als Text dargestellt werden, wie können sie also algorithmisch berechnet werden? Daher besteht unser zweiter Schritt darin, den Text in die berechenbaren Zahlenwerte umzuwandeln —— Vektor . Dieser Vorgang wird als Word Embedding bezeichnet . Wir müssen zuerst eine große Menge an Tweet-Daten mit dem word2vec-Algorithmus (einer der Methoden der Worteinbettung) lesen, um jedes Wort im Text in einen Vektor umzuwandeln, dann können wir eine Worteinbettungsmatrix erhalten, die aus allen hochdimensionalen Vektoren besteht von Wörtern, und später jedes Wort, das jedem Tag entspricht, den wir im ersten Schritt erhalten haben, in einen hochdimensionalen Vektor durch die Worteinbettungsmatrix abbilden. Damit haben wir die Text-zu-Vektor-Konvertierung abgeschlossen. Diese hochdimensionalen Vektoren werden durch die Analyse des Textkontextes berechnet, wodurch die semantische Information jedes Wortes gut erhalten und somit die Genauigkeit der Textähnlichkeit sichergestellt werden kann. Der word2vec-Algorithmus wird auch in unserem Blog ausführlich erklärt, wenn Sie mehr Details möchten, können Sie ihn lesen: 🔍Emoji-Sentiment-Analyse
- Der letzte Schritt besteht darin, die Textähnlichkeit zwischen Emojis zu berechnen. Der gängige Algorithmus zur Berechnung der Textähnlichkeit ist VSM(Vector Space Model) . Dies ist eines der am häufigsten verwendeten Ähnlichkeitsberechnungsmodelle, aber es erhält Ergebnisse, indem es gleichzeitig vorkommende Wörter (Wörter, die in beiden Texten vorkommen) von zwei Texten berechnet, was bei Texten mit gleicher Bedeutung, aber unterschiedlichem Wortlaut nicht genau ist Um diese Situation zu vermeiden, haben wir einen anderen Algorithmus gewählt – SCM (Soft Cosinus Measure) . Er kann die Ähnlichkeit zwischen Wörtern messen. Selbst wenn zwei Texte keine gemeinsamen Wörter haben, kann dieser Algorithmus die Ähnlichkeit zweier Texte berechnen, indem er die Wortähnlichkeit auswertet. Nachdem wir SCM verwendet haben, um den Vektor zu messen, bedeutet ein größerer Wert, dass die Textähnlichkeit zwischen den Emojis höher ist, und je höher die Textähnlichkeit, desto enger ihre Beziehung.
Abschluss
Durch das Beziehungsdiagramm können wir die Gewohnheiten und Vorlieben der Menschen bei der Verwendung von Emojis verstehen und den Trend der Emoji-Nutzung untersuchen. Sie werden vielleicht überrascht sein, dass einige Emojis, die Sie nicht miteinander in Verbindung bringen würden, tatsächlich sehr eng verwandt sind, und dies könnte eine neue trendige Verwendung von Emoji sein, die Sie noch nicht kennen! Wenn Sie Vorschläge haben, teilen Sie uns dies bitte im Kommentar mit!