Tegenwoordig worden er steeds meer praktische en interessante emoji-gebruiken gecreëerd, bijvoorbeeld, verschillende categorieën emoji zullen worden gecombineerd om een Meme te worden, of schijnbaar niet-gerelateerde emoji kan eigenlijk worden gebruikt om dezelfde betekenis te beschrijven, waardoor emoji geleidelijk een verbinding tot stand brengt tussen hen. We willen deze relatie tussen emoji visueel laten zien en gebruikers een dieper inzicht geven in het gebruik van emoji's, dus gebruiken we algoritmen voor machine learning om de relatie tussen emoji te berekenen en het resultaat om te zetten in een gemakkelijk te begrijpen afbeelding, de Emoji-relatie Grafiek .

Wat is Emoji-relatiegrafiek?

Het is bekend dat emoji's meestal worden gepresenteerd als afbeeldingen, maar het is onmogelijk om de relatie tussen emoji en afbeeldingen te achterhalen, omdat het belangrijkste gebruik van emoji is om informatie en emoties over te brengen, ze zijn meer als een taal, dus het zal nauwkeuriger om hun relatie te onderzoeken door de betekenis en het gebruik van emoji. Daarom hebben we alle tweets met emoji van 2018 tot 2021 verkregen, in totaal 812 miljoen tweets . Aangezien het gebruik van emoji in verschillende taalomgevingen anders zal zijn, hebben we de tweets per taal geclassificeerd en vervolgens de tekstovereenkomst tussen emoji in elke taal berekend door middel van een machine learning-algoritme, om de bijbehorende Emoji-relatiegrafiek voor elke taal te krijgen.

Hoe de Emoji-relatiegrafiek te begrijpen?

Dit is de Emoji- 👉relatiegrafiek van voor Spaans. Het rode vak toont de 9 dichtstbijzijnde emoji, de lengte van de straal vertegenwoordigt de mate van relatie, hoe korter de straal, hoe dichter de relatie. Daarnaast toont de grafiek ook een deel van de relatiegrafiek van andere emoji's. In de zwarte doos staat de relatiegrafiek van 👆, en in de oranje doos de relatiegrafiek van .

De resultaten die in de relatiegrafiek worden weergegeven, stellen ons in staat een beter begrip te krijgen van het gebruik van emoji. Deze twee emoji's 👈 🥺 worden bijvoorbeeld de laatste jaren vaak gebruikt in combinatie met 👉om bedroefd, verlegen of smekend uit te drukken, dus verschijnen ze in deze relatiegrafiek:

Deze twee emoji's worden vaak gebruikt om links aan te geven, wat betekent dat ze overeenkomsten hebben in gebruik, dus ze liggen dicht bij elkaar in de relatiegrafiek:

Als je je verdiept in de emoji-relatiegrafiek, kun je je perceptie van sommige emoji's opfrissen.

Hoe de relatie tussen emoji te berekenen?

Vervolgens geven we u een gedetailleerde beschrijving van het berekeningsproces. Het kan grofweg worden onderverdeeld in de volgende drie stappen:

  • Eerst gebruiken we het TF-IDF-algoritme om de tags van elke emoji uit de tweets te extraheren en het gewicht dat bij elke tag hoort. Tags verwijzen naar die woorden die het meest verwant zijn aan emoji, die gelijk zijn aan de kenmerken van een emoji; en gewichten verwijzen naar de nauwe relatie tussen tags en emoji, hoe hoger het gewicht, hoe nauwer de relatie. Over het algoritme en het berekeningsproces voor het verkrijgen van tags, we hebben een artikel geschreven om het in detail te introduceren, je kunt op de juiste link klikken om het te lezen: ☁️Emoji Tag Cloud: help je om meer kennis van Emoji te krijgen!
  • Na het verkrijgen van de labels doet zich een nieuw probleem voor. Als het op berekeningen aankomt, weten we allemaal dat over het algemeen alleen numerieke waarden kunnen worden berekend, maar de tags worden gepresenteerd als tekst, dus hoe kunnen ze algoritmisch worden berekend? Daarom is onze tweede stap om de tekst om te zetten in de numerieke waarden die kunnen worden berekend — — Vector . Dit proces wordt Word Embedding genoemd . We moeten eerst een grote hoeveelheid tweetgegevens lezen met behulp van het word2vec-algoritme (een van de methoden voor het insluiten van woorden) om elk woord in de tekst om te zetten in een vector, dan kunnen we een woordinbeddingsmatrix verkrijgen die bestaat uit alle hoogdimensionale vectoren van woorden, en breng later elk woord dat overeenkomt met elke tag die we in de eerste stap kregen in kaart in een hoogdimensionale vector via de woordinbeddingsmatrix. We hebben dus de conversie van tekst naar vector voltooid. Deze hoogdimensionale vectoren worden berekend door de context van de tekst te analyseren, waardoor de semantische informatie van elk woord goed kan worden behouden en zo de nauwkeurigheid van de tekstovereenkomst kan worden gegarandeerd. Het word2vec-algoritme wordt ook in detail uitgelegd in onze blog, als je meer details wilt, kun je het lezen: 🔍Emoji-sentimentanalyse
  • De laatste stap is om de tekstovereenkomst tussen emoji's te berekenen. Het algoritme dat gewoonlijk wordt gebruikt om tekstovereenkomst te berekenen, is VSM (Vector Space Model) . Dit is een van de meest gebruikte modellen voor het berekenen van overeenkomsten, maar het verkrijgt resultaten door het berekenen van gelijktijdig voorkomende woorden (woorden die in beide teksten voorkomen) van twee teksten, wat niet nauwkeurig is bij teksten met dezelfde betekenis maar met een andere bewoording. om deze situatie te vermijden, hebben we een ander algoritme gekozen: SCM (Soft Cosinus Measure) . Het kan de overeenkomst tussen woorden meten, dus zelfs als twee teksten geen woorden gemeen hebben, kan dit algoritme de overeenkomst van twee teksten berekenen door de woordovereenkomst te evalueren. Nadat we SCM hebben gebruikt om de vector te meten, hoe groter de waarde die we krijgen, hoe groter de tekstovereenkomst tussen emoji's, en hoe hoger de tekstovereenkomst, hoe nauwer hun relatie.

Conclusie

Via de relatiegrafiek kunnen we de gewoonten en voorkeuren van mensen bij het gebruik van emoji begrijpen en de trend van het gebruik van emoji's onderzoeken. Het zal je misschien verbazen dat sommige emoji's die je niet met elkaar zou associëren, eigenlijk heel nauw verwant zijn, en dat kan een nieuw trendy gebruik van emoji zijn dat je nog niet kent! En als je suggesties hebt, laat het ons dan weten in de reactie!


Zoeken recent Recente Geen recent gebruik emoji Emojify... Emojify-succes