Numera skapas fler och mer praktiska och intressanta emoji-användningar, till exempel kommer olika kategorier av emoji att kombineras för att bli en Meme, eller till synes orelaterade emoji kan faktiskt användas för att beskriva samma betydelse, vilket gör att emoji gradvis skapar en koppling mellan dem. Vi vill visa detta förhållande mellan emoji visuellt och låta användare få en djupare förståelse för emoji-användning, så vi använder maskininlärningsalgoritmer för att beräkna förhållandet mellan emoji och ritar resultatet till en lättförståelig bild, vilket är Emoji-relationen Graf .
Vad är Emoji Relationship Graph?
Det är välkänt att emojis vanligtvis presenteras som bilder, men det är omöjligt att lista ut sambandet mellan emoji och bilder, eftersom den huvudsakliga användningen av emoji är att förmedla information och känslor, de är mer som ett språk, så det blir mer exakt för att utforska deras förhållande genom betydelsen och användningen av emoji. Därför fick vi alla tweets som innehöll emoji från 2018 till 2021, totalt 812 miljoner tweets . Med tanke på att användningen av emoji kommer att vara olika i olika språkmiljöer, klassificerade vi tweetarna efter språk och beräknade sedan textlikheten mellan emoji på varje språk genom maskininlärningsalgoritm, för att få motsvarande Emoji Relationship Graph för varje språk.
Hur förstår man Emojis relationsdiagram?
Detta är Emoji Relationship Graph för 👉 för spanska. Den röda rutan visar de 9 emoji som ligger närmast den, strålens längd representerar graden av samband, ju kortare strålen är, desto närmare relationen. Dessutom visar grafen också en del av andra emojis relationsgraf. I den svarta rutan är relationsgrafen för 👆 ,och i den orange rutan är relationsgrafen för ⤵ .
Resultaten som återspeglas i relationsdiagrammet tillåter oss att få en rikare förståelse för användningen av emoji. Till exempel, dessa två emojis 👈 🥺 används ofta som en kombination med 👉de senaste åren för att uttrycka förolämpade, blyga eller vädjande, så de visas i denna relationsgraf:
Dessa två emojis används ofta för att indikera länkar, vilket betyder att de har likheter i användning, så de ligger nära varandra i relationsdiagrammet:
Om du fördjupar dig i diagrammet för emojirelationer kan du uppdatera din uppfattning om vissa emojis.
Hur beräknar man förhållandet mellan emoji?
Därefter kommer vi att ge dig en detaljerad beskrivning av beräkningsprocessen. Det kan grovt delas in i följande tre steg:
- Först använder vi TF-IDF-algoritmen för att extrahera taggarna för varje emoji från tweets och vikten som motsvarar varje tagg. Taggar hänvisar till de ord som är närmast relaterade till emoji, som motsvarar egenskaperna hos en emoji; och vikter hänvisar till närheten av förhållandet mellan taggar och emoji, ju högre vikt, desto närmare relation. Om algoritmen och beräkningsprocessen för att få taggar, vi har skrivit en artikel för att introducera den i detalj, du kan klicka på rätt länk för att läsa den: ☁️Emoji Tag Cloud: Help You To Get More Knowledge Of Emoji!
- Efter att ha erhållit etiketterna uppstår ett nytt problem. När det kommer till beräkningar vet vi alla att i allmänhet bara numeriska värden kan beräknas, men taggarna presenteras som text, så hur kan de beräknas algoritmiskt? Därför är vårt andra steg att konvertera texten till de numeriska värden som kan beräknas—— Vector . Denna process kallas Word Inbäddning . Vi måste först läsa en stor mängd tweetdata med hjälp av word2vec-algoritmen (en av metoderna för ordinbäddning) för att omvandla varje ord i texten till en vektor, sedan kan vi få en ordinbäddningsmatris som består av alla högdimensionella vektorer av ord, och senare mappa varje ord som motsvarar varje tagg vi fick i det första steget till en högdimensionell vektor genom ordinbäddningsmatrisen. Således har vi slutfört text-till-vektor-konverteringen. Dessa högdimensionella vektorer beräknas genom att analysera textens sammanhang, vilket väl kan bevara den semantiska informationen för varje ord och på så sätt säkerställa noggrannheten i textlikheten. Word2vec-algoritmen förklaras också i detalj i vår blogg, om du vill ha mer information kan du läsa den: 🔍Emoji Sentiment Analysis
- Det sista steget är att beräkna textlikheten mellan emojis. Algoritmen som vanligtvis används för att beräkna textlikhet är VSM (Vector Space Model) . Detta är en av de mest använda likhetsberäkningsmodellerna, men den får resultat genom att beräkna samförekommande ord (ord som förekommer i båda texterna) av två texter, vilket inte är korrekt när man står inför texter med samma betydelse men olika ordalydelse. för att undvika denna situation valde vi en annan algoritm—— SCM(Soft Cosine Measure) . Den kan mäta likheten mellan ord, så även om två texter inte har ord gemensamma, kan denna algoritm beräkna likheten mellan två texter genom att utvärdera ordlikheten. Efter att vi använt SCM för att mäta vektorn, betyder ju större värde vi får desto högre textlikhet mellan emojis, och ju högre textlikhet, desto närmare relation.
Slutsats
Genom relationsdiagrammet kan vi förstå människors vanor och preferenser för att använda emoji, och utforska trenden för användning av emoji. Du kanske blir förvånad över att upptäcka att vissa emojis som du inte skulle associera med varandra faktiskt är väldigt nära besläktade, och det kan vara en ny trendig användning av emoji som du inte har känt till ännu! Dessutom, om du har några förslag, berätta för oss i kommentaren!