Numera skapas fler och mer praktiska och intressanta emoji-anvÀndningar, till exempel kommer olika kategorier av emoji att kombineras för att bli en Meme, eller till synes orelaterade emoji kan faktiskt anvÀndas för att beskriva samma betydelse, vilket gör att emoji gradvis skapar en koppling mellan dem. Vi vill visa detta förhÄllande mellan emoji visuellt och lÄta anvÀndare fÄ en djupare förstÄelse för emoji-anvÀndning, sÄ vi anvÀnder maskininlÀrningsalgoritmer för att berÀkna förhÄllandet mellan emoji och ritar resultatet till en lÀttförstÄelig bild, vilket Àr Emoji-relationen Graf .

Vad Àr Emoji Relationship Graph?

Det Àr vÀlkÀnt att emojis vanligtvis presenteras som bilder, men det Àr omöjligt att lista ut sambandet mellan emoji och bilder, eftersom den huvudsakliga anvÀndningen av emoji Àr att förmedla information och kÀnslor, de Àr mer som ett sprÄk, sÄ det blir mer exakt för att utforska deras förhÄllande genom betydelsen och anvÀndningen av emoji. DÀrför fick vi alla tweets som innehöll emoji frÄn 2018 till 2021, totalt 812 miljoner tweets . Med tanke pÄ att anvÀndningen av emoji kommer att vara olika i olika sprÄkmiljöer, klassificerade vi tweetarna efter sprÄk och berÀknade sedan textlikheten mellan emoji pÄ varje sprÄk genom maskininlÀrningsalgoritm, för att fÄ motsvarande Emoji Relationship Graph för varje sprÄk.

Hur förstÄr man Emojis relationsdiagram?

Detta Ă€r Emoji Relationship Graph för 👉 för spanska. Den röda rutan visar de 9 emoji som ligger nĂ€rmast den, strĂ„lens lĂ€ngd representerar graden av samband, ju kortare strĂ„len Ă€r, desto nĂ€rmare relationen. Dessutom visar grafen ocksĂ„ en del av andra emojis relationsgraf. I den svarta rutan Ă€r relationsgrafen för 👆 och i den orange rutan Ă€r relationsgrafen för — .

Resultaten som Ă„terspeglas i relationsdiagrammet tillĂ„ter oss att fĂ„ en rikare förstĂ„else för anvĂ€ndningen av emoji. Till exempel, dessa tvĂ„ emojis 👈 đŸ„ș anvĂ€nds ofta som en kombination med 👉de senaste Ă„ren för att uttrycka förolĂ€mpade, blyga eller vĂ€djande, sĂ„ de visas i denna relationsgraf:

Dessa tvÄ emojis anvÀnds ofta för att indikera lÀnkar, vilket betyder att de har likheter i anvÀndning, sÄ de ligger nÀra varandra i relationsdiagrammet:

Om du fördjupar dig i diagrammet för emojirelationer kan du uppdatera din uppfattning om vissa emojis.

Hur berÀknar man förhÄllandet mellan emoji?

DÀrefter kommer vi att ge dig en detaljerad beskrivning av berÀkningsprocessen. Det kan grovt delas in i följande tre steg:

  • Först anvĂ€nder vi TF-IDF-algoritmen för att extrahera taggarna för varje emoji frĂ„n tweets och vikten som motsvarar varje tagg. Taggar hĂ€nvisar till de ord som Ă€r nĂ€rmast relaterade till emoji, som motsvarar egenskaperna hos en emoji; och vikter hĂ€nvisar till nĂ€rheten av förhĂ„llandet mellan taggar och emoji, ju högre vikt, desto nĂ€rmare relation. Om algoritmen och berĂ€kningsprocessen för att fĂ„ taggar, vi har skrivit en artikel för att introducera den i detalj, du kan klicka pĂ„ rĂ€tt lĂ€nk för att lĂ€sa den: ☁Emoji Tag Cloud: Help You To Get More Knowledge Of Emoji!
  • Efter att ha erhĂ„llit etiketterna uppstĂ„r ett nytt problem. NĂ€r det kommer till berĂ€kningar vet vi alla att i allmĂ€nhet bara numeriska vĂ€rden kan berĂ€knas, men taggarna presenteras som text, sĂ„ hur kan de berĂ€knas algoritmiskt? DĂ€rför Ă€r vĂ„rt andra steg att konvertera texten till de numeriska vĂ€rden som kan berĂ€knas—— Vector . Denna process kallas Word InbĂ€ddning . Vi mĂ„ste först lĂ€sa en stor mĂ€ngd tweetdata med hjĂ€lp av word2vec-algoritmen (en av metoderna för ordinbĂ€ddning) för att omvandla varje ord i texten till en vektor, sedan kan vi fĂ„ en ordinbĂ€ddningsmatris som bestĂ„r av alla högdimensionella vektorer av ord, och senare mappa varje ord som motsvarar varje tagg vi fick i det första steget till en högdimensionell vektor genom ordinbĂ€ddningsmatrisen. SĂ„ledes har vi slutfört text-till-vektor-konverteringen. Dessa högdimensionella vektorer berĂ€knas genom att analysera textens sammanhang, vilket vĂ€l kan bevara den semantiska informationen för varje ord och pĂ„ sĂ„ sĂ€tt sĂ€kerstĂ€lla noggrannheten i textlikheten. Word2vec-algoritmen förklaras ocksĂ„ i detalj i vĂ„r blogg, om du vill ha mer information kan du lĂ€sa den: 🔍Emoji Sentiment Analysis
  • Det sista steget Ă€r att berĂ€kna textlikheten mellan emojis. Algoritmen som vanligtvis anvĂ€nds för att berĂ€kna textlikhet Ă€r VSM (Vector Space Model) . Detta Ă€r en av de mest anvĂ€nda likhetsberĂ€kningsmodellerna, men den fĂ„r resultat genom att berĂ€kna samförekommande ord (ord som förekommer i bĂ„da texterna) av tvĂ„ texter, vilket inte Ă€r korrekt nĂ€r man stĂ„r inför texter med samma betydelse men olika ordalydelse. för att undvika denna situation valde vi en annan algoritm—— SCM(Soft Cosine Measure) . Den kan mĂ€ta likheten mellan ord, sĂ„ Ă€ven om tvĂ„ texter inte har ord gemensamma, kan denna algoritm berĂ€kna likheten mellan tvĂ„ texter genom att utvĂ€rdera ordlikheten. Efter att vi anvĂ€nt SCM för att mĂ€ta vektorn, betyder ju större vĂ€rde vi fĂ„r desto högre textlikhet mellan emojis, och ju högre textlikhet, desto nĂ€rmare relation.

Slutsats

Genom relationsdiagrammet kan vi förstÄ mÀnniskors vanor och preferenser för att anvÀnda emoji, och utforska trenden för anvÀndning av emoji. Du kanske blir förvÄnad över att upptÀcka att vissa emojis som du inte skulle associera med varandra faktiskt Àr vÀldigt nÀra beslÀktade, och det kan vara en ny trendig anvÀndning av emoji som du inte har kÀnt till Ànnu! Dessutom, om du har nÄgra förslag, berÀtta för oss i kommentaren!


Sök senaste Senaste Ingen emoji som nyligen anvÀnts Emojiifiera... Emojify framgÄng