Varje emoji är speciell. Så länge du analyserar det på ett rätt sätt kan du ta reda på mycket information som betydelser, kategori, relaterat ämne, till och med unik användning av en emoji med en blick👀. Efter att vi har utfört en stor mängd beräkningar och analyser av varje emoji får vi äntligen Emoji Tag Cloud , nyckelord och fraser relaterade till en specifik emoji, och representerar den på ett nytt visuellt sätt.

🔺Emojis etikettmoln [enhörning🦄]

Hur får vi taggar?

Som vi alla vet är Twitter en global berömd social nätverkstjänst, och folk gillar att tweeta texter med emojis för att uttrycka sina känslor eller bara som dekoration. De flesta av våra taggar kommer från tweets över hela världen. Vi analyserar tweets från 2018.01 till 2021.11 och extraherar taggarna från 812 miljoner tweets som innehåller emojis. Sedan använder vi statistik och algoritmer för att plocka ut de texter som är högst relevanta för en specifik emoji, och särskilja språket. Genom detta kan vi till och med veta hur en emoji används i olika länder.

Här använder vi engelska webbplats som exempel. Dessa 2 emojis på vår engelska sida: 😎 (leende ansikte med solglasögon) och 🦄 (enhörning). Vi utför taggextraktion till dem och får ord som [cool] eller [nicki] .

Här dyker upp ett nytt problem❓: Naturligtvis finns det massor av texter relaterade till en emoji, hur väljer vi den lämpligaste taggen och hur vi ordnar dem?

I denna situation involverar de ytterligare algoritmer.

Den professionella teknikförklaringen av taggextraktion

Det finns många typer av taggextraktionstekniker med olika effekter, till exempel abstrakt extrahering för artiklar och nyckelordstaggningsalgoritmer för korta texter. Vår "Emoji Tag Cloud-Twitter Tag Extraction" är baserad på TF-IDF-algoritmen . Det utfördes med en modifierad process baserad på egenskaperna hos Twitter-data, som är en oövervakad algoritm för extraktion av kort textetikett.

För att underlätta förståelsen sammanfattar vi här proceduren för taggextraktion i 3 steg.

 • Först utför vi emojiextraktion och textrensning för varje tweet med en månad som enhet, tar bort ämnen och smeknamn som [@xx], [#xx] och tar bort tweet-URL. Under textrensningen filtrerar vi även stoppord på olika språk (t.ex. tar bort vissa modala partiklar som ah, oh, etc.), förkortningar, ordformer, versaler och andra faktorer, får slutligen ordfrekvensinformation som motsvarar varje emoji .
 • För det andra använder vi TF-IDF (term frequency-inverse document frequency) textrepresentationsalgoritm för att beräkna en initial etiketttextvikt baserat på resultaten som erhölls i föregående steg.
 • Beräkningsformeln är: TF-IDF = TF * IDF

  TF (Term Frequency) erhålls genom att dividera antalet förekomster av ett ord som motsvarar en emoji med det totala antalet ord som motsvarar emojin. IDF är Invers Document Frequency, IDF = log( N / N(w) ) , medan [N] representerar det totala antalet emojis, representerar [N(w)] antalet emojis som innehåller ordet [w].

  🔺När ett ord förekommer i både emojiA och emojiB betyder det att ordet inte är tillräckligt representativt, och vikten av detta ord bör minskas. Från formeln IDF = log( N / N(w) ), kan man se att intervallet för IDF mellan 0 och positiv oändlighet minskar med ökningen av N(w).

  När en term förekommer fler gånger i en artikel betyder det att termens vikt är större. Men de ord som förekommer oftast är ord som uttrycker ton eller inte har någon egentlig betydelse, till exempel [aww], [oh] eller [RT]. Det är svårt att undvika filtrering av sådana ord om man bara sorterar och filtrerar efter TF-värdet. Så det omvända dokumentnumret för IDF introduceras som en begränsning, för att beräkna ett mer exakt värde för att representera vikten av etiketttexten.

  I slutet av steg 2 kommer vi att filtrera de poster som visas mer än 15 % av det totala antalet emojis.

 • Enheterna som beräknas i de två första stegen är månadsdata och de totala uppgifterna är fyra år. I det sista steget kommer vi att utföra ytterligare en omgång av konsoliderade statistiska beräkningar på alla månadsdata.
 • Konvertera de beräknade fyraåriga tweetdata till formen av [(sum(tfidf_m) / M) * log(M)] , och beräkna ytterligare vikten av varje taggpost. [sum(tfidf_m)] representerar summan av TF-IDF-värdena för termen i varje månad, och [M] representerar antalet månader som termen förekommer.

Dessa är alltså den ungefärliga beräkningsmetoden för emoji-taggdata. Efter att den slutliga datan har sammanfattats kommer vi också att kontrollera och filtrera manuellt efter språket för att få mer exakta taggresultat.


Dessutom kommer taggarna också att använda CLDR kortnamn och CLDR nyckelord som referens, de är den mest grundläggande taggtexten, vilket betyder att du alltid kommer att se några av dessa ord i Emoji Tag Cloud.

🔺 När en emoji skickas till Unicode Consortium är det nödvändigt att ha CLDR-kortnamn och CLDR-nyckelord i sitt förslag, så dessa ord måste ta hänsyn till taggvalet. Informationen om emoji [enhörning🦄], vi lägger in dess korta namn och några nyckelord i dess taggmoln.

Hur använder man vårt Emoji Tag Cloud?

Det var ganska länge sedan vi släppte Emoji Tag Cloud. Personligen tror jag att det är ett väldigt roligt och användbart verktyg för att observera en specifik emoji, ibland kan du till och med veta vilken grupp eller trendämne som föredrar att använda denna emoji. Låt mig visa dig hur du använder vårt Emoji Tag Cloud!

Som nämnts ovan är vikten av varje taggtext olika. Du kan helt enkelt bedöma sambandet mellan taggar och emoji efter storleken på cirkeln (ju större, desto mer relevant). Eller så kan du sätta musen på cirkeln, det kommer att dyka upp en liten fyrkant med [nummer, taggtext]. I den här situationen, ju mindre antalet är, är taggen i den här cirkeln mer relevant för emojin. Du kan också klicka på dessa taggar för att söka efter andra relaterade emojis!

Ändå använder vi enhörning som exempel. tagmolnet av emoji [enhörning 🦄 ] är som nedan:

Som du kan se är topp 5-taggarna för 🦄 [unicorn], [nicki], [unicorns], [plt] och [barbz] .

Ordet [unicorn] är CLDR-kortnamnet på denna emoji, och resten av 4 taggar är alla extraherade från twitter. [nicki] och [barbz] är släkt med Nicki Minaj och hennes fangrupp , och ordet [plt] hänvisar till [Pretty Little Thing] , en brittisk modeåterförsäljare eller bara den här frasen. 🦄 är en populär emoji i SNS och en mycket representativ emoji för Nicki Minaj-fans. Om du älskar Nicki bör du definitivt använda denna emoji!


Allt som allt, genom att använda vårt Emoji Tag Cloud , kan du enkelt ta reda på det relaterade innehållet i en specifik emoji, kanske kan du till och med veta mer om popkultur och undvika pinsamhet över att inte känna till den grundläggande och utökade betydelsen av en emoji. Ibland kan användningen av en emoji bli ett socialt fenomen, som denna emoji 🥺 i Japan. Som en emoji för att uttrycka tiggeri, klagomål eller ljuvlighet vann detta ord "ぴえん🥺" "JC&JK Buzzword Awards 2019", "2019 Gal Buzzword Award" 2:a plats, förstaplatsen för "Instagram Buzzword Award för första halvan av 2020" och blev en trend-emoji över hela Japan! I det här fallet, för vissa människor, är Emoji Tag Cloud också ett bra verktyg för att lära känna internetkulturen, allt beror på hur du använder det.

Allt detta är för att utforska mer användning av emoji, och hoppas att du tycker att emoji är intressant och informativ. För att ge dig korrekt emoji-relaterat innehåll kommer uppgifterna också att uppdateras. Om du har fler råd om Emoji Tag Cloud, låt oss veta det i kommentarerna nedan👇!