Vsak emoji je poseben. Dokler ga analizirate na pravi način, lahko na prvi pogled izvedete številne informacije, kot so pomeni, kategorija, sorodna tema, celo nekaj edinstvene uporabe emojijev👀. Ko opravimo veliko izračunov in analize za vsak emoji, končno dobimo oblak oznak emojijev , ključne besede in besedne zveze, povezane z določenim emojijem, in jih predstavimo na nov vizualni način.

🔺Oblak oznak emoji [samorog🦄]

Kako dobimo oznake?

Kot vsi vemo, je Twitter svetovno znana storitev družbenih omrežij in ljudje radi tvitajo besedila z emoji, da izrazijo svoja čustva ali samo kot okras. Večina naših oznak je iz tvitov z vsega sveta. Analiziramo tvite od 2018.01 do 2021.11 in izvlečemo oznake iz 812 milijonov tvitov, ki vsebujejo emodžije. Nato uporabimo statistiko in algoritme, da izberemo besedila, ki so zelo pomembna za določen emoji, in razlikujemo jezik. S tem lahko celo vemo, kako se emoji uporablja v drugi državi.

Tukaj uporabljamo angleško spletno stran kot primer. Ta 2 emojija na naši angleški strani: 😎 (nasmejan obraz s sončnimi očali) in 🦄 (samorog). Izvedemo jim ekstrakcijo oznake in dobimo besede, kot sta [cool] ali [nicki] .

Tukaj se pokaže nova težava❓: Seveda je veliko besedil, povezanih z emodžijem, kako izberemo najbolj primerno oznako in kako jih razporediti?

V tej situaciji vključujejo dodatne algoritme.

Profesionalna tehnološka razlaga ekstrakcije oznak

Obstaja veliko vrst tehnologij za ekstrakcijo oznak z različnimi učinki, na primer ekstrakcijo povzetka za članke in algoritme za označevanje ključnih besed za kratka besedila. Naše "Emoji Tag Cloud-Twitter Tag Extraction" temelji na algoritmu TF-IDF . Izveden je s spremenjenim postopkom, ki temelji na značilnostih podatkov Twitterja, ki je nenadzorovan algoritem za ekstrakcijo kratkih besedilnih nalepk.

Za lažje razumevanje tukaj povzemamo postopek ekstrakcije oznake v 3 korake.

  • Najprej izvedemo ekstrakcijo emojijev in čiščenje besedila za vsak tweet z mesecem kot enoto, odstranimo teme in vzdevke, kot so [@xx], [#xx], ter izbrišemo URL tvita. Med čiščenjem besedila filtriramo tudi zaustavitvene besede v različnih jezikih (na primer odstranimo nekaj modalnih delcev, kot so ah, oh itd.), okrajšave, besedne oblike, velike črke in druge dejavnike, končno dobimo podatke o frekvenci besed, ki ustrezajo vsakemu emodžiju .
  • Drugič, uporabljamo algoritem za predstavitev besedila TF-IDF (terminska frekvenca inverzna frekvenca dokumenta) za izračun začetne teže besedila nalepke na podlagi rezultatov, pridobljenih v prejšnjem koraku.
  • Formula za izračun je: TF-IDF = TF * IDF

    TF (Term Frequency) se dobi tako, da se število ponovitev besede, ki ustreza emodžiju, deli s skupnim številom besed, ki ustrezajo čustvenemu simbolu. IDF je inverzna frekvenca dokumenta, IDF = log( N / N(w) ) , medtem ko [N] predstavlja skupno število emojijev, [N(w)] predstavlja število emojijev, ki vsebujejo besedo [w].

    🔺Ko se beseda pojavi tako v emojiA kot emojiB, to pomeni, da beseda ni dovolj reprezentativna, zato je treba težo te besede zmanjšati. Iz formule IDF = log( N / N(w) ) je razvidno, da se razpon IDF med 0 in pozitivno neskončnostjo zmanjšuje s povečanjem N(w).

    Ko se izraz večkrat pojavi v članku, to pomeni, da je teža izraza večja. Vendar pa so besede, ki se najpogosteje pojavljajo, besede, ki izražajo ton ali nimajo dejanskega pomena, kot so [aww], [oh] ali [RT]. Težko se je izogniti filtriranju takšnih besed, če jih samo razvrščamo in filtriramo po vrednosti TF. Torej je inverzna številka dokumenta IDF uvedena kot omejitev, da se izračuna natančnejša vrednost, ki predstavlja težo besedila nalepke.

    Na koncu 2. koraka bomo filtrirali vnose, ki se pojavljajo več kot 15 % skupnega števila emojijev.

  • Enote, izračunane v prvih dveh korakih, so mesečni podatki, skupni podatki pa štiri leta. Na zadnjem koraku bomo opravili še en krog konsolidiranih statističnih izračunov za vse mesečne podatke.
  • Pretvorite izračunane štiriletne podatke tvita v obliko [(sum(tfidf_m) / M) * log(M)] in nadalje izračunajte težo vsakega vnosa oznake. [sum(tfidf_m)] predstavlja vsoto vrednosti TF-IDF izraza v vsakem mesecu, [M] pa predstavlja število mesecev, v katerih se izraz pojavi.

To je torej približna metoda izračuna podatkov oznake emoji. Ko so končni podatki povzeti, bomo tudi ročno preverili in filtrirali glede na jezik, da bi dobili natančnejše rezultate oznak.


Poleg tega bodo oznake uporabljale tudi kratko ime CLDR in ključne besede CLDR za referenco, so najosnovnejše besedilo oznake, kar pomeni, da boste nekatere od teh besed vedno videli v oblaku oznak Emoji.

🔺 Ko je emoji oddan konzorciju Unicode, morata imeti v predlogu kratko ime CLDR in ključne besede CLDR, zato je treba te besede upoštevati pri izbiri oznake. Podatki o emodžiju [unicorn🦄], njegovo kratko ime in nekaj ključnih besed smo dali v njegov oblak oznak.

Kako uporabljati naš oblak oznak Emoji?

Minilo je že kar nekaj časa, ko smo izdali oblak oznak Emoji. Osebno menim, da je to zelo smešno in uporabno orodje za opazovanje določenega emodžija, včasih lahko celo veste, katera skupina ali trendna tema raje uporablja ta emoji. Naj vam pokažem, kako uporabljati naš oblak oznak Emoji!

Kot je navedeno zgoraj, je teža besedila posamezne oznake različna. Korelacijo med oznakami in čustvenimi simboli lahko preprosto ocenite po velikosti kroga (večji, bolj relevanten). Lahko pa postavite miško na krog, prikazal se bo majhen kvadrat z [številko, besedilo oznake]. V tem primeru, manjša kot je številka, je oznaka v tem krogu pomembnejša za emoji. Prav tako lahko kliknete te oznake za iskanje drugih povezanih emojijev!

Kljub temu za primer uporabljamo samoroga. Oblak oznak emoji [samorog 🦄 ] je podoben spodaj:

Kot lahko vidite, je najboljših 5 oznak 🦄 [unicorn], [nicki], [unicorns], [plt] in [barbz] .

Beseda [unicorn] je kratko ime tega čustvenega simbola CLDR, preostale 4 oznake pa so izvlečene iz twitterja. [nicki] in [barbz] sta povezana z Nicki Minaj in njeno skupino oboževalcev , beseda [plt] pa se nanaša na [Pretty Little Thing] , modnega trgovca s sedežem v Združenem kraljestvu ali samo to besedno zvezo. 🦄 je priljubljen emoji v SNS in zelo reprezentativen emoji za oboževalce Nicki Minaj. Če imate radi Nicki, vsekakor uporabite ta emoji!


Skratka, z uporabo našega oblaka oznak emojijev zlahka ugotovite sorodno vsebino določenega emodžija, morda celo izveste več o pop kulturi in se izognete zadregi zaradi nepoznavanja osnovnega in razširjenega pomena emojijev. Včasih lahko uporaba emojijev postane družbeni pojav, kot je ta emoji 🥺 na Japonskem. Kot emoji za izražanje prosjačenja, zamer ali ljubkosti je ta beseda "ぴえん🥺" osvojila "JC&JK Buzzword Awards 2019'", "2019 Gal Buzzword Award" 2. mesto, prvo mesto "Instagram Buzzword Award za prvo polovico 2020" in postal trend emoji po vsej Japonski! V tem primeru je za nekatere ljudi Emoji Tag Cloud tudi odlično orodje za spoznavanje internetne kulture, vse je odvisno od tega, kako ga uporabljate.

Vse to je namenjeno raziskovanju več uporabe emojijev in upam, da so emoji zanimivi in informativni. Da bi vam zagotovili natančno vsebino, povezano z emoji, se bodo tudi podatki posodabljali. Če imate še kakšen nasvet o oblaku oznak Emoji, nam to sporočite v spodnjih komentarjih👇!


Išči nedavni Nedavne Brez nedavne uporabe emoji Emojify... Emojify uspeh