Každý emoji je špeciálny. Ak to analyzujete správnym spôsobom, môžete na prvý pohľad zistiť veľa informácií, ako sú významy, kategória, súvisiaca téma, dokonca aj niektoré jedinečné použitie emotikonu👀. Po vykonaní veľkého množstva výpočtov a analýz pre každý emoji konečne získame Emoji Tag Cloud , kľúčové slová a frázy súvisiace s konkrétnym emoji a predstavíme ich novým vizuálnym spôsobom.

🔺Tag Cloud emotikonov [jednorožec🦄]

Ako získavame značky?

Ako všetci vieme, Twitter je celosvetovo známa sociálna sieť a ľudia radi tweetujú texty pomocou emotikonov, aby vyjadrili svoje emócie alebo len ako dekoráciu. Väčšina našich značiek pochádza z tweetov z celého sveta. Analyzujeme tweety od 2018.01 do 2021.11 a extrahujeme značky z 812 miliónov tweetov, ktoré obsahujú emotikony. Potom pomocou štatistík a algoritmov vyberieme texty, ktoré sú vysoko relevantné pre konkrétne emotikony, a rozlíšime jazyk. Vďaka tomu môžeme dokonca vedieť, ako sa emotikon používa v rôznych krajinách.

Tu používame anglickú stránku ako príklad. Tieto 2 emotikony na našej anglickej stránke: 😎 (usmievavá tvár so slnečnými okuliarmi) a 🦄 (jednorožec). Vykonávame extrakciu značiek a získavame slová ako [cool] alebo [nicki] .

Tu sa ukazuje nový problém❓: Samozrejme, existuje veľa textov súvisiacich s emoji, ako potom vyberieme najvhodnejšiu značku a ako ich usporiadame?

V tejto situácii zahŕňajú ďalšie algoritmy.

Profesionálne technologické vysvetlenie extrakcie značiek

Existuje mnoho typov technológií extrakcie značiek s rôznymi účinkami, ako je extrakcia abstraktov pre články a algoritmy označovania kľúčových slov pre krátke texty. Naša „extrakcia značiek Emoji Tag Cloud-Twitter“ je založená na algoritme TF-IDF . Uskutočnil sa upraveným procesom založeným na charakteristikách údajov Twitteru, čo je algoritmus extrakcie krátkych textových štítkov bez dozoru.

Na uľahčenie pochopenia zhrnieme postup extrakcie značiek do 3 krokov.

  • Najprv vykonáme extrakciu emodži a vyčistenie textu pre každý tweet s mesiacom ako jednotkou, odstránime témy a prezývky ako [@xx], [#xx] a odstránime adresu URL tweetu. Počas čistenia textu tiež filtrujeme zastavovacie slová v rôznych jazykoch (napríklad odstránime niektoré modálne častice ako ah, oh atď.), skratky, tvary slov, veľké písmená a ďalšie faktory, nakoniec získame informácie o frekvencii slov zodpovedajúce každému emoji .
  • Po druhé, používame algoritmus reprezentácie textu TF-IDF (termín frekvencia-inverzná frekvencia dokumentu) na výpočet počiatočnej váhy textu štítku na základe výsledkov získaných v predchádzajúcom kroku.
  • Vzorec výpočtu je: TF-IDF = TF * IDF

    TF (Term Frequency) sa získa vydelením počtu výskytov slova zodpovedajúceho emoji celkovým počtom slov zodpovedajúcich emoji. IDF je inverzná frekvencia dokumentu, IDF = log(N / N(w) ) , kým [N] predstavuje celkový počet emotikonov, [N(w)] predstavuje počet emotikonov obsahujúcich slovo [w].

    🔺Keď sa slovo objaví v emojiA aj emojiB, znamená to, že slovo nie je dostatočne reprezentatívne a váha tohto slova by sa mala znížiť. Zo vzorca IDF = log(N / N(w) ) je možné vidieť, že rozsah IDF medzi 0 a kladným nekonečnom klesá s nárastom N(w).

    Keď sa výraz objaví v článku viackrát, znamená to, že váha výrazu je väčšia. Najčastejšie sa však vyskytujú slová, ktoré vyjadrujú tón alebo nemajú žiadny skutočný význam, ako napríklad [aww], [oh] alebo [RT]. Je ťažké vyhnúť sa filtrovaniu takýchto slov, ak ide len o triedenie a filtrovanie podľa hodnoty TF. Takže inverzné číslo dokumentu IDF je zavedené ako obmedzenie, aby sa vypočítala presnejšia hodnota reprezentujúca váhu textu štítku.

    Na konci kroku 2 vyfiltrujeme položky, ktoré sa vyskytujú viac ako 15 % z celkového počtu emotikonov.

  • Jednotky vypočítané v prvých dvoch krokoch sú mesačné údaje a celkové údaje sú štyri roky. V poslednom kroku vykonáme ďalšie kolo konsolidovaných štatistických výpočtov na všetkých mesačných údajoch.
  • Preveďte vypočítané štvorročné údaje tweetu do tvaru [(sum(tfidf_m) / M) * log(M)] a ďalej vypočítajte váhu každého záznamu tagu. [sum(tfidf_m)] predstavuje súčet hodnôt TF-IDF daného výrazu v každom mesiaci a [M] predstavuje počet mesiacov, v ktorých sa výraz vyskytuje.

Toto je približná metóda výpočtu údajov značiek emoji. Po zhrnutí konečných údajov ich tiež manuálne skontrolujeme a filtrujeme podľa jazyka, aby sme získali presnejšie výsledky značiek.


Okrem toho budú značky používať aj krátky názov CLDR a kľúčové slová CLDR ako referenciu, ide o najzákladnejší text značky, čo znamená, že niektoré z týchto slov vždy uvidíte v cloude značiek Emoji.

🔺 Keď sa emoji odošle konzorciu Unicode, je potrebné, aby bol v návrhu uvedený krátky názov CLDR a kľúčové slová CLDR, takže tieto slová musia brať do úvahy výber značky. Informácie o emoji [jednorožec🦄], jeho krátky názov a niektoré kľúčové slová sme vložili do jeho tag cloudu.

Ako používať náš Emoji Tag Cloud?

Bolo to dosť dlho, čo sme vydali Emoji Tag Cloud. Osobne si myslím, že je to veľmi zábavný a užitočný nástroj na pozorovanie konkrétneho emoji, niekedy dokonca viete, ktorá skupina alebo trendová téma uprednostňuje používanie tohto emotikonu. Dovoľte mi ukázať vám, ako používať náš Emoji Tag Cloud!

Ako je uvedené vyššie, váha textu každého tagu je iná. Koreláciu medzi značkami a emotikonmi môžete jednoducho posúdiť podľa veľkosti kruhu (čím väčší, tým relevantnejší). Alebo môžete umiestniť myš na kruh, zobrazí sa malý štvorec s [číslo, text značky]. V tejto situácii platí, že čím menšie číslo, tým je značka v tomto kruhu pre emoji relevantnejšia. Môžete tiež kliknúť na tieto značky a vyhľadať ďalšie súvisiace emotikony!

Napriek tomu ako príklad používame jednorožca. tag Cloud emoji [jednorožec 🦄 ] vyzerá takto:

Ako vidíte, Top 5 značiek 🦄[unicorn], [nicki], [unicorns], [plt] a [barbz] .

Slovo [jednorožec] je krátky názov CLDR tohto emoji a zvyšné 4 značky sú extrahované z twitteru. [nicki] a [barbz] súvisia s Nicki Minaj a jej fanúšikovskou skupinou a slovo [plt] sa vzťahuje na [Pretty Little Thing] , maloobchodného predajcu módy so sídlom v Spojenom kráľovstve alebo len túto frázu. 🦄 je populárny emoji v SNS a veľmi reprezentatívny emoji pre fanúšikov Nicki Minaj. Ak máte radi Nicki, určite by ste mali použiť tento emoji!


Celkovo vzaté, pomocou nášho Emoji Tag Cloud môžete ľahko zistiť súvisiaci obsah konkrétneho emoji, možno sa dokonca dozviete viac o popkultúre a vyhnete sa hanbe z toho, že nepoznáte základný a rozšírený význam emotikonu. Niekedy sa používanie emotikonu môže stať spoločenským fenoménom, ako napríklad tento emotikon 🥺 v Japonsku. Ako emotikon na vyjadrenie žobrania, krivdy alebo lásky získalo toto slovo „ぴえん🥺“ ocenenie „JC&JK Buzzword Awards 2019“, „2019 Gal Buzzword Award“ 2. miesto, prvé miesto „Instagram Buzzword Award za prvý polrok 2020“ a stal sa trendovým emoji po celom Japonsku! V tomto prípade je pre niektorých ľudí Emoji Tag Cloud tiež skvelým nástrojom na zoznámenie sa s internetovou kultúrou, všetko závisí od toho, ako ho používate.

Toto všetko slúži na preskúmanie väčšieho využitia emotikonov a dúfame, že zistíte, že emotikony sú zaujímavé a poučné. Údaje sa budú neustále aktualizovať, aby sme vám mohli poskytnúť presný obsah súvisiaci s emotikonmi. Ak máte ďalšie rady o Emoji Tag Cloud, dajte nám vedieť v komentároch nižšie👇!


Vyhľadávanie posledné Nedávne Žiadne nedávno použité emotikony Emojify... Emojify Úspech