Každý emotikon je speciální. Pokud to analyzujete správným způsobem, můžete na první pohled zjistit mnoho informací, jako jsou významy, kategorie, související téma, dokonce i některé jedinečné použití emotikonu👀. Poté, co u každého emodži provedeme velké množství výpočtů a analýz, nakonec získáme Emoji Tag Cloud , klíčová slova a fráze související s konkrétním emotikonem a znázorníme je novým vizuálním způsobem.

🔺Tag Cloud emotikonů [jednorožec🦄]

Jak získáme značky?

Jak všichni víme, Twitter je celosvětově známá služba sociálních sítí a lidé rádi tweetují texty pomocí emotikonů, aby vyjádřili své emoce nebo jen jako ozdobu. Většina našich tagů pochází z tweetů z celého světa. Analyzujeme tweety od 2018.01 do 2021.11 a extrahujeme značky z 812 milionů tweetů, které obsahují emotikony. Poté pomocí statistik a algoritmů vybíráme texty, které jsou vysoce relevantní pro konkrétní emotikony, a rozlišujeme jazyk. Díky tomu můžeme dokonce vědět, jak se emotikon používá v různých zemích.

Zde jako příklad používáme anglický web. Tyto 2 emotikony na naší anglické stránce: 😎 (usměvavý obličej se slunečními brýlemi) a 🦄 (jednorožec). Provádíme extrakci značek a získáváme slova jako [cool] nebo [nicki] .

Zde se ukazuje nový problém❓: Samozřejmě existuje spousta textů souvisejících s emotikony, pak jak vybereme nejvhodnější značku a jak je uspořádat?

V této situaci zahrnují další algoritmy.

Profesionální technologické vysvětlení extrakce značek

Existuje mnoho typů technologií extrakce tagů s různými efekty, jako je abstraktní extrakce pro články a algoritmy tagování klíčových slov pro krátké texty. Naše „Extrakce značek Emoji Tag Cloud-Twitter“ je založena na algoritmu TF-IDF . Provádí se upraveným procesem založeným na charakteristikách dat Twitteru, což je algoritmus pro extrakci krátkých textových štítků bez dozoru.

Pro usnadnění pochopení zde shrneme postup extrahování značek do 3 kroků.

  • Nejprve provedeme extrakci emotikonů a čištění textu pro každý tweet s měsícem jako jednotkou, odstraníme témata a přezdívky jako [@xx], [#xx] a odstraníme adresu URL tweetu. Během čištění textu také filtrujeme zastavovací slova v různých jazycích (například odstraňujeme některé modální částice jako ah, oh atd.), zkratky, tvary slov, velká písmena a další faktory, nakonec získáme informace o frekvenci slov odpovídající každému emoji .
  • Za druhé, použijeme algoritmus reprezentace textu TF-IDF (termín frekvence-inverzní frekvence dokumentu) k výpočtu počáteční váhy textu štítku na základě výsledků získaných v předchozím kroku.
  • Vzorec výpočtu je: TF-IDF = TF * IDF

    TF (Term Frequency) se získá vydělením počtu výskytů slova odpovídajícímu emoji celkovým počtem slov odpovídajících emoji. IDF je inverzní frekvence dokumentu, IDF = log(N / N(w) ) , zatímco [N] představuje celkový počet emotikonů, [N(w)] představuje počet emotikonů obsahujících slovo [w].

    🔺Když se slovo objeví v emojiA i emojiB, znamená to, že slovo není dostatečně reprezentativní a váha tohoto slova by se měla snížit. Ze vzorce IDF = log( N / N(w) ) lze vidět, že rozsah IDF mezi 0 a kladným nekonečnem se s nárůstem N(w) zmenšuje.

    Když se výraz objeví v článku vícekrát, znamená to, že váha výrazu je větší. Nejčastěji se však objevují slova, která vyjadřují tón nebo nemají žádný skutečný význam, jako například [aww], [oh] nebo [RT]. Je obtížné vyhnout se filtrování takových slov, pokud jde pouze o třídění a filtrování podle hodnoty TF. Inverzní číslo dokumentu IDF je tedy zavedeno jako omezení, aby bylo možné vypočítat přesnější hodnotu reprezentující váhu textu štítku.

    Na konci kroku 2 vyfiltrujeme položky, které se objevují více než 15 % z celkového počtu emotikonů.

  • Jednotky vypočítané v prvních dvou krocích jsou měsíční údaje a celkové údaje jsou čtyři roky. V posledním kroku provedeme další kolo konsolidovaných statistických výpočtů na všech měsíčních datech.
  • Převeďte vypočítaná čtyřletá data tweetu do tvaru [(sum(tfidf_m) / M) * log(M)] a dále vypočítejte váhu každého záznamu tagu. [sum(tfidf_m)] představuje součet hodnot TF-IDF daného termínu v každém měsíci a [M] představuje počet měsíců, ve kterých se termín vyskytuje.

Jedná se tedy o přibližnou metodu výpočtu dat tagů emoji. Po shrnutí konečných dat provedeme také ruční kontrolu a filtrování podle jazyka, abychom získali přesnější výsledky značek.


Kromě toho budou značky pro referenci používat také krátký název CLDR a klíčová slova CLDR, jedná se o nejzákladnější text značky, což znamená, že některá z těchto slov vždy uvidíte v cloudu Emoji Tag Cloud.

🔺 Když je emoji odeslán konsorciu Unicode, je nutné mít v návrhu krátký název CLDR a klíčová slova CLDR, takže tato slova musí brát v úvahu výběr tagu. Informace o emoji [jednorožec🦄], jeho krátký název a některá klíčová slova jsme vložili do jeho tag cloudu.

Jak používat náš Emoji Tag Cloud?

Bylo to docela dlouho, co jsme vydali Emoji Tag Cloud. Osobně se domnívám, že je to velmi zábavný a užitečný nástroj k pozorování konkrétního emoji, někdy dokonce můžete vědět, která skupina nebo trendové téma dává přednost používání tohoto emotikonu. Dovolte mi, abych vám ukázal, jak používat náš Emoji Tag Cloud!

Jak bylo uvedeno výše, váha textu každého tagu je jiná. Korelaci mezi značkami a emotikony můžete jednoduše posoudit podle velikosti kruhu (čím větší, tím relevantnější). Nebo můžete umístit myš na kruh, objeví se malý čtvereček s [číslo, text značky]. V této situaci platí, že čím menší číslo, tím je tag v tomto kruhu pro emotikon relevantnější. Můžete také kliknout na tyto značky a vyhledat další související emotikony!

Přesto jako příklad používáme jednorožce. tag Cloud emotikonů [jednorožec 🦄 ] vypadá takto:

Jak můžete vidět, Top 5 tagů 🦄 jsou [unicorn], [nicki], [unicorns], [plt] a [barbz] .

Slovo [jednorožec] je zkratkou CLDR tohoto emotikonu a všechny zbývající 4 značky jsou extrahovány z twitteru. [nicki] a [barbz] jsou příbuzní Nicki Minaj a její fanouškovské skupině a slovo [plt] odkazuje na [Pretty Little Thing] , britského prodejce módy nebo jen tuto frázi. 🦄 je oblíbený emoji v SNS a velmi reprezentativní emotikon pro fanoušky Nicki Minaj. Pokud milujete Nicki, rozhodně byste měli použít tento emotikon!


Celkově vzato, pomocí našeho Emoji Tag Cloud můžete snadno zjistit související obsah konkrétního emotikonu, možná se dokonce dozvíte více o popkultuře a vyhnete se trapnosti, že neznáte základní a rozšířený význam emotikonu. Někdy se používání emotikonu může stát společenským fenoménem, jako je tento emotikon 🥺 v Japonsku. Toto slovo „ぴえん🥺“ jako emotikon k vyjádření prosby, křivdy nebo lásky získalo „JC&JK Buzzword Awards 2019“, „2019 Gal Buzzword Award“ 2. místo, první místo „Instagram Buzzword Award za první polovinu roku 2020“ a stal se trendovým emotikonem po celém Japonsku! V tomto případě je pro některé lidi Emoji Tag Cloud také skvělým nástrojem, jak se seznámit s internetovou kulturou, vše závisí na tom, jak jej používáte.

To vše má prozkoumat další využití emodži a doufáme, že zjistíte, že emotikony jsou zajímavé a informativní. Abychom vám mohli poskytovat přesný obsah související s emotikony, budou se data také neustále aktualizovat. Pokud máte nějaké další rady ohledně Emoji Tag Cloud, dejte nám prosím vědět v komentářích níže👇!


Hledat poslední Nedávné Žádné nedávné použití emodži Emojify... Emojify Úspěch