Kiekvienas jaustukas yra ypatingas. Tinkamai išanalizavę, galite iš pirmo žvilgsnio sužinoti daug informacijos, tokios kaip reikšmes, kategoriją, susijusią temą, net kai kuriuos unikalius jaustukų panaudojimo būdus👀. Atlikę daugybę kiekvieno jaustuko skaičiavimo ir analizės, pagaliau gauname „ Emoji Tag Cloud“ , raktinius žodžius ir frazes, susijusias su konkrečia jaustukais, ir pavaizduojame jį nauju būdu.

🔺Jaustukų žymų debesis [vienaragis🦄]

Kaip gauname žymas?

Kaip visi žinome, „ Twitter“ yra visame pasaulyje žinoma socialinių tinklų paslauga, ir žmonės mėgsta tviteryje rašyti tekstus su jaustukais, kad išreikštų savo emocijas ar tiesiog kaip puošmeną. Dauguma mūsų žymų yra iš viso pasaulio tviterių. Mes analizuojame tviterius nuo 2018.01 iki 2021.11 ir ištraukiame žymas iš 812 milijonų tviterių, kuriuose yra jaustukų. Tada naudojame statistiką ir algoritmus, kad atrinktume tekstus, kurie labai susiję su konkrečia jaustukais, ir atskiriame kalbą. Taip net galime sužinoti, kaip jaustukai naudojami skirtingose šalyse.

Čia kaip pavyzdį naudojame anglišką svetainę. Šie 2 jaustukai mūsų angliškame puslapyje: 😎 (šypsantis veidas su akiniais nuo saulės) ir 🦄 (vienaragis). Mes atliekame jiems žymų ištraukimą ir gauname tokius žodžius kaip [cool] arba [nicki] .

Čia iškyla nauja problema❓: Žinoma, yra daug tekstų, susijusių su jaustukais, tada kaip išrenkame tinkamiausią žymą ir kaip jas išdėstyti?

Tokiu atveju jie apima papildomus algoritmus.

Profesionalus žymenų ištraukimo technologijos paaiškinimas

Egzistuoja daugybė žymų ištraukimo technologijų, turinčių skirtingus efektus, pvz., abstrakčių straipsnių ištraukimas ir trumpų tekstų raktinių žodžių žymėjimo algoritmai. Mūsų „Emoji Tag Cloud-Twitter Tag Extraction“ yra pagrįstas TF-IDF algoritmu . Jis buvo atliktas naudojant modifikuotą procesą, pagrįstą „Twitter“ duomenų ypatybėmis, o tai yra neprižiūrimas trumpo teksto etiketės ištraukimo algoritmas.

Kad būtų lengviau suprasti, čia apibendriname žymos ištraukimo procedūrą į 3 veiksmus.

  • Pirma, mes atliekame jaustukų ištraukimą ir teksto išvalymą kiekvienam tviteriui su mėnesiu, pašaliname temas ir slapyvardžius, pvz., [@xx], [#xx], ir ištriname tviterio URL. Teksto valymo metu taip pat filtruojame stabdymo žodžius skirtingomis kalbomis (pavyzdžiui, pašaliname kai kurias modalines daleles, tokias kaip ah, oi ir pan.), santrumpas, žodžių formas, didžiąsias raides ir kitus veiksnius, galiausiai gauname žodžių dažnio informacijos duomenis, atitinkančius kiekvieną jaustuką. .
  • Antra, mes naudojame TF-IDF (termino dažnio ir atvirkštinio dokumento dažnio) teksto vaizdavimo algoritmą, kad apskaičiuotume pradinį etiketės teksto svorį, remiantis ankstesniame žingsnyje gautais rezultatais.
  • Skaičiavimo formulė yra tokia: TF-IDF = TF * IDF

    TF (termino dažnis) gaunamas žodžio, atitinkančio jaustuką, skaičių padalijus iš bendro jaustuką atitinkančių žodžių skaičiaus. IDF yra atvirkštinis dokumento dažnis, IDF = log( N / N(w) ) , o [N] reiškia bendrą jaustukų skaičių, [N(w)] reiškia jaustukų, kuriuose yra žodis [w], skaičių.

    🔺Kai žodis atsiranda ir emojiA, ir emojiB, tai reiškia, kad žodis nėra pakankamai reprezentatyvus, todėl šio žodžio svorį reikėtų sumažinti. Iš formulės IDF = log( N / N(w) ), matyti, kad IDF diapazonas tarp 0 ir teigiamos begalybės mažėja didėjant N(w).

    Kai terminas straipsnyje pateikiamas daugiau kartų, tai reiškia, kad termino svoris yra didesnis. Tačiau dažniausiai pasirodo žodžiai, išreiškiantys toną arba neturintys tikrosios reikšmės, pvz., [aww], [oh] arba [RT]. Sunku išvengti tokių žodžių filtravimo, jei tik rūšiuojama ir filtruojama pagal TF reikšmę. Taigi IDF atvirkštinis dokumento numeris įvedamas kaip apribojimas, siekiant apskaičiuoti tikslesnę reikšmę, atspindinčią etiketės teksto svorį.

    2 veiksmo pabaigoje išfiltruosime įrašus, kurie sudaro daugiau nei 15 % viso jaustukų skaičiaus.

  • Pirmuosiuose dviejuose etapuose skaičiuojami vienetai yra mėnesio duomenys, o bendri duomenys yra ketveri metai. Paskutiniame etape atliksime dar vieną konsoliduotų statistinių skaičiavimų etapą su visais mėnesio duomenimis.
  • Konvertuokite apskaičiuotus ketverių metų tviterio duomenis į [(sum(tfidf_m) / M) * log(M)] formą ir toliau apskaičiuokite kiekvieno žymos įrašo svorį. [sum(tfidf_m)] reiškia kiekvieno mėnesio termino TF-IDF reikšmių sumą, o [M] – mėnesių, kuriais terminas pasirodo, skaičių.

Taigi tai yra apytikslis jaustukų žymos duomenų skaičiavimo metodas. Apibendrinę galutinius duomenis, taip pat neautomatiškai patikrinsime ir filtruosime pagal kalbą, kad gautume tikslesnius žymų rezultatus.


Be to, žymose taip pat bus naudojamas CLDR trumpasis pavadinimas ir CLDR raktiniai žodžiai, tai yra paprasčiausias žymos tekstas, o tai reiškia, kad kai kuriuos iš šių žodžių visada matysite jaustukų žymų debesyje.

🔺 Kai jaustukas pateikiamas Unicode konsorciumui, pasiūlyme būtinas CLDR trumpasis pavadinimas ir CLDR raktiniai žodžiai, todėl šiuos žodžius reikia atsižvelgti į žymos pasirinkimą. Jaustuko [vienaragis🦄] informaciją, jos trumpą pavadinimą ir kai kuriuos raktinius žodžius įdedame į žymų debesį.

Kaip naudoti „Emoji Tag Cloud“?

Jau seniai išleidome „Emoji Tag Cloud“. Asmeniškai manau, kad tai labai juokingas ir naudingas įrankis stebėti konkrečią jaustuką, kartais netgi galite žinoti, kuriai grupei ar populiariai temai šis jaustukas labiau patinka. Leiskite man parodyti jums, kaip naudoti mūsų jaustukų žymų debesį!

Kaip minėta aukščiau, kiekvienos žymos teksto svoris skiriasi. Galite tiesiog įvertinti koreliaciją tarp žymų ir jaustukų pagal apskritimo dydį (kuo didesnis, tuo aktualesnis). Arba galite uždėti pelę ant apskritimo, bus rodomas mažas kvadratas su [numeris, žymos tekstas]. Esant tokiai situacijai, kuo mažesnis skaičius, žyma šiame apskritime yra labiau susijusi su jaustukais. Taip pat galite spustelėti šias žymas ir ieškoti kitų susijusių jaustukų!

Vis dėlto kaip pavyzdį naudojame vienaragį. jaustukų [vienaragis 🦄 ] žymų debesis yra taip:

Kaip matote, 5 populiariausios 🦄 žymos yra [unicorn], [nicki], [unicorns], [plt] ir [barbz] .

Žodis [vienaragis] yra trumpasis šio jaustuko CLDR pavadinimas, o visos likusios 4 žymos yra ištrauktos iš „Twitter“. [nicki] ir [barbz] yra susiję su Nicki Minaj ir jos gerbėjų grupe , o žodis [plt] reiškia [Pretty Little Thing] , JK įsikūrusią mados mažmeninę prekybą arba tiesiog šią frazę. 🦄 yra populiarus jaustukas SNS ir labai reprezentatyvus jaustukas Nicki Minaj gerbėjams. Jei jums patinka Nicki, tikrai turėtumėte naudoti šį jaustuką!


Apskritai, naudodamiesi jaustukų žymų debesimi , galite lengvai sužinoti susijusį konkretaus jaustuko turinį, galbūt netgi daugiau sužinoti apie pop kultūrą ir išvengti gėdos, kai nežinote pagrindinės ir išplėstinės jaustukų reikšmės. Kartais jaustukų naudojimas gali tapti socialiniu reiškiniu, pavyzdžiui, šis jaustukas 🥺 Japonijoje. Šis žodis „ぴえん🥺“, kaip jaustukas maldavimui, priekaištui ar meilumui išreikšti, laimėjo „JC&JK Buzzword Awards 2019“, „2019 Gal Buzzword Award“ 2 vietą, pirmąją vietą „Instagram Buzzword Award už pirmąjį pusmetį“. 2020“ ir tapo madinga jaustukais visoje Japonijoje! Šiuo atveju kai kuriems žmonėms Emoji Tag Cloud taip pat yra puiki priemonė sužinoti apie interneto kultūrą, viskas priklauso nuo to, kaip ją naudojate.

Visa tai skirta tam, kad būtų galima daugiau naudoti jaustukus ir tikiuosi, kad jaustukai bus įdomūs ir informatyvūs. Siekiant pateikti tikslų jaustukų turinį, duomenys taip pat bus nuolat atnaujinami. Jei turite daugiau patarimų apie „Emoji Tag Cloud“, praneškite mums toliau pateiktuose komentaruose👇!


Paieška naujausi Neseniai Neseniai nenaudotų jaustukų Jauskitės... Jauskite sėkmę