Iga emotikon on eriline. Niikaua kui analüüsite seda õigesti, saate ühe pilguga teada palju teavet, nagu tähendused, kategooria, seotud teema, isegi unikaalne emotikonide kasutus👀. Pärast seda, kui oleme iga emotikoniga arvukalt arvutanud ja analüüsinud, saame lõpuks Emoji Tag Cloudi , konkreetse emotikoniga seotud märksõnad ja fraasid ning esitame selle visuaalselt uudsel viisil.
🔺Emotikonide sildipilv [ükssarvik🦄]
Kuidas me saame silte?
Nagu me kõik teame, on Twitter ülemaailmselt tuntud suhtlusvõrgustiku teenus ja inimestele meeldib emotikonidega tekste säutsutada, et oma emotsioone väljendada või lihtsalt kaunistuseks. Enamik meie silte on pärit säutsudest üle kogu maailma. Analüüsime säutse ajavahemikus 2018.01 kuni 2021.11 ja eraldame sildid 812 miljonilt emotikone sisaldavale säutsule. Seejärel kasutame statistikat ja algoritme, et valida tekstid, mis on konkreetse emotikonide jaoks väga asjakohased, ja eristada keelt. Selle kaudu saame isegi teada, kuidas emotikone erinevates riikides kasutatakse.
Siin kasutame näitena ingliskeelset saiti. Need 2 emotikonit meie ingliskeelsel lehel: 😎 (naeratav nägu päikeseprillidega) ja 🦄 (ükssarvik). Teeme neile sildi ekstraheerimise ja saame sõnad nagu [cool] või [nicki] .
Siin ilmneb uus probleem❓: loomulikult on emotikonidega seotud palju tekste, siis kuidas me valime kõige sobivama sildi ja kuidas neid korraldada?
Sellises olukorras hõlmavad need täiendavaid algoritme.
Sildi ekstraheerimise professionaalne tehnoloogiline selgitus
Erinevate efektidega sildi eraldamise tehnoloogiaid on mitut tüüpi, näiteks artiklite abstraktne ekstraheerimine ja lühikeste tekstide jaoks märksõnade märgistamise algoritmid. Meie "Emoji Tag Cloud-Twitteri sildi ekstraheerimine" põhineb TF-IDF algoritmil . See viidi läbi modifitseeritud protsessiga, mis põhines Twitteri andmete omadustel, mis on järelevalveta lühikese tekstisildi ekstraheerimisalgoritm.
Mõistmise hõlbustamiseks võtame siin sildi ekstraheerimise protseduuri kokku 3 etapiks.
- Esiteks, me täita emotikonide kaevandamise ja teksti puhastus iga piiksuma kuus tervikuna, eemalda teemasid ja hüüdnimed nagu [@xx] [#xx] ja kustutada piiksuma URL. Teksti puhastamise käigus filtreerime ka erinevates keeltes olevaid stoppsõnu (näiteks eemaldame mõned modaalpartiklid nagu ah, oh jne), lühendeid, sõnavorme, suurtähti ja muid tegureid, lõpuks saame igale emotikonile vastavad sõnasageduse teabe andmed. .
- Teiseks kasutame eelmises etapis saadud tulemuste põhjal esialgse sildi teksti kaalu arvutamiseks teksti esitusalgoritmi TF-IDF (term Frequency-Inverse document Frequency).
- Esimeses kahes etapis arvutatud ühikud on kuuandmed ja koguandmed on neli aastat. Viimases etapis teeme kõigi kuuandmete kohta veel ühe konsolideeritud statistiliste arvutuste vooru.
Arvutusvalem on järgmine: TF-IDF = TF * IDF
TF (Term Frequency) saadakse emotikonile vastava sõna esinemiste arvu jagamisel emotikonile vastavate sõnade koguarvuga. IDF on dokumendi pöördsagedus, IDF = log( N / N(w) ) , samal ajal kui [N] tähistab emotikonide koguarvu, [N(w)] tähistab sõna [w] sisaldavate emotikonide arvu.
🔺Kui sõna esineb nii emojiA-s kui ka emojiB-s, tähendab see, et sõna ei ole piisavalt esinduslik ja selle sõna kaalu tuleks vähendada. Valemist IDF = log( N / N(w) ) on näha, et IDF vahemik 0 ja positiivse lõpmatuse vahel väheneb N(w) suurenemisega.
Kui terminit esineb artiklis rohkem kordi, tähendab see, et termini kaal on suurem. Kuid kõige sagedamini esinevad sõnad, mis väljendavad tooni või millel puudub tegelik tähendus, näiteks [aww], [oh] või [RT]. Selliste sõnade filtreerimist on raske vältida, kui ainult sorteerida ja filtreerida TF väärtuse järgi. Seega võetakse IDF-i pöörddokumendi number kasutusele piiranguna, et arvutada täpsem väärtus, mis kajastaks sildi teksti kaalu.
2. toimingu lõpus filtreerime kirjed, mis moodustavad rohkem kui 15% emotikonide koguarvust.
Teisendage arvutatud nelja aasta säutsuandmed kujule [(sum(tfidf_m) / M) * log(M)] ja arvutage edasi iga sildi kirje kaal. [sum(tfidf_m)] tähistab iga kuu termini TF-IDF väärtuste summat ja [M] tähistab kuude arvu, mil tähtaeg ilmub.
See on siis emotikonide siltide andmete ligikaudne arvutusmeetod. Pärast lõplike andmete kokkuvõtmist kontrollime ja filtreerime ka käsitsi vastavalt keelele, et saada täpsemaid sildi tulemusi.
Lisaks kasutavad sildid viitamiseks ka CLDR-i lühinime ja CLDR-i märksõnu, need on kõige lihtsamad silditekstid, mis tähendab, et näete alati mõnda neist sõnadest emotikonide sildipilves.
🔺 Kui emotikon esitatakse Unicode'i konsortsiumile, peavad selle ettepanekus olema CLDR-i lühinimi ja CLDR-i märksõnad, nii et need sõnad peavad sildi valimisel arvestama. Emotikonide [ükssarvik🦄] teave, panime selle lühinime ja mõned märksõnad selle sildipilve.
Kuidas kasutada meie emotikonide sildipilve?
Emoji Tag Cloudi välja andsime juba pikka aega. Isiklikult arvan, et see on väga naljakas ja kasulik tööriist konkreetse emotikonide jälgimiseks, mõnikord saate isegi teada, milline grupp või trendikas teema eelistab seda emotikonit kasutada. Lubage mul näidata teile, kuidas kasutada meie emotikonide sildipilve!
Nagu eespool mainitud, on iga sildi teksti kaal erinev. Saate lihtsalt hinnata siltide ja emotikonide vahelist seost ringi suuruse järgi (mida suurem, seda asjakohasem). Või asetage hiir ringile, siis kuvatakse väike ruut [number, sildi tekst]. Sellises olukorras on selles ringis olev silt emotikonile asjakohasem, mida väiksem on number. Nendel siltidel saate klõpsata ka muude seotud emotikonide otsimiseks!
Siiski kasutame näitena ükssarvikut. emotikonide sildipilv [ükssarvik 🦄] on selline:
Nagu näete, on 🦄 5 parimat silti [unicorn], [nicki], [unicorns], [plt] ja [barbz] .
Sõna [ükssarvik] on selle emotikon CLDR-i lühinimi ja ülejäänud 4 silti on kõik Twitterist välja võetud. [nicki] ja [barbz] on seotud Nicki Minaji ja tema fännigrupiga ning sõna [plt] viitab Ühendkuningriigis asuvale moemüüjale [Pretty Little Thing] või lihtsalt sellele fraasile. 🦄 on SNS-is populaarne emotikon ja väga esinduslik emotikon Nicki Minaji fännidele. Kui teile meeldib Nicki, peaksite kindlasti seda emotikonit kasutama!
Kokkuvõttes saate meie emotikonide sildipilve abil hõlpsasti teada saada konkreetse emotikonide sisu, võib-olla isegi rohkem teada popkultuuri kohta ja vältida piinlikkust, kui te ei tea emotikonide põhilist ja laiendatud tähendust. Mõnikord võib emotikonide kasutamine muutuda sotsiaalseks nähtuseks, nagu see emotikon 🥺 Jaapanis. See sõna „ぴえん🥺” võitis kerjamise, kaebuse või armastuse väljendamiseks mõeldud emotikonina „JC&JK Buzzword Awards 2019”, „2019 Gal Buzzword Award” 2. koha, „Instagram Buzzword Award” esimese poolaasta esimese koha. 2020" ja sai trendi emotikoniks kogu Jaapanis! Sel juhul on mõne inimese jaoks Emoji Tag Cloud ka suurepärane vahend Interneti-kultuuri tundmaõppimiseks, kõik sõltub sellest, kuidas te seda kasutate.
Kõik see on selleks, et uurida emotikonide kasutamist ja loodan, et emotikonid on huvitavad ja informatiivsed. Et pakkuda teile täpset emotikonidega seotud sisu, uuendatakse pidevalt ka andmeid. Kui teil on Emoji Tag Cloudi kohta veel nõuandeid, andke meile teada allpool olevates kommentaarides👇!