Bawat emoji ay espesyal. Hangga't sinusuri mo ito sa tamang paraan, makakaalam ka ng maraming impormasyon gaya ng mga kahulugan, kategorya, kaugnay na paksa, kahit ilang natatanging paggamit ng emoji sa isang sulyap👀. Pagkatapos naming magsagawa ng napakaraming kalkulasyon at pagsusuri sa bawat emoji, sa wakas ay nakukuha namin ang Emoji Tag Cloud , mga keyword at pariralang nauugnay sa isang partikular na emoji, at kinakatawan namin ito sa isang bagong paraan na visual.
🔺Ang Tag Cloud ng emoji [unicorn🦄]
Paano tayo makakakuha ng mga tag?
Tulad ng alam nating lahat, ang Twitter ay isang pandaigdigang sikat na serbisyo sa social networking, at ang mga tao ay gustong mag-tweet ng mga text gamit ang mga emojis upang ipahayag ang kanilang mga damdamin o bilang dekorasyon lamang. Karamihan sa aming mga tag ay mula sa mga tweet sa buong mundo. Sinusuri namin ang mga tweet mula 2018.01 hanggang 2021.11 at kinuha ang mga tag mula sa 812 milyon ng mga tweet na naglalaman ng mga emojis. Pagkatapos ay gumagamit kami ng mga istatistika at algorithm upang piliin ang mga text na lubos na nauugnay sa isang partikular na emoji, at makilala ang wika. Sa pamamagitan nito, malalaman pa natin kung paano ginagamit ang isang emoji sa iba't ibang bansa.
Dito ginagamit namin ang English site bilang isang halimbawa. Ang 2 emoji na ito sa aming english page: 😎 (nakangiting mukha na may salaming pang-araw) at 🦄 (unicorn). Nagsasagawa kami ng tag extraction sa kanila at nakakakuha ng mga salita tulad ng [cool] o [nicki] .
Dito nagpapakita ng bagong problema❓: Siyempre maraming mga text na nauugnay sa isang emoji, kung gayon paano namin pipiliin ang pinaka-angkop na tag, at paano ayusin ang mga ito?
Sa sitwasyong ito, nagsasangkot sila ng karagdagang mga algorithm.
Ang paliwanag ng propesyonal na teknolohiya ng pagkuha ng tag
Maraming uri ng mga teknolohiya sa pagkuha ng tag na may iba't ibang epekto, tulad ng abstract extraction para sa mga artikulo, at mga algorithm ng pag-tag ng keyword para sa mga maiikling text. Ang aming "Emoji Tag Cloud-Twitter Tag Extraction" ay batay sa TF-IDF algorithm . Isinagawa ito gamit ang isang binagong proseso batay sa mga katangian ng data ng Twitter, na isang hindi pinangangasiwaan na maikling text label extraction algorithm.
Upang mapadali ang pag-unawa, dito namin ibubuod ang pamamaraan ng pag-extract ng tag sa 3 hakbang.
- Una, nagsasagawa kami ng pagkuha ng emoji at paglilinis ng text para sa bawat tweet na may isang buwan bilang isang unit, nag-aalis ng mga paksa at nickname tulad ng [@xx], [#xx], at tanggalin ang URL ng tweet. Sa panahon ng paglilinis ng text, sinasala rin namin ang mga stop na salita sa iba't ibang wika (halimbawa, alisin ang ilang modal particle tulad ng ah, oh, atbp.), mga pagdadaglat, anyo ng salita, capitalization at iba pang mga salik, sa wakas ay makakuha ng data ng impormasyon ng dalas ng salita na tumutugma sa bawat emoji .
- Pangalawa, ginagamit namin ang TF-IDF (term frequency-inverse document frequency) na text representation algorithm para kalkulahin ang paunang bigat ng text ng label batay sa mga resultang nakuha sa nakaraang hakbang.
- Ang mga yunit na kinakalkula sa unang dalawang hakbang ay buwanang data, at ang kabuuang data ay apat na taon. Sa huling hakbang, magsasagawa kami ng isa pang round ng pinagsama-samang istatistikal na pagkalkula sa lahat ng buwanang data.
Ang formula ng pagkalkula ay: TF-IDF = TF * IDF
Nakukuha ang TF (Term Frequency) sa pamamagitan ng paghahati sa bilang ng mga paglitaw ng isang salita na tumutugma sa isang emoji sa kabuuang bilang ng mga salita na tumutugma sa emoji. Ang IDF ay Inverse Document Frequency, IDF = log( N / N(w) ) , habang ang [N] ay kumakatawan sa kabuuang bilang ng mga emoji, [N(w)] ay kumakatawan sa bilang ng mga emoji na naglalaman ng salitang [w].
🔺Kapag lumabas ang isang salita sa emojiA at emojiB, nangangahulugan ito na hindi sapat ang representasyon ng salita, at dapat bawasan ang bigat ng salitang ito. Mula sa formula na IDF = log( N / N(w) ), makikita na ang hanay ng IDF sa pagitan ng 0 at positive infinity ay bumababa sa pagtaas ng N(w).
Kapag ang isang termino ay lumilitaw nang mas maraming beses sa isang artikulo, nangangahulugan ito na ang bigat ng termino ay mas malaki. Gayunpaman, ang mga salitang madalas na lumilitaw ay mga salitang nagpapahayag ng tono o walang aktwal na kahulugan, gaya ng [aww], [oh] o [RT]. Mahirap iwasan ang pagsasala ng mga naturang salita kung ang pag-uuri at pagsasala lamang ng halaga ng TF. Kaya't ang kabaligtaran na numero ng dokumento ng IDF ay ipinakilala bilang isang hadlang, upang makalkula ang isang mas tumpak na halaga upang kumatawan sa bigat ng teksto ng label.
Sa pagtatapos ng hakbang 2, i-filter namin ang mga entry na lumalabas nang higit sa 15% ng kabuuang bilang ng mga emoji.
I-convert ang nakalkulang apat na taong tweet data sa anyo ng [(sum(tfidf_m) / M) * log(M)] , at kalkulahin pa ang bigat ng bawat entry ng tag. Ang [sum(tfidf_m)] ay kumakatawan sa kabuuan ng mga halaga ng TF-IDF ng termino sa bawat buwan, at ang [M] ay kumakatawan sa bilang ng mga buwan kung saan lumalabas ang termino.
Ang mga ito, kung gayon, ay ang tinatayang paraan ng pagkalkula ng data ng tag ng emoji. Pagkatapos mabuod ang panghuling data, manu-mano din naming susuriin at i-filter ayon sa wika upang makakuha ng mas tumpak na mga resulta ng tag.
Bilang karagdagan, ang mga tag ay gagamit din ng CLDR maikling pangalan at CLDR na mga keyword para sa sanggunian, sila ang pinakapangunahing tag ng teksto, na nangangahulugang palagi mong makikita ang ilan sa mga salitang ito sa Emoji Tag Cloud.
🔺 Kapag ang isang emoji ay isinumite sa Unicode Consortium, kinakailangang magkaroon ng CLDR maikling pangalan at CLDR na mga keyword sa panukala nito, kaya dapat isaalang-alang ng mga salitang ito ang pagpili ng tag. Ang impormasyon ng emoji [unicorn🦄], inilalagay namin ang maikling pangalan nito at ilan sa mga keyword sa tag cloud nito.
Paano gamitin ang aming Emoji Tag Cloud?
Medyo matagal na naming inilabas ang Emoji Tag Cloud. Sa personal, naniniwala ako na ito ay isang napaka nakakatawa at kapaki-pakinabang na tool upang obserbahan ang isang partikular na emoji, kung minsan maaari mo ring malaman kung aling grupo o trending na paksa ang mas gustong gamitin ang emoji na ito. Hayaan akong ipakita sa iyo kung paano gamitin ang aming Emoji Tag Cloud!
Gaya ng nabanggit sa itaas, iba ang bigat ng bawat text ng tag. Maaari mo lamang husgahan ang ugnayan sa pagitan ng mga tag at emoji ayon sa laki ng bilog (mas malaki, mas nauugnay). O maaari mong ilagay ang iyong mouse sa bilog, magkakaroon ng isang maliit na parisukat na may lalabas na [number, tag text]. Sa sitwasyong ito, mas maliit ang numero, mas may kaugnayan ang tag sa bilog na ito sa emoji. Maaari mo ring i-click ang mga tag na ito upang maghanap ng iba pang nauugnay na emojis!
Gayunpaman, ginagamit namin ang unicorn bilang halimbawa. ang Tag Cloud ng emoji [unicorn 🦄 ] ay katulad sa ibaba:
Gaya ng nakikita mo, ang Nangungunang 5 tag ng 🦄 ay [unicorn], [nicki], [unicorns], [plt] at [barbz] .
Ang Word [unicorn] ay ang CLDR na maikling pangalan ng emoji na ito, at ang natitirang 4 na tag ay nakuha mula sa twitter. Si [nicki] at [barbz] ay nauugnay kay Nicki Minaj at sa kanyang fan group , at ang salitang [plt] ay tumutukoy sa [Pretty Little Thing] , isang retailer ng fashion na nakabase sa UK o ang pariralang ito lang. Ang 🦄 ay isang sikat na emoji sa SNS, at isang napakarepresentanteng emoji para sa mga tagahanga ni Nicki Minaj. Kung mahal mo si Nicki, dapat mong gamitin ang emoji na ito!
Sa kabuuan, sa pamamagitan ng paggamit ng aming Emoji Tag Cloud , madali mong malalaman ang mga kaugnay na nilalaman ng isang partikular na emoji, marahil ay maaari mo pang malaman ang higit pa tungkol sa pop culture at maiwasan ang kahihiyan na hindi alam ang pangunahing at pinalawak na kahulugan ng isang emoji. Minsan ang paggamit ng emoji ay maaaring maging isang social phenomenon, gaya ng emoji na ito 🥺 sa Japan. Bilang emoji para ipahayag ang pagmamakaawa, hinaing o pagmamahal, ang salitang 'ぴえん🥺' ay nanalo ng "JC&JK Buzzword Awards 2019'", "2019 Gal Buzzword Award" 2nd place, ang unang lugar ng "Instagram Buzzword Award para sa unang kalahati ng 2020" at naging trend emoji sa buong Japan! Sa kasong ito, para sa ilang tao, ang Emoji Tag Cloud ay isa ring mahusay na tool upang malaman ang tungkol sa kultura ng internet, lahat ay nakadepende sa kung paano mo ito ginagamit.
Ang lahat ng ito ay upang galugarin ang higit pang paggamit ng emoji, at sana ay makita mong kawili-wili at nagbibigay-kaalaman ang emoji. Upang mabigyan ka ng tumpak na mga nilalamang nauugnay sa emoji, patuloy ding mag-a-update ang data. Kung mayroon ka pang payo tungkol sa Emoji Tag Cloud, mangyaring ipaalam sa amin sa mga komento sa ibaba👇!