Svaki emoji je poseban. Sve dok ga analizirate na pravi način, možete saznati mnoge informacije kao što su značenja, kategorije, povezane teme, čak i neka jedinstvena upotreba emotikona na prvi pogled👀. Nakon što izvršimo veliku količinu proračuna i analize za svaki emoji, konačno dobijamo Emoji Tag Cloud , ključne riječi i fraze povezane s određenim emoji sličicama i predstavljamo ih na nov vizuelni način.
🔺Oblak oznaka emojija [jednorog🦄]
Kako dobijamo oznake?
Kao što svi znamo, Twitter je globalno poznata društvena mreža, a ljudi vole da tvituju tekstove sa emotikonima kako bi izrazili svoje emocije ili samo kao ukras. Većina naših oznaka je sa tweetova iz cijelog svijeta. Analiziramo tvitove od 2018.01. do 2021.11. i izdvajamo oznake iz 812 miliona tvitova koji sadrže emotikone. Zatim koristimo statistiku i algoritme da odaberemo tekstove koji su vrlo relevantni za određeni emoji i razlikujemo jezik. Zahvaljujući tome, čak možemo znati kako se emoji koristi u različitim zemljama.
Ovdje koristimo englesku stranicu kao primjer. Ova 2 emojija na našoj stranici na engleskom: 😎 (nasmijano lice sa sunčanim naočalama) i 🦄 (jednorog). Izvodimo ekstrakciju oznaka za njih i dobivamo riječi poput [cool] ili [nicki] .
Ovdje se pojavljuje novi problem❓: Naravno da postoji mnogo tekstova vezanih za emoji, zatim kako biramo najprikladniju oznaku i kako ih rasporediti?
U ovoj situaciji oni uključuju dalje algoritme.
Profesionalno tehnološko objašnjenje ekstrakcije oznaka
Postoji mnogo tipova tehnologija izdvajanja oznaka sa različitim efektima, kao što je izdvajanje apstraktnog sadržaja za članke i algoritmi za označavanje ključnih reči za kratke tekstove. Naše "Emoji Tag Cloud-Twitter Tag ekstrakcija" je baziran na TF-IDF algoritmu . Izvršen je modificiranim procesom baziranim na karakteristikama Twitter podataka, što je nenadzirani algoritam za izdvajanje kratkih tekstualnih oznaka.
Da bismo olakšali razumijevanje, ovdje sumiramo proceduru izdvajanja oznaka u 3 koraka.
- Prvo, vršimo ekstrakciju emoji-ja i čišćenje teksta za svaki tweet sa mjesecom kao jedinicom, uklanjamo teme i nadimke poput [@xx], [#xx] i brišemo URL tvita. Tokom čišćenja teksta također filtriramo stop riječi na različitim jezicima (na primjer, uklanjamo neke modalne čestice poput ah, oh, itd.), skraćenice, oblike riječi, velika slova i druge faktore, na kraju dobivamo podatke o učestalosti riječi koji odgovaraju svakom emotikonu .
- Drugo, koristimo algoritam predstavljanja teksta TF-IDF (termin frekvencija-inverzna frekvencija dokumenta) da izračunamo početnu težinu teksta naljepnice na osnovu rezultata dobivenih u prethodnom koraku.
- Jedinice izračunate u prva dva koraka su mjesečni podaci, a ukupni podaci su četiri godine. U posljednjem koraku izvršit ćemo još jedan krug konsolidovanih statističkih proračuna za sve mjesečne podatke.
Formula izračuna je: TF-IDF = TF * IDF
TF (učestalost termina) se dobiva dijeljenjem broja pojavljivanja riječi koja odgovara emoji sličici s ukupnim brojem riječi koje odgovaraju emoji sličici. IDF je inverzna učestalost dokumenta, IDF = log( N / N(w) ) , dok [N] predstavlja ukupan broj emojija, [N(w)] predstavlja broj emojija koji sadrže riječ [w].
🔺Kada se riječ pojavljuje i u emojiA i u emojiB, to znači da riječ nije dovoljno reprezentativna, te da težinu ove riječi treba smanjiti. Iz formule IDF = log( N / N(w) ), može se vidjeti da raspon IDF između 0 i pozitivne beskonačnosti opada sa povećanjem N(w).
Kada se termin pojavljuje više puta u članku, to znači da je težina termina veća. Međutim, riječi koje se najčešće pojavljuju su riječi koje izražavaju ton ili nemaju stvarno značenje, kao što su [aww], [oh] ili [RT]. Teško je izbjeći filtriranje takvih riječi ako se vrši samo sortiranje i filtriranje po TF vrijednosti. Dakle, IDF inverzni broj dokumenta je uveden kao ograničenje, kako bi se izračunala tačnija vrijednost koja predstavlja težinu teksta naljepnice.
Na kraju koraka 2, filtrirat ćemo unose koji se pojavljuju više od 15% od ukupnog broja emojija.
Pretvorite izračunate četverogodišnje tweet podatke u oblik [(sum(tfidf_m) / M) * log(M)] i dalje izračunajte težinu svakog unosa oznake. [sum(tfidf_m)] predstavlja zbir TF-IDF vrijednosti termina u svakom mjesecu, a [M] predstavlja broj mjeseci u kojima se termin pojavljuje.
Ovo je, dakle, približna metoda izračunavanja podataka emoji oznaka. Nakon što su konačni podaci sumirani, mi ćemo također ručno provjeriti i filtrirati prema jeziku kako bismo dobili preciznije rezultate oznaka.
Osim toga, oznake će također koristiti CLDR kratko ime i CLDR ključne riječi za referencu, oni su najosnovniji tekst oznake, što znači da ćete uvijek vidjeti neke od ovih riječi u Emoji Tag Cloudu.
🔺 Kada se emoji dostavite Unicode konzorcijumu, potrebno je u svom prijedlogu imati CLDR kratki naziv i CLDR ključne riječi, tako da ove riječi moraju uzeti u obzir pri odabiru oznake. Informacije o emotikonu [unicorn🦄], stavili smo njegov kratki naziv i neke ključne riječi u njegov oblak oznaka.
Kako koristiti naš Emoji Tag Cloud?
Prošlo je dosta vremena kada smo objavili Emoji Tag Cloud. Osobno vjerujem da je to vrlo smiješan i koristan alat za promatranje određenog emotikona, ponekad čak možete znati koja grupa ili tema u trendu radije koriste ovaj emoji. Dozvolite mi da vam pokažem kako koristiti naš Emoji Tag Cloud!
Kao što je gore spomenuto, težina teksta svake oznake je različita. Možete jednostavno procijeniti korelaciju između oznaka i emotikona prema veličini kruga (što je veći, to je relevantniji). Ili možete staviti miša na krug, pojavit će se mali kvadrat sa [broj, tekst oznake]. U ovoj situaciji, što je broj manji, oznaka u ovom krugu je relevantnija za emoji. Također možete kliknuti na ove oznake da pretražite druge povezane emotikone!
Ipak, koristimo jednorog kao primjer. Oblak oznaka emoji [jednorog 🦄 ] je kao ispod:
Kao što vidite, top 5 oznaka za 🦄 su [unicorn], [nicki], [unicorns], [plt] i [barbz] .
Riječ [unicorn] je CLDR kratki naziv ovog emoji-ja, a preostale 4 oznake su izvučene iz twittera. [nicki] i [barbz] su u srodstvu s Nicki Minaj i njenom grupom obožavatelja , a riječ [plt] se odnosi na [Pretty Little Thing] , modnog trgovca sa sjedištem u Velikoj Britaniji ili samo na ovu frazu. 🦄 je popularan emoji u SNS-u i veoma reprezentativan emoji za fanove Nicki Minaj. Ako volite Nicki, svakako biste trebali koristiti ovaj emoji!
Sve u svemu, koristeći naš Emoji Tag Cloud , možete lako saznati srodan sadržaj određenog emotikona, možda čak možete znati više o pop kulturi i izbjeći neugodnost zbog nepoznavanja osnovnog i proširenog značenja emotikona. Ponekad korištenje emojija može postati društveni fenomen, kao što je ovaj emoji 🥺 u Japanu. Kao emoji za izražavanje prosjačenja, tuge ili ljupkosti, ova riječ 'ぴえん🥺' osvojila je "JC&JK Buzzword Awards 2019'", "2019 Gal Buzzword Award" 2. mjesto, prvo mjesto "Instagram Buzzword Award za prvu polovicu 2020" i postao trend emoji u cijelom Japanu! U ovom slučaju, za neke ljude, Emoji Tag Cloud je također odličan alat za upoznavanje internet kulture, sve ovisi o tome kako ga koristite.
Sve ovo služi za istraživanje više upotrebe emotikona i nadamo se da su emotikoni zanimljivi i informativni. Kako bismo vam pružili tačan sadržaj vezan za emoji, podaci će se također stalno ažurirati. Ako imate još savjeta o Emoji Tag Cloudu, javite nam u komentarima ispod👇!