Svaki emoji je poseban. Sve dok ga analizirate na pravi način, možete saznati mnoge informacije kao što su značenja, kategorije, srodne teme, čak i neka jedinstvena upotreba emojija na prvi pogled👀. Nakon što izvršimo veliku količinu izračuna i analize za svaki emoji, konačno dobivamo Emoji Tag Cloud , ključne riječi i fraze povezane s određenim emoji simbolima i predstavljamo ih na nov vizualni način.

🔺Oblak oznaka emojija [jednorog🦄]

Kako dobivamo oznake?

Kao što svi znamo, Twitter je globalno poznata usluga društvenog umrežavanja, a ljudi vole tvitati tekstove s emojijima kako bi izrazili svoje emocije ili samo kao ukras. Većina naših oznaka je iz tweetova iz cijelog svijeta. Analiziramo tweetove od 2018.01 do 2021.11 i izdvajamo oznake iz 812 milijuna tweetova koji sadrže emojije. Zatim koristimo statistiku i algoritme kako bismo odabrali tekstove koji su vrlo relevantni za određeni emoji i razlikovali jezik. Zahvaljujući tome, čak možemo znati kako se emoji koristi u različitim zemljama.

Ovdje koristimo englesku stranicu kao primjer. Ova 2 emojija na našoj stranici na engleskom: 😎 (nasmiješeno lice sa sunčanim naočalama) i 🦄 (jednorog). Izvodimo im ekstrakciju oznaka i dobivamo riječi poput [cool] ili [nicki] .

Ovdje se pojavljuje novi problem❓: Naravno da postoji mnogo tekstova vezanih uz emoji, kako onda biramo najprikladniju oznaku i kako ih rasporediti?

U ovoj situaciji oni uključuju daljnje algoritme.

Profesionalno tehnološko objašnjenje ekstrakcije oznaka

Postoje mnoge vrste tehnologija izdvajanja oznaka s različitim učincima, kao što je izdvajanje sažetaka za članke i algoritmi za označavanje ključnih riječi za kratke tekstove. Naše "Emoji Tag Cloud-Twitter Tag Extraction" temelji se na TF-IDF algoritmu . Provedeno je modificiranim postupkom koji se temelji na karakteristikama podataka s Twittera, što je nenadzirani algoritam za izdvajanje kratkih tekstualnih oznaka.

Radi lakšeg razumijevanja, ovdje sažimamo postupak izdvajanja oznaka u 3 koraka.

  • Prvo, izvodimo ekstrakciju emojija i čišćenje teksta za svaki tweet s mjesecom kao jedinicom, uklanjamo teme i nadimke poput [@xx], [#xx] i brišemo URL tweeta. Tijekom čišćenja teksta također filtriramo zaustavne riječi na različitim jezicima (na primjer, uklanjamo neke modalne čestice poput ah, oh, itd.), kratice, oblike riječi, velika slova i druge čimbenike, na kraju dobivamo podatke o učestalosti riječi koji odgovaraju svakom emojiju .
  • Drugo, koristimo algoritam predstavljanja teksta TF-IDF (termin frekvencija-inverzna frekvencija dokumenta) za izračunavanje početne težine teksta naljepnice na temelju rezultata dobivenih u prethodnom koraku.
  • Formula za izračun je: TF-IDF = TF * IDF

    TF (učestalost termina) dobiva se dijeljenjem broja pojavljivanja riječi koja odgovara emojiju s ukupnim brojem riječi koje odgovaraju emojiju. IDF je inverzna učestalost dokumenta, IDF = log( N / N(w) ) , dok [N] predstavlja ukupan broj emojija, [N(w)] predstavlja broj emojija koji sadrže riječ [w].

    🔺Kada se riječ pojavljuje i u emojiA iu emojiB, to znači da riječ nije dovoljno reprezentativna, te da težinu ove riječi treba smanjiti. Iz formule IDF = log( N / N(w) ), može se vidjeti da se raspon IDF između 0 i pozitivne beskonačnosti smanjuje s povećanjem N(w).

    Kada se pojam pojavljuje više puta u članku, to znači da je težina pojma veća. Međutim, riječi koje se najčešće pojavljuju su riječi koje izražavaju ton ili nemaju stvarno značenje, kao što su [aww], [oh] ili [RT]. Teško je izbjeći filtriranje takvih riječi samo sortiranjem i filtriranjem prema TF vrijednosti. Dakle, IDF inverzni broj dokumenta uveden je kao ograničenje, kako bi se izračunala točnija vrijednost koja predstavlja težinu teksta naljepnice.

    Na kraju koraka 2 filtrirat ćemo unose koji se pojavljuju više od 15% ukupnog broja emojija.

  • Jedinice izračunate u prva dva koraka su mjesečni podaci, a ukupni podaci su četiri godine. U zadnjem koraku izvršit ćemo još jedan krug konsolidiranih statističkih izračuna za sve mjesečne podatke.
  • Pretvorite izračunate četverogodišnje podatke tweeta u oblik [(sum(tfidf_m) / M) * log(M)] i dodatno izračunajte težinu svakog unosa oznake. [sum(tfidf_m)] predstavlja zbroj TF-IDF vrijednosti pojma u svakom mjesecu, a [M] predstavlja broj mjeseci u kojima se termin pojavljuje.

Ovo je, dakle, približna metoda izračuna podataka oznake emoji. Nakon što su konačni podaci sažeti, također ćemo ručno provjeriti i filtrirati prema jeziku kako bismo dobili točnije rezultate oznaka.


Osim toga, oznake će također koristiti CLDR kratki naziv i CLDR ključne riječi za referencu, one su najosnovniji tekst oznake, što znači da ćete uvijek vidjeti neke od ovih riječi u Emoji oblaku oznaka.

🔺 Kada se emoji dostavi Unicode konzorciju, potrebno je u svom prijedlogu imati CLDR kratki naziv i CLDR ključne riječi, tako da se ove riječi moraju uzeti u obzir pri odabiru oznake. Podaci o emoji [unicorn🦄], stavili smo njegov kratki naziv i neke ključne riječi u njegov oblak oznaka.

Kako koristiti naš oblak Emoji oznaka?

Prošlo je dosta vremena kada smo objavili Emoji Tag Cloud. Osobno vjerujem da je to vrlo smiješan i koristan alat za promatranje određenog emojija, ponekad čak možete znati koja grupa ili tema u trendu radije koriste ovaj emoji. Dopustite mi da vam pokažem kako koristiti naš Emoji Tag Cloud!

Kao što je gore spomenuto, težina teksta svake oznake je različita. Možete jednostavno procijeniti korelaciju između oznaka i emojija prema veličini kruga (što je veći, to je relevantniji). Ili možete staviti miša na krug, pojavit će se mali kvadrat s [broj, tekst oznake]. U ovoj situaciji, što je broj manji, oznaka u ovom krugu je relevantnija za emoji. Također možete kliknuti ove oznake za pretraživanje drugih povezanih emojija!

Ipak, koristimo jednorog kao primjer. Oblak oznaka emojija [jednorog 🦄 ] je kao u nastavku:

Kao što možete vidjeti, top 5 oznaka 🦄 su [unicorn], [nicki], [unicorns], [plt] i [barbz] .

Riječ [jednorog] je CLDR kratki naziv ovog emojija, a preostale 4 oznake su izvučene iz twittera. [nicki] i [barbz] povezani su s Nicki Minaj i njezinom grupom obožavatelja , a riječ [plt] odnosi se na [Pretty Little Thing] , modnog trgovca sa sjedištem u Velikoj Britaniji ili samo na ovu frazu. 🦄 je popularan emoji u SNS-u i vrlo reprezentativan emoji za obožavatelje Nicki Minaj. Ako volite Nicki, svakako biste trebali koristiti ovaj emoji!


Sve u svemu, korištenjem našeg oblaka emojija možete lako saznati povezane sadržaje određenog emojija, možda čak možete znati više o pop kulturi i izbjeći neugodu zbog nepoznavanja osnovnog i proširenog značenja emotikona. Ponekad korištenje emojija može postati društveni fenomen, kao što je ovaj emoji 🥺 u Japanu. Kao emoji za izražavanje prosjačenja, pritužbi ili ljupkosti, ova riječ 'ぴえん🥺' osvojila je "JC&JK Buzzword Awards 2019'", "2019 Gal Buzzword Award" 2. mjesto, prvo mjesto "Instagram Buzzword Award za prvu polovicu 2020" i postao trend emoji u cijelom Japanu! U ovom slučaju, za neke ljude, Emoji Tag Cloud je također izvrstan alat za upoznavanje internetske kulture, sve ovisi o tome kako ga koristite.

Sve ovo služi za istraživanje više upotrebe emojija i nadamo se da su emoji zanimljivi i informativni. Kako bismo vam pružili točan sadržaj vezan uz emoji, podaci će se također stalno ažurirati. Ako imate još savjeta o Emoji Tag Cloudu, javite nam u komentarima ispod👇!


Pretraga nedavni Nedavni Nema nedavne upotrebe emotikona Emojify... Emojirajte uspjeh