Danas se stvara sve više praktičnih i zanimljivih upotreba emojija, na primjer, različite kategorije emojija će se kombinirati kako bi postali Meme, ili se naizgled nepovezani emoji zapravo mogu koristiti za opisivanje istog značenja, zbog čega emoji postupno stvaraju vezu između ih. Želimo vizualno prikazati ovaj odnos između emojija i omogućiti korisnicima dublje razumijevanje upotrebe emojija, pa koristimo algoritme za strojno učenje za izračunavanje odnosa između emojija i crtanje rezultata u lako razumljivu sliku, a to je odnos emojija Grafikon .

Što je grafikon odnosa emojija?

Poznato je da se emojiji obično predstavljaju kao slike, ali nemoguće je odgonetnuti odnos emotikona sa slikama, jer je glavna upotreba emojija prenošenje informacija i emocija, oni su više kao jezik, pa će biti točnije istražiti njihov odnos kroz značenje i upotrebu emojija. Stoga smo dobili sve tweetove koji sadrže emoji od 2018. do 2021., ukupno 812 milijuna tweetova . Uzimajući u obzir da će upotreba emotikona biti različita u različitim jezičnim okruženjima, klasificirali smo tweetove po jeziku, a zatim izračunali sličnost teksta između emotikona na svakom jeziku algoritmom strojnog učenja kako bismo dobili odgovarajući grafikon odnosa emojija za svaki jezik.

Kako razumjeti grafikon odnosa emojija?

Ovo je grafikon odnosa emojija od 👉 za španjolski. Crveni okvir prikazuje 9 najbližih emojija njemu, duljina zrake predstavlja stupanj odnosa, što je zraka kraća, to je odnos bliži. Osim toga, grafikon također prikazuje dio grafikona odnosa drugih emotikona. U crnoj kutiji je graf odnosa 👆 ,a u narančastoj kutiji graf odnosa .

Rezultati prikazani u grafikonu odnosa omogućuju nam da bolje razumijemo upotrebu emotikona. Na primjer, ova dva emojija 👈 🥺 se posljednjih godina često koriste kao kombinacija s 👉 za izražavanje uvrijeđenosti, stidljivosti ili molbe, pa se pojavljuju u ovom grafikonu odnosa:

Ova dva emojija često se koriste za označavanje veza, što znači da imaju sličnosti u upotrebi, pa su bliski jedan drugom u grafikonu odnosa:

Ako zadubite u grafikon odnosa emojija, možda ćete osvježiti svoju percepciju nekih emojija.

Kako izračunati odnos između emotikona?

Zatim ćemo vam dati detaljan opis procesa izračuna. Može se grubo podijeliti u sljedeća tri koraka:

  • Prvo, koristimo TF-IDF algoritam za izdvajanje oznaka svakog emojija iz tweetova i težine koja odgovara svakoj oznaci. Oznake se odnose na one riječi koje su najbliže emoji, a koje su ekvivalentne karakteristikama emojija; a ponderi se odnose na bliskost odnosa između oznaka i emojija, što je veća težina, to je odnos bliži. O algoritmu i procesu izračunavanja za dobivanje oznaka, napisali smo članak kako bismo ga detaljno predstavili, možete kliknuti na desnu poveznicu da ga pročitate: ☁️Emoji Tag Cloud: Pomaže vam da steknete više znanja o Emoji!
  • Nakon dobivanja naljepnica javlja se novi problem. Kada je riječ o izračunima, svi znamo da se općenito mogu izračunati samo numeričke vrijednosti, ali oznake su predstavljene kao tekst, pa kako se mogu izračunati algoritamski? Stoga je naš drugi korak pretvoriti tekst u numeričke vrijednosti koje se mogu izračunati—— Vector . Taj se proces naziva ugrađivanje riječi . Prvo moramo pročitati veliku količinu tweet podataka koristeći algoritam word2vec (jedan od metoda ugradnje riječi) da transformiramo svaku riječ u tekstu u vektor, a zatim možemo dobiti matricu za ugradnju riječi koja se sastoji od svih visokodimenzionalnih vektora riječi, a kasnije mapirati svaku riječ koja odgovara svakoj oznaci koju smo dobili u prvom koraku u visokodimenzionalni vektor kroz matricu za ugradnju riječi. Tako smo dovršili pretvorbu teksta u vektor. Ovi visokodimenzionalni vektori izračunavaju se analizom konteksta teksta, koji može dobro sačuvati semantičku informaciju svake riječi i tako osigurati točnost sličnosti teksta. Algoritam word2vec također je detaljno objašnjen na našem blogu, ako želite više detalja, možete ga pročitati: 🔍Emoji analiza osjećaja
  • Posljednji korak je izračunavanje sličnosti teksta između emojija. Algoritam koji se obično koristi za izračunavanje sličnosti teksta je VSM (model vektorskog prostora) . Ovo je jedan od najčešće korištenih modela izračuna sličnosti, ali dobiva rezultate izračunavanjem supojavnih riječi (riječi koje se pojavljuju u oba teksta) dvaju tekstova, što nije točno kada se suoče s tekstovima s istim značenjem, ali različitim tekstovima. da bismo izbjegli ovu situaciju, odabrali smo drugi algoritam—— SCM (Soft Cosine Measure) . Može mjeriti sličnost između riječi, pa čak i ako dva teksta nemaju zajedničke riječi, ovaj algoritam može izračunati sličnost dvaju tekstova procjenom sličnosti riječi. Nakon što upotrijebimo SCM za mjerenje vektora, veća vrijednost koju dobijemo znači da je veća sličnost teksta između emojija, a što je veća sličnost teksta, to je njihov odnos bliži.

Zaključak

Putem grafikona odnosa možemo razumjeti navike i preferencije ljudi u korištenju emojija te istražiti trend upotrebe emojija. Možda ćete se iznenaditi kada otkrijete da su neki emojiji koje ne biste međusobno povezivali zapravo vrlo blisko povezani, a to bi mogla biti nova moderna upotreba emojija koju još niste poznavali! Također, ako imate bilo kakve prijedloge, slobodno nam ih napišite u komentaru!