Danas se stvara sve više praktičnih i zanimljivih upotreba emotikona, na primjer, različite kategorije emojija će se kombinirati kako bi postali Meme, ili se naizgled nepovezani emotikoni zapravo mogu koristiti za opisivanje istog značenja, zbog čega emoji postupno stvaraju vezu između njima. Želimo vizualno prikazati ovaj odnos između emotikona i omogućiti korisnicima dublje razumijevanje upotrebe emoji sličica, pa koristimo algoritme za strojno učenje da bismo izračunali odnos između emoji sličica i nacrtali rezultat u lako razumljivu sliku, a to je odnos emotikona Grafikon .

Šta je Emoji grafikon odnosa?

Poznato je da se emojiji obično predstavljaju kao slike, ali je nemoguće odgonetnuti odnos emotikona sa slikama, jer je glavna upotreba emojija prenošenje informacija i emocija, oni su više kao jezik, tako da će biti preciznije istražiti njihov odnos kroz značenje i upotrebu emotikona. Stoga smo dobili sve tvitove koji sadrže emoji od 2018. do 2021., ukupno 812 miliona tvitova . Uzimajući u obzir da će upotreba emotikona biti različita u različitim jezičkim okruženjima, klasifikovali smo tvitove po jeziku, a zatim izračunali sličnost teksta između emotikona na svakom jeziku algoritmom mašinskog učenja, kako bismo dobili odgovarajući Grafikon odnosa emotikona za svaki jezik.

Kako razumjeti graf odnosa emotikona?

Ovo je grafikon odnosa 👉 od za španjolski. Crveni okvir prikazuje 9 najbližih emotikona njemu, dužina zraka predstavlja stepen veze, što je zraka kraća, to je veza bliža. Osim toga, grafikon također prikazuje dio grafikona odnosa drugih emotikona. U crnoj kutiji je graf odnosa 👆 ,a u narandžastoj kutiji graf odnosa .

Rezultati prikazani u grafikonu odnosa omogućavaju nam da bolje razumijemo upotrebu emotikona. Na primjer, ova dva emojija 👈 🥺 se posljednjih godina često koriste kao kombinacija sa 👉 za izražavanje uvrijeđenosti, stidljivosti ili molbe, pa se pojavljuju na ovom grafikonu odnosa:

Ova dva emojija se često koriste za označavanje veza, što znači da imaju sličnosti u upotrebi, tako da su bliske jedna drugoj na grafikonu odnosa:

Ako zadubite u grafikon odnosa emojija, možda ćete osvježiti svoju percepciju nekih emojija.

Kako izračunati odnos između emotikona?

Zatim ćemo vam dati detaljan opis procesa izračunavanja. Može se grubo podijeliti u sljedeća tri koraka:

  • Prvo, koristimo TF-IDF algoritam da izdvojimo oznake svakog emoji-ja iz tvitova i težinu koja odgovara svakoj oznaci. Oznake se odnose na one riječi koje su najbliže emotikonu, a koje su ekvivalentne karakteristikama emojija; a težine se odnose na bliskost odnosa između oznaka i emotikona, što je veća težina, to je odnos bliži. O algoritmu i procesu izračunavanja za dobijanje oznaka, napisali smo članak kako bismo ga detaljno predstavili, možete kliknuti na desni link da ga pročitate: ☁️Emoji Tag Cloud: Pomaže vam da steknete više znanja o Emoji!
  • Nakon dobijanja etiketa, javlja se novi problem. Kada je reč o proračunima, svi znamo da se generalno mogu izračunati samo numeričke vrednosti, ali se oznake predstavljaju kao tekst, pa kako se mogu izračunati algoritamski? Stoga je naš drugi korak pretvaranje teksta u numeričke vrijednosti koje se mogu izračunati—— Vector . Ovaj proces se naziva ugrađivanje riječi . Prvo moramo pročitati veliku količinu tweet podataka koristeći algoritam word2vec (jedan od metoda ugrađivanja riječi) da transformiramo svaku riječ u tekstu u vektor, a zatim možemo dobiti matricu za ugradnju riječi koja se sastoji od svih vektora visoke dimenzije riječi, a kasnije mapirati svaku riječ koja odgovara svakoj oznaci koju smo dobili u prvom koraku u visokodimenzionalni vektor kroz matricu za ugrađivanje riječi. Tako smo završili konverziju teksta u vektor. Ovi visokodimenzionalni vektori se izračunavaju analizom konteksta teksta, koji može dobro sačuvati semantičku informaciju svake riječi i na taj način osigurati tačnost sličnosti teksta. Algoritam word2vec je također detaljno objašnjen na našem blogu, ako želite više detalja, možete ga pročitati: 🔍Emoji analiza osjećaja
  • Posljednji korak je izračunavanje sličnosti teksta između emojija. Algoritam koji se obično koristi za izračunavanje sličnosti teksta je VSM (model vektorskog prostora) . Ovo je jedan od najčešće korišćenih modela izračunavanja sličnosti, ali on dobija rezultate izračunavanjem zajedničkih reči (reči koje se pojavljuju u oba teksta) dva teksta, što nije tačno kada se suoče sa tekstovima sa istim značenjem, ali različitim formulacijama. da bismo izbjegli ovu situaciju, odabrali smo drugi algoritam—— SCM (Meka kosinusna mjera) . Može mjeriti sličnost između riječi, pa čak i ako dva teksta nemaju zajedničke riječi, ovaj algoritam može izračunati sličnost dva teksta procjenom sličnosti riječi. Nakon što koristimo SCM za mjerenje vektora, što veća vrijednost koju dobijemo znači da je veća sličnost teksta između emojija, a što je veća sličnost teksta, to je njihov odnos bliži.

Zaključak

Kroz grafikon odnosa možemo razumjeti navike i sklonosti ljudi prema korištenju emotikona i istražiti trend upotrebe emotikona. Možda ćete biti iznenađeni kada otkrijete da su neki emojiji koje ne biste povezali jedni s drugima zapravo vrlo blisko povezani, a to bi mogla biti nova moderna upotreba emotikona koju još niste poznavali! Također, ako imate bilo kakve sugestije, slobodno nam ih napišite u komentaru!