În zilele noastre sunt create din ce în ce mai multe utilizări practice și interesante de emoji, de exemplu, diferite categorii de emoji vor fi combinate împreună pentru a deveni un Meme, sau emoji aparent fără legătură poate fi folosit pentru a descrie același sens, ceea ce face ca emoji să creeze treptat o conexiune între lor. Dorim să arătăm vizual această relație dintre emoji și să permitem utilizatorilor o înțelegere mai profundă a utilizării emoji-urilor, așa că folosim algoritmi de învățare automată pentru a calcula relația dintre emoji și a trasa rezultatul într-o imagine ușor de înțeles, care este Relația Emoji. Graficul .
Ce este Emoji Relationship Graph?
Este bine cunoscut faptul că emoji-urile sunt de obicei prezentate ca imagini, dar este imposibil să ne dăm seama de relația dintre emoji-uri cu imagini, deoarece principala utilizare a emoji-urilor este de a transmite informații și emoții, ele sunt mai mult ca un limbaj, așa că va fi mai precis să exploreze relația lor prin semnificația și utilizarea emoji-urilor. Prin urmare, am obținut toate tweet-urile care conțin emoji din 2018 până în 2021, însumând 812 milioane de tweet-uri . Având în vedere că utilizarea emoji-urilor va fi diferită în diferite medii de limbă, am clasificat tweet-urile în funcție de limbă, apoi am calculat similitudinea textului dintre emoji în fiecare limbă prin algoritmul de învățare automată, astfel încât să obținem graficul de relație emoji corespunzător pentru fiecare limbă.
Cum să înțelegeți graficul relației Emoji?
Acesta este graficul relației emoji 👉 pentru spaniolă. Caseta roșie arată cele mai apropiate 9 emoji de acesta, lungimea razei reprezintă gradul de relație, cu cât raza este mai scurtă, cu atât relația este mai strânsă. În plus, graficul arată și o parte din graficul relației altor emoji. În caseta neagră se află graficul relațiilor lui 👆 , iar în caseta portocalie este graficul relației lui ⤵ .
Rezultatele reflectate în graficul relațiilor ne permit să avem o înțelegere mai bogată a utilizării emoji-urilor. De exemplu, aceste două emoji-uri 👈 🥺 sunt adesea folosite ca o combinație cu 👉 în ultimii ani pentru a exprima supărarea, timiditatea sau implorarea, așa că apar în acest grafic al relației:
Aceste două emoji-uri sunt adesea folosite pentru a indica legături, ceea ce înseamnă că au similarități în utilizare, așa că sunt aproape unul de celălalt în graficul relației:
Dacă vă aprofundați în diagrama relațiilor emoji, vă puteți reîmprospăta percepția asupra unor emoji.
Cum se calculează relația dintre emoji?
În continuare vă vom oferi o descriere detaliată a procesului de calcul. Poate fi împărțit aproximativ în următoarele trei etape:
- În primul rând, folosim algoritmul TF-IDF pentru a extrage etichetele fiecărui emoji din tweet-uri și greutatea corespunzătoare fiecărei etichete. Etichetele se referă la acele cuvinte care sunt cel mai strâns legate de emoji, care sunt echivalente cu caracteristicile unui emoji; iar greutățile se referă la apropierea relației dintre etichete și emoji, cu cât greutatea este mai mare, cu atât relația este mai strânsă. Despre algoritmul și procesul de calcul al obținerii etichetelor, am scris un articol pentru a-l prezenta în detaliu, puteți face clic pe linkul din dreapta pentru a-l citi: ☁️Emoji Tag Cloud: vă ajută să obțineți mai multe cunoștințe despre Emoji!
- După obținerea etichetelor, apare o nouă problemă. Când vine vorba de calcule, știm cu toții că, în general, doar valorile numerice pot fi calculate, dar etichetele sunt prezentate ca text, deci cum pot fi calculate algoritmic? Prin urmare, al doilea pas este de a converti textul în valori numerice care pot fi calculate—— Vector . Acest proces se numește Word Embedding . Mai întâi trebuie să citim o cantitate mare de date tweet folosind algoritmul word2vec (una dintre metodele de încorporare a cuvintelor) pentru a transforma fiecare cuvânt din text într-un vector, apoi putem obține o matrice de încorporare a cuvintelor constând din toți vectorii de dimensiuni mari. de cuvinte, iar mai târziu mapați fiecare cuvânt corespunzător fiecărei etichete pe care l-am obținut în primul pas într-un vector de dimensiuni mari prin matricea de încorporare a cuvintelor. Astfel, am finalizat conversia text-to-vector. Acești vectori dimensionali înalți sunt calculați prin analiza contextului textului, care poate păstra bine informația semantică a fiecărui cuvânt și astfel asigură acuratețea asemănării textului. Algoritmul word2vec este explicat și în detaliu în blogul nostru, dacă doriți mai multe detalii îl puteți citi: 🔍Emoji Sentiment Analysis
- Ultimul pas este de a calcula asemănarea textului dintre emoji. Algoritmul folosit în mod obișnuit pentru a calcula similaritatea textului este VSM (Vector Space Model) . Acesta este unul dintre cele mai utilizate modele de calcul a similitudinii, dar obține rezultate prin calcularea cuvintelor concomitente (cuvinte care apar în ambele texte) a două texte, ceea ce nu este corect atunci când se confruntă cu texte cu același înțeles, dar cu o formulare diferită. pentru a evita această situație, am ales un alt algoritm—— SCM (Soft Cosine Measure) . Poate măsura asemănarea dintre cuvinte, așa că, chiar dacă două texte nu au cuvinte în comun, acest algoritm poate calcula asemănarea a două texte prin evaluarea asemănării cuvântului. După ce folosim SCM pentru a măsura vectorul, cu cât este mai mare valoarea pe care o obținem înseamnă cu atât mai mare este similaritatea textului dintre emoji și cu cât este mai mare similaritatea textului, cu atât mai strânsă relația lor.
Concluzie
Prin intermediul graficului de relații, putem înțelege obiceiurile și preferințele oamenilor de a folosi emoji și putem explora tendințele de utilizare a emoji-urilor. S-ar putea să fii surprins să descoperi că unele emoji-uri pe care nu le-ai asocia unele cu altele sunt de fapt foarte strâns legate și aceasta poate fi o nouă utilizare la modă a emoji-urilor pe care nu ai cunoscut-o încă! De asemenea, dacă aveți sugestii, vă rugăm să ne spuneți în comentariu!