Fiecare emoji este special. Atâta timp cât îl analizați într-un mod corect, puteți afla multe informații, cum ar fi semnificații, categorie, subiect asociat, chiar și o utilizare unică a unui emoji dintr-o privire👀. După ce efectuăm o cantitate mare de calcule și analize pentru fiecare emoji, obținem în sfârșit Emoji Tag Cloud , cuvinte cheie și expresii legate de un anumit emoji și îl reprezentăm într-un mod vizual nou.

🔺Norul de etichete de emoji [unicorn🦄]

Cum obținem etichetele?

După cum știm cu toții, Twitter este un serviciu de rețele sociale celebru la nivel mondial, iar oamenilor le place să tweeteze texte cu emoji-uri pentru a-și exprima emoțiile sau doar ca decor. Majoritatea etichetelor noastre provin din tweet-uri din întreaga lume. Analizăm tweet-urile din 2018.01 până în 2021.11 și extragem etichetele din 812 milioane de tweet-uri care conțin emoji-uri. Apoi folosim statistici și algoritmi pentru a alege textele care sunt foarte relevante pentru un anumit emoji și pentru a distinge limba. Prin aceasta, putem chiar să știm cum este folosit un emoji în diferite țări.

Aici folosim site-ul în limba engleză ca exemplu. Aceste 2 emoji-uri din pagina noastră de engleză: 😎 (față zâmbitoare cu ochelari de soare) și 🦄 (unicorn). Efectuăm extragerea etichetelor la ele și obținem cuvinte precum [cool] sau [nicki] .

Aici apare o nouă problemă❓: Desigur, există o mulțime de texte legate de un emoji, apoi cum alegem eticheta cea mai potrivită și cum să le aranjam?

În această situație, ele implică alți algoritmi.

Explicația tehnologiei profesionale a extragerii etichetelor

Există multe tipuri de tehnologii de extragere a etichetelor cu efecte diferite, cum ar fi extracția abstractă pentru articole și algoritmi de etichetare a cuvintelor cheie pentru texte scurte. „Extragerea etichetelor Emoji Tag Cloud-Twitter” se bazează pe algoritmul TF-IDF . S-a desfășurat cu un proces modificat bazat pe caracteristicile datelor Twitter, care este un algoritm nesupravegheat de extragere a etichetelor de text scurt.

Pentru a facilita înțelegerea, aici rezumăm procedura de extragere a etichetelor în 3 pași.

  • În primul rând, efectuăm extragerea emoji-urilor și curățarea textului pentru fiecare tweet cu o lună ca unitate, eliminăm subiecte și porecle precum [@xx], [#xx] și ștergem adresa URL a tweetului. În timpul curățării textului, filtrem, de asemenea, cuvintele de oprire în diferite limbi (de exemplu, eliminăm unele particule modale cum ar fi ah, oh etc.), abrevieri, forme de cuvinte, scriere cu majuscule și alți factori, în cele din urmă obținem informații despre frecvența cuvintelor corespunzătoare fiecărui emoji .
  • În al doilea rând, folosim algoritmul de reprezentare a textului TF-IDF (termen frecvență-inverse document frecvență) pentru a calcula o greutate inițială a textului etichetei pe baza rezultatelor obținute în pasul anterior.
  • Formula de calcul este: TF-IDF = TF * IDF

    TF (Term Frequency) se obține prin împărțirea numărului de apariții ale unui cuvânt corespunzător unui emoji la numărul total de cuvinte corespunzător emoji-ului. IDF este Frecvența inversă a documentului, IDF = log( N / N(w) ) , în timp ce [N] reprezintă numărul total de emoji-uri, [N(w)] reprezintă numărul de emoji-uri care conțin cuvântul [w].

    🔺Când un cuvânt apare atât în emojiA cât și în emojiB, înseamnă că cuvântul nu este suficient de reprezentativ, iar greutatea acestui cuvânt ar trebui redusă. Din formula IDF = log( N / N(w) ), se poate observa că intervalul IDF între 0 și infinitul pozitiv scade odată cu creșterea lui N(w).

    Când un termen apare de mai multe ori într-un articol, înseamnă că ponderea termenului este mai mare. Cu toate acestea, cuvintele care apar cel mai des sunt cuvinte care exprimă ton sau nu au un sens real, cum ar fi [aww], [oh] sau [RT]. Este dificil de evitat filtrarea unor astfel de cuvinte, dacă doar sortarea și filtrarea după valoarea TF. Deci numărul de document invers IDF este introdus ca o constrângere, pentru a calcula o valoare mai precisă care să reprezinte greutatea textului etichetei.

    La sfârșitul pasului 2, vom filtra intrările care apar mai mult de 15% din numărul total de emoji-uri.

  • Unitățile calculate în primii doi pași sunt date lunare, iar datele totale sunt de patru ani. La ultimul pas, vom efectua o altă rundă de calcule statistice consolidate pe toate datele lunare.
  • Convertiți datele de tweet calculate pe patru ani în forma [(sum(tfidf_m) / M) * log(M)] și calculați în continuare greutatea fiecărei intrări de etichetă. [sum(tfidf_m)] reprezintă suma valorilor TF-IDF ale termenului în fiecare lună, iar [M] reprezintă numărul de luni în care apare termenul.

Aceasta este, deci, metoda aproximativă de calcul a datelor etichetelor emoji. După ce datele finale sunt rezumate, vom verifica și filtra manual, de asemenea, în funcție de limbă, pentru a obține rezultate mai precise ale etichetelor.


În plus, etichetele vor folosi, de asemenea, numele scurt CLDR și cuvintele cheie CLDR pentru referință, ele sunt cel mai elementar text de etichetă, ceea ce înseamnă că veți vedea întotdeauna unele dintre aceste cuvinte în Emoji Tag Cloud.

🔺 Când un emoji este trimis la Unicode Consortium, este necesar să aveți în propunere un nume scurt CLDR și cuvinte cheie CLDR, așa că aceste cuvinte trebuie să ia în considerare alegerea etichetei. Informațiile despre emoji [unicorn🦄], am pus numele scurt și câteva cuvinte cheie în norul de etichete.

Cum să folosiți Emoji Tag Cloud?

A trecut destul de mult timp când am lansat Emoji Tag Cloud. Personal, cred că este un instrument foarte amuzant și util pentru a observa un anumit emoji, uneori poți chiar să știi ce grup sau subiect în tendințe preferă să folosească acest emoji. Permiteți-mi să vă arăt cum să utilizați Emoji Tag Cloud!

După cum sa menționat mai sus, greutatea fiecărui text de etichetă este diferită. Puteți judeca pur și simplu corelația dintre etichete și emoji după dimensiunea cercului (cu cât este mai mare, cu atât mai relevant). Sau puteți pune mouse-ul pe cerc, va apărea un pătrat mic cu [număr, text etichetă]. În această situație, cu cât numărul este mai mic, eticheta din acest cerc este mai relevantă pentru emoji. De asemenea, puteți da clic pe aceste etichete pentru a căuta alte emoji-uri similare!

Cu toate acestea, folosim unicorn ca exemplu. Norul de etichete de emoji [unicorn 🦄 ] este ca mai jos:

După cum puteți vedea, primele 5 etichete ale 🦄 sunt [unicorn], [nicki], [unicorni], [plt] și [barbz] .

Cuvântul [unicorn] este numele scurt CLDR al acestui emoji, iar restul de 4 etichete sunt toate extrase din Twitter. [nicki] și [barbz] sunt legate de Nicki Minaj și grupul ei de fani , iar cuvântul [plt] se referă la [Pretty Little Thing] , un comerciant de modă din Marea Britanie sau doar această expresie. 🦄 este un emoji popular în SNS și un emoji foarte reprezentativ pentru fanii Nicki Minaj. Dacă o iubești pe Nicki, cu siguranță ar trebui să folosești acest emoji!


Una peste alta, folosind Emoji Tag Cloud , puteți afla cu ușurință conținutul asociat unui anumit emoji, poate puteți chiar să aflați mai multe despre cultura pop și să evitați jena de a nu cunoaște semnificația de bază și extinsă a unui emoji. Uneori, utilizarea unui emoji poate deveni un fenomen social, cum ar fi acest emoji 🥺 în Japonia. Ca emoji pentru a exprima cerșirea, nemulțumirea sau frumusețea, acest cuvânt „ぴえん🥺” a câștigat „JC&JK Buzzword Awards 2019”, „2019 Gal Buzzword Award” locul 2, primul loc în „Instagram Buzzword Award pentru prima jumătate a anului”. 2020” și a devenit un emoji de tendință în toată Japonia! În acest caz, pentru unii oameni, Emoji Tag Cloud este, de asemenea, un instrument excelent pentru a cunoaște cultura internetului, totul depinde de modul în care îl utilizați.

Toate acestea sunt pentru a explora mai multă utilizare a emoji-urilor și sperăm că emoji-urile sunt interesante și informative. Pentru a vă oferi conținut corect legat de emoji, datele se vor actualiza în continuare. Dacă aveți mai multe sfaturi despre Emoji Tag Cloud, vă rugăm să ne spuneți în comentariile de mai jos👇!