V súčasnosti sa vytvára čoraz praktickejšie a zaujímavejšie použitie emotikonov, napríklad rôzne kategórie emotikonov sa budú kombinovať, aby sa z nich stal Meme, alebo zdanlivo nesúvisiace emotikony môžu byť skutočne použité na popísanie rovnakého významu, vďaka čomu emotikony postupne vytvárajú spojenie medzi ich. Chceme ukázať, tento vzťah medzi emodži vizuálne a umožňuje užívateľom mať hlbšie pochopenie využitie Emodži, takže použijeme stroj učiť algoritmy spočítať vzťah medzi emodži a čerpať výsledok do ľahký-k-rozumieť obraz, ktorý je emotikonov Vzťah Graf .
Čo je to Emoji Relationship Graf?
Je dobre známe, že emotikony sú zvyčajne prezentované ako obrázky, ale nie je možné zistiť vzťah medzi emoji a obrázkami, pretože hlavným použitím emotikonov je sprostredkovať informácie a emócie, sú skôr ako jazyk, takže to bude presnejšie preskúmať ich vzťah prostredníctvom významu a použitia emodži. Preto sme získali všetky tweety obsahujúce emoji od roku 2018 do roku 2021 v celkovom objeme 812 miliónov tweetov . Vzhľadom na to, že používanie emotikonov sa bude v rôznych jazykových prostrediach líšiť, klasifikovali sme tweety podľa jazyka a potom sme vypočítali podobnosť textu medzi emotikonmi v každom jazyku pomocou algoritmu strojového učenia, aby sme pre každý jazyk získali zodpovedajúci graf vzťahov emodži.
Ako porozumieť grafu vzťahov Emoji?
Toto je graf vzťahov Emoji pre 👉 pre španielčinu. Červený rámček zobrazuje 9 najbližších emoji, dĺžka lúča predstavuje stupeň vzťahu, čím kratší je lúč, tým je vzťah bližší. Okrem toho graf zobrazuje aj časť grafu vzťahu iných emotikonov. V čiernom rámčeku je graf vzťahu 👆,a v oranžovom rámčeku je graf vzťahu ⤵ .
Výsledky vyjadrené v grafe vzťahov nám umožňujú lepšie pochopiť používanie emotikonov. Napríklad tieto dve 👈 🥺 👉sa v posledných rokoch často používajú v kombinácii s na vyjadrenie utrápeného, hanblivého alebo prosebného, takže sa objavujú v tomto grafe vzťahu:
Tieto dva emotikony sa často používajú na označenie odkazov, čo znamená, že majú podobnosti v používaní, takže sú v grafe vzťahov blízko seba:
Ak sa ponoríte do grafu vzťahu emotikonov, môžete si osviežiť vnímanie niektorých emotikonov.
Ako vypočítať vzťah medzi emoji?
Ďalej vám poskytneme podrobný popis procesu výpočtu. Dá sa zhruba rozdeliť do nasledujúcich troch krokov:
- Najprv použijeme algoritmus TF-IDF na extrahovanie značiek každého emoji z tweetov a hmotnosti zodpovedajúcej každej značke. Tagy sa týkajú tých slov, ktoré sú najbližšie k emoji a ktoré sú ekvivalentné charakteristikám emotikonu; a váhy označujú blízkosť vzťahu medzi značkami a ikonami emoji, čím vyššia je váha, tým je vzťah užší. O algoritme a procese výpočtu získavania značiek sme napísali článok, v ktorom ho podrobne predstavíme, môžete si ho prečítať kliknutím na správny odkaz: ☁️Emoji Tag Cloud: Pomôžte vám získať viac vedomostí o Emoji!
- Po získaní štítkov nastáva nový problém. Pokiaľ ide o výpočty, všetci vieme, že vo všeobecnosti možno vypočítať iba číselné hodnoty, ale značky sú prezentované ako text, takže ako ich možno vypočítať algoritmicky? Preto je naším druhým krokom prevod textu na číselné hodnoty, ktoré je možné vypočítať—— Vector . Tento proces sa nazýva vkladanie slov . Najprv musíme prečítať veľké množstvo tweetových údajov pomocou algoritmu word2vec (jedna z metód vkladania slov), aby sme každé slovo v texte transformovali na vektor, potom môžeme získať maticu vkladania slov pozostávajúcu zo všetkých vysokorozmerných vektorov. slov a neskôr zmapovať každé slovo zodpovedajúce každej značke, ktorú sme získali v prvom kroku, do vysokorozmerného vektora prostredníctvom matice na vkladanie slov. Tým sme dokončili prevod textu na vektor. Tieto vysokorozmerné vektory sa vypočítavajú analýzou kontextu textu, ktorý dokáže dobre zachovať sémantickú informáciu každého slova a tým zabezpečiť presnosť podobnosti textu. Algoritmus word2vec je tiež podrobne vysvetlený v našom blogu, ak chcete viac podrobností, môžete si ho prečítať: 🔍Emoji Sentiment Analysis
- Posledným krokom je výpočet podobnosti textu medzi emotikonmi. Algoritmus bežne používaný na výpočet podobnosti textu je VSM (Vector Space Model) . Toto je jeden z najpoužívanejších modelov na výpočet podobnosti, ale výsledky sa získavajú výpočtom súčasne sa vyskytujúcich slov (slová, ktoré sa vyskytujú v oboch textoch) dvoch textov, čo nie je presné, keď sa stretávame s textami s rovnakým významom, ale odlišným znením. aby sme sa vyhli tejto situácii, zvolili sme iný algoritmus — SCM (Soft Cosine Measure) . Dokáže merať podobnosť medzi slovami, takže aj keď dva texty nemajú slová spoločné, tento algoritmus dokáže vypočítať podobnosť dvoch textov vyhodnotením podobnosti slov. Potom, čo použijeme SCM na meranie vektora, čím väčšia hodnota získame, tým vyššia je podobnosť textu medzi emotikonmi a čím vyššia je podobnosť textu, tým užší je ich vzťah.
Záver
Prostredníctvom grafu vzťahov môžeme pochopiť zvyky a preferencie ľudí pri používaní emotikonov a preskúmať trend používania emotikonov. Možno budete prekvapení, keď zistíte, že niektoré emotikony, ktoré by ste si navzájom nespájali, sú v skutočnosti veľmi úzko spojené, a to môže byť nové trendové použitie emotikonov, ktoré ste ešte nepoznali! Tiež, ak máte nejaké návrhy, povedzte nám ich v komentári!