V dnešní době se vytváří stále praktičtější a zajímavější použití emotikonů, například různé kategorie emotikonů budou kombinovány dohromady, aby se staly memem, nebo zdánlivě nesouvisející emotikony lze ve skutečnosti použít k popisu stejného významu, díky čemuž emotikony postupně vytvářejí spojení mezi jim. Chceme ukázat, tento vztah mezi emodži vizuálně a umožňuje uživatelům mít hlubší pochopení využití Emodži, takže použijeme stroj učit algoritmy spočítat vztah mezi emodži a čerpat výsledek do snadný-k-rozumět obraz, který je emotikonů Vztah Graf .
Co je to graf vztahu emodži?
Je dobře známo, že emotikony jsou obvykle prezentovány jako obrázky, ale není možné zjistit vztah mezi emotikony a obrázky, protože hlavním použitím emotikonů je předávání informací a emocí, jsou spíše jako jazyk, takže to bude přesnější prozkoumat jejich vztah prostřednictvím významu a použití emotikonů. Proto jsme získali všechny tweety obsahující emotikony od roku 2018 do roku 2021, celkem 812 milionů tweetů . Vzhledem k tomu, že použití emotikonů se bude v různých jazykových prostředích lišit, klasifikovali jsme tweety podle jazyka a poté jsme vypočítali podobnost textu mezi emotikony v každém jazyce pomocí algoritmu strojového učení, abychom pro každý jazyk získali odpovídající graf vztahu emodži.
Jak porozumět grafu vztahů Emoji?
Toto je graf vztahu Emoji pro 👉 pro španělštinu. Červené pole zobrazuje 9 nejbližších emoji, délka paprsku představuje stupeň vztahu, čím kratší je paprsek, tím je vztah bližší. Kromě toho graf zobrazuje také část grafu vztahu jiných emotikonů. V černém poli je graf vztahu 👆 ,a v oranžovém poli je graf vztahu ⤵ .
Výsledky odrážející se v grafu vztahů nám umožňují lépe porozumět používání emotikonů. Například tato dvě 👈 🥺 👉se v posledních letech často používají jako kombinace sk vyjádření zarmouceného, stydlivého nebo prosebného, takže se objevují v tomto grafu vztahu:
Tyto dvě emotikony se často používají k označení odkazů, což znamená, že mají podobnosti v použití, takže jsou blízko sebe v grafu vztahů:
Pokud se ponoříte do grafu vztahu emotikonů, můžete si osvěžit vnímání některých emotikonů.
Jak vypočítat vztah mezi emotikony?
Dále vám podrobně popíšeme proces výpočtu. Dá se zhruba rozdělit do následujících tří kroků:
- Nejprve používáme algoritmus TF-IDF k extrahování značek každého emotikonu z tweetů a hmotnosti odpovídající každé značce. Tagy označují slova, která jsou nejblíže související s emoji, která jsou ekvivalentní charakteristikám emotikonu; a váhy odkazují na blízkost vztahu mezi tagy a emotikony, čím vyšší je váha, tím je vztah bližší. O algoritmu a procesu výpočtu získávání značek jsme napsali článek, který jej podrobně představí, můžete si jej přečíst kliknutím na správný odkaz: ☁️Emoji Tag Cloud: Pomůže vám získat více znalostí o Emoji!
- Po získání štítků nastává nový problém. Pokud jde o výpočty, všichni víme, že obecně lze vypočítat pouze číselné hodnoty, ale značky jsou prezentovány jako text, takže jak je lze vypočítat algoritmicky? Naším druhým krokem je tedy převod textu na číselné hodnoty, které lze vypočítat —— Vector . Tento proces se nazývá vkládání slov . Nejprve potřebujeme přečíst velké množství tweetových dat pomocí algoritmu word2vec (jedna z metod vkládání slov), abychom každé slovo v textu převedli na vektor, pak můžeme získat matici vkládání slov sestávající ze všech vysokorozměrných vektorů. slov a později mapovat každé slovo odpovídající každému tagu, který jsme získali v prvním kroku, do vysokorozměrného vektoru prostřednictvím matice vkládání slov. Tím jsme dokončili převod textu na vektor. Tyto vysokorozměrné vektory se vypočítávají analýzou kontextu textu, což může dobře zachovat sémantickou informaci každého slova a zajistit tak přesnost podobnosti textu. Algoritmus word2vec je také podrobně vysvětlen na našem blogu, pokud chcete další podrobnosti, můžete si jej přečíst: 🔍Emoji Sentiment Analysis
- Posledním krokem je výpočet podobnosti textu mezi emotikony. Algoritmus běžně používaný pro výpočet podobnosti textu je VSM (Vector Space Model) . Toto je jeden z nejrozšířenějších modelů výpočtu podobnosti, ale výsledky získává výpočtem současně se vyskytujících slov (slov, která se vyskytují v obou textech) dvou textů, což není přesné, když čelíme textům se stejným významem, ale odlišným zněním. abychom se této situaci vyhnuli, zvolili jsme jiný algoritmus — SCM (Soft Cosine Measure) . Dokáže měřit podobnost mezi slovy, takže i když dva texty nemají slova společná, tento algoritmus dokáže vypočítat podobnost dvou textů vyhodnocením podobnosti slov. Poté, co použijeme SCM k měření vektoru, čím větší hodnotu získáme, tím vyšší je podobnost textu mezi emotikony a čím vyšší je podobnost textu, tím je jejich vztah bližší.
Závěr
Prostřednictvím grafu vztahů můžeme porozumět zvykům a preferencím lidí při používání emotikonů a prozkoumat trend používání emotikonů. Možná budete překvapeni, když zjistíte, že některé emotikony, které byste si navzájem nespojili, spolu ve skutečnosti velmi úzce souvisí, a to může být nové trendové použití emotikonů, které jste ještě neznali! Také, pokud máte nějaké návrhy, řekněte nám je v komentáři!