Każdy emoji jest wyjątkowy. Jeśli przeanalizujesz je we właściwy sposób, na pierwszy rzut oka możesz znaleźć wiele informacji, takich jak znaczenia, kategoria, pokrewny temat, a nawet unikalne użycie emotikonów👀. Po wykonaniu dużej ilości obliczeń i analiz dla każdego emoji, w końcu otrzymujemy Emoji Tag Cloud , słowa kluczowe i frazy związane z konkretnym emoji i przedstawiamy je w nowatorski sposób wizualny.

🔺Chmura tagów emoji [jednorożec🦄]

Jak otrzymujemy tagi?

Jak wszyscy wiemy, Twitter to znany na całym świecie serwis społecznościowy, a ludzie lubią tweetować teksty za pomocą emotikonów, aby wyrazić swoje emocje lub po prostu jako dekorację. Większość naszych tagów pochodzi z tweetów z całego świata. Analizujemy tweety od 2018.01 do 2021.11 i wyodrębniamy tagi z 812 milionów tweetów zawierających emotikony. Następnie używamy statystyk i algorytmów, aby wybrać teksty, które są bardzo związane z konkretnym emoji i rozróżnić język. Dzięki temu możemy nawet wiedzieć, w jaki sposób emoji jest używane w innym kraju.

Tutaj jako przykładu używamy strony w języku angielskim. Te 2 emotikony na naszej stronie w języku angielskim: 😎 (uśmiechnięta twarz w okularach przeciwsłonecznych) i 🦄 (jednorożec). Wykonujemy do nich wyodrębnianie tagów i otrzymujemy słowa takie jak [fajny] lub [nicki] .

Tutaj pojawia się nowy problem❓: Oczywiście jest wiele tekstów związanych z emoji, więc jak wybrać najbardziej odpowiedni tag i jak je rozmieścić?

W tej sytuacji wymagają dalszych algorytmów.

Profesjonalne wyjaśnienie technologii ekstrakcji tagów

Istnieje wiele rodzajów technologii wyodrębniania znaczników o różnych efektach, takich jak wyodrębnianie abstraktów dla artykułów i algorytmy oznaczania słów kluczowych dla krótkich tekstów. Nasze „Wyodrębnianie tagów z chmury tagów emoji i Twittera” jest oparte na algorytmie TF-IDF . Przeprowadzono go w zmodyfikowanym procesie opartym na charakterystyce danych z Twittera, który jest nienadzorowanym algorytmem wyodrębniania krótkich etykiet tekstowych.

Aby ułatwić zrozumienie, tutaj podsumowujemy procedurę wyodrębniania tagów w 3 krokach.

  • Najpierw wykonujemy ekstrakcję emoji i czyszczenie tekstu dla każdego tweeta z miesiącem jako jednostka, usuwamy tematy i pseudonimy, takie jak [@xx], [#xx] i usuwamy adres URL tweeta. Podczas czyszczenia tekstu filtrujemy również słowa stop w różnych językach (na przykład usuwamy niektóre cząsteczki modalne, takie jak ah, oh, itp.), skróty, formy słów, wielkość liter i inne czynniki, w końcu uzyskujemy dane o częstotliwości słów odpowiadające każdemu emoji .
  • Po drugie, używamy algorytmu reprezentacji tekstu TF-IDF (termin frequency-inverse document frequency) do obliczania początkowej wagi tekstu etykiety na podstawie wyników uzyskanych w poprzednim kroku.
  • Wzór obliczeniowy to: TF-IDF = TF * IDF

    TF (częstotliwość terminów) jest otrzymywana przez podzielenie liczby wystąpień słowa odpowiadającego emoji przez całkowitą liczbę słów odpowiadających emoji. IDF to odwrotna częstotliwość dokumentu, IDF = log( N / N(w) ) , podczas gdy [N] reprezentuje całkowitą liczbę emotikonów, [N(w)] reprezentuje liczbę emotikonów zawierających słowo [w].

    🔺Gdy słowo pojawia się zarówno w emojiA, jak i emojiB, oznacza to, że słowo nie jest wystarczająco reprezentatywne i należy zmniejszyć wagę tego słowa. Ze wzoru IDF = log(N/N(w)), można zauważyć, że zakres IDF pomiędzy 0 a dodatnią nieskończonością maleje wraz ze wzrostem N(w).

    Gdy termin pojawia się w artykule więcej razy, oznacza to, że waga tego terminu jest większa. Jednak słowa, które pojawiają się najczęściej, to słowa wyrażające ton lub nie mające rzeczywistego znaczenia, takie jak [aww], [oh] lub [RT]. Trudno uniknąć filtrowania takich słów, choćby tylko sortując i filtrując według wartości TF. Tak więc odwrócony numer dokumentu IDF jest wprowadzony jako ograniczenie, aby obliczyć dokładniejszą wartość reprezentującą wagę tekstu etykiety.

    Pod koniec kroku 2 przefiltrujemy wpisy, które pojawiają się jako więcej niż 15% całkowitej liczby emotikonów.

  • Jednostki obliczone w pierwszych dwóch krokach to dane miesięczne, a łączne dane to cztery lata. W ostatnim kroku wykonamy kolejną rundę skonsolidowanych obliczeń statystycznych na wszystkich danych miesięcznych.
  • Przekształć obliczone czteroletnie dane z tweeta do postaci [(suma(tfidf_m) / M) * log(M)] i dalej oblicz wagę każdego wpisu w tagu. [sum(tfidf_m)] reprezentuje sumę wartości TF-IDF terminu w każdym miesiącu, a [M] reprezentuje liczbę miesięcy, w których pojawia się termin.

To jest zatem przybliżona metoda obliczania danych tagów emoji. Po podsumowaniu ostatecznych danych ręcznie sprawdzimy i przefiltrujemy według języka, aby uzyskać dokładniejsze wyniki tagów.


Ponadto tagi będą również używać krótkiej nazwy CLDR i słów kluczowych CLDR w celach informacyjnych, są to najbardziej podstawowy tekst tagów, co oznacza, że zawsze zobaczysz niektóre z tych słów w chmurze tagów Emoji.

🔺 Gdy emotikon jest przesyłany do Konsorcjum Unicode, konieczne jest, aby w jego ofercie znalazła się krótka nazwa CLDR i słowa kluczowe CLDR, więc te słowa muszą uwzględniać wybór tagów. Informacje o emoji [jednorożec🦄], umieściliśmy jego krótką nazwę i niektóre słowa kluczowe w jego chmurze tagów.

Jak korzystać z naszej chmury tagów Emoji?

Minęło sporo czasu, gdy wypuściliśmy chmurę tagów Emoji. Osobiście uważam, że jest to bardzo zabawne i przydatne narzędzie do obserwowania konkretnego emoji, czasami możesz nawet wiedzieć, która grupa lub popularny temat woli używać tego emoji. Pokażę Ci, jak korzystać z naszej chmury tagów Emoji!

Jak wspomniano powyżej, waga każdego tekstu tagu jest inna. Możesz po prostu ocenić korelację między tagami a emotikonami na podstawie rozmiaru koła (im większe, tym bardziej trafne). Możesz też umieścić mysz na kółku, pojawi się mały kwadrat z [liczba, tekst tagu]. W tej sytuacji im mniejsza liczba, tym tag w tym kółku jest bardziej odpowiedni dla emoji. Możesz także kliknąć te tagi, aby wyszukać inne powiązane emotikony!

Jako przykład używamy jednorożca. Chmura tagów emoji [jednorożec 🦄 ] jest taka jak poniżej:

Jak widać, 5 najpopularniejszych tagów 🦄 to [jednorożec], [nicki], [jednorożce], [plt] i [barbz] .

Słowo [jednorożec] to skrócona nazwa CLDR tego emoji, a pozostałe 4 tagi są pobierane z Twittera. [nicki] i [barbz] są spokrewnieni z Nicki Minaj i jej grupą fanów , a słowo [plt] odnosi się do [Pretty Little Thing] , brytyjskiego sprzedawcy mody lub po prostu do tego wyrażenia. 🦄 to popularny emoji w SNS i bardzo reprezentatywny emoji dla fanów Nicki Minaj. Jeśli kochasz Nicki, zdecydowanie powinieneś użyć tego emoji!


Podsumowując, korzystając z naszej Emoji Tag Cloud , możesz łatwo znaleźć powiązaną zawartość konkretnego emoji, a może nawet dowiedzieć się więcej o popkulturze i uniknąć zakłopotania z powodu nieznajomości podstawowego i rozszerzonego znaczenia emoji. Czasami używanie emoji może stać się fenomenem społecznym, takim jak ten emoji 🥺 w Japonii. Jako emoji wyrażające błaganie, żal lub urodę, to słowo „ぴえん🥺” zdobyło drugie miejsce w „JC&JK Buzzword Awards 2019”, „2019 Gal Buzzword Award”, pierwsze miejsce w „Instagram Buzzword Award za pierwszą połowę 2020” i stał się modnym emoji w całej Japonii! W tym przypadku dla niektórych osób Emoji Tag Cloud jest również świetnym narzędziem do poznawania kultury internetowej, wszystko zależy od tego, jak z niej korzystasz.

Wszystko to ma na celu zbadanie większego wykorzystania emoji i mam nadzieję, że okaże się, że emoji są interesujące i pouczające. Aby zapewnić Ci dokładne treści związane z emotikonami, dane będą również aktualizowane. Jeśli masz więcej porad na temat chmury tagów Emoji, daj nam znać w komentarzach poniżej👇!


Szukaj ostatnie Ostatnie Brak emotikonów ostatniego użycia emoji... Emojifikuj sukces