Кожен емодзі особливий. Якщо ви правильно проаналізуєте його, ви зможете дізнатися багато інформації, як-от значення, категорію, пов’язану тему, навіть деяке унікальне використання емодзі з першого погляду👀. Після того, як ми виконаємо велику кількість обчислень та аналізу кожного смайла, ми нарешті отримуємо хмару тегів Emoji , ключові слова та фрази, пов’язані з конкретним смайлом, і представляємо їх у новаторському візуальному вигляді.

🔺Хмара тегів смайлів [єдиноріг🦄]

Як ми отримуємо теги?

Як ми всі знаємо, Twitter — це всесвітньо відома соціальна мережа, і люди люблять твітити тексти за допомогою емодзі, щоб висловити свої емоції або просто як прикраса. Більшість наших тегів з твітів у всьому світі. Ми аналізуємо твіти з 2018.01 по 2021.11 і витягуємо теги з 812 мільйонів твітів, які містять смайли. Потім ми використовуємо статистичні дані та алгоритми, щоб вибрати тексти, які мають велике значення для певного емодзі, і розрізнити мову. Завдяки цьому ми навіть можемо знати, як емодзі використовується в різних країнах.

Тут ми використовуємо англійський сайт як приклад. Ці 2 смайли на нашій англійській сторінці: 😎 (усміхнене обличчя в сонцезахисних окулярах) і 🦄 (єдиноріг). Ми виконуємо для них вилучення тегів і отримуємо такі слова, як [cool] або [nicki] .

Тут з’являється нова проблема❓: Звичайно, є багато текстів, пов’язаних із емодзі, а потім як ми вибираємо найбільш підходящий тег і як їх розташовувати?

У цій ситуації вони залучають додаткові алгоритми.

Професійне пояснення технології вилучення тегів

Існує багато типів технологій виділення тегів з різними ефектами, наприклад, вилучення абстрактних для статей і алгоритмів позначення ключових слів для коротких текстів. Наше «Вилучення тегів Emoji Cloud-Twitter» засновано на алгоритмі TF-IDF . Це здійснювалося за допомогою модифікованого процесу, заснованого на характеристиках даних Twitter, який є неконтрольованим алгоритмом вилучення короткої текстової мітки.

Щоб полегшити розуміння, ми підсумовуємо процедуру вилучення тегів у 3 кроки.

  • По- перше, ми виконуємо Emoji вилучення та очищення тексту для кожного твіту з місяця , як єдине ціле, тим видалити і прізвиська , як [@xx], [#XX], і видалити твіт URL. Під час очищення тексту ми також фільтруємо стоп-слова різними мовами (наприклад, видаляємо деякі модальні частки, такі як ah, oh тощо), абревіатури, словоформи, великі літери та інші фактори, нарешті отримуємо дані про частоту слів, що відповідають кожному емоджі. .
  • По-друге, ми використовуємо алгоритм представлення тексту TF-IDF (термін частота інверсної частоти документа), щоб обчислити початкову вагу тексту етикетки на основі результатів, отриманих на попередньому кроці.
  • Формула розрахунку: TF-IDF = TF * IDF

    TF (Частота термінів) отримується шляхом ділення кількості повторень слова, що відповідає емодзі, на загальну кількість слів, що відповідають емодзі. IDF – це інверсна частота документів, IDF = log( N / N(w) ) , тоді як [N] представляє загальну кількість смайлів, [N(w)] – кількість емодзі, що містять слово [w].

    🔺Якщо слово з’являється як в emojiA, так і в emojiB, це означає, що це слово недостатньо репрезентативно, і вагу цього слова слід зменшити. З формули IDF = log( N / N(w) ), можна побачити, що діапазон IDF від 0 до позитивної нескінченності зменшується зі збільшенням N(w).

    Якщо термін зустрічається більше разів у статті, це означає, що вага терміна більша. Однак найчастіше зустрічаються слова, які виражають тон або не мають реального значення, наприклад [aww], [oh] або [RT]. Важко уникнути фільтрації таких слів, якщо сортувати та фільтрувати лише значення TF. Таким чином, інверсний номер документа IDF вводиться як обмеження, щоб обчислити більш точне значення для представлення ваги тексту етикетки.

    Наприкінці кроку 2 ми відфільтруємо записи, які відображаються понад 15% від загальної кількості смайлів.

  • Розраховані на перших двох кроках одиниці — це місячні дані, а загальні дані — чотири роки. На останньому кроці ми виконаємо ще один раунд консолідованих статистичних розрахунків для всіх місячних даних.
  • Перетворіть обчислені чотирирічні дані твітів у форму [(sum(tfidf_m) / M) * log(M)] , а потім обчисліть вагу кожного запису тегу. [sum(tfidf_m)] являє собою суму значень TF-IDF терміну в кожному місяці, а [M] представляє кількість місяців, у яких з'являється термін.

Таким чином, це приблизний метод обчислення даних тегу emoji. Після підсумовування остаточних даних ми також вручну перевіримо та відфільтруємо відповідно до мови, щоб отримати точніші результати тегів.


Крім того, теги також використовуватимуть короткі назви CLDR та ключові слова CLDR для довідки, вони є основним текстом тегу, що означає, що ви завжди бачитимете деякі з цих слів у хмарі тегів Emoji.

🔺 Коли смайлик надсилається до Unicode Consortium, у його пропозиції необхідно мати коротку назву CLDR та ключові слова CLDR, тому ці слова повинні враховуватися при виборі тегу. Інформацію про емодзі [єдиноріг🦄], ми помістили його коротку назву та деякі ключові слова в його хмару тегів.

Як використовувати нашу хмару тегів Emoji?

Ми давно випустили хмару тегів Emoji. Особисто я вважаю, що це дуже кумедний і корисний інструмент для спостереження за конкретним смайлом, іноді ви навіть можете знати, яка група чи популярна тема вважають за краще використовувати цей смайлик. Дозвольте мені показати вам, як використовувати нашу хмару тегів Emoji!

Як згадувалося вище, вага кожного тексту тегу різна. Ви можете просто оцінити співвідношення між тегами та емодзі за розміром кола (чим більше, тим релевантнішим). Або ви можете навести курсор миші на коло, там з’явиться невеликий квадрат із [число, текст тегу]. У цій ситуації, чим менше число, тег у цьому колі більше відповідає емодзі. Ви також можете натиснути ці теги, щоб шукати інші пов’язані смайли!

Проте ми використовуємо єдинорога як приклад. Хмара тегів смайлів [єдиноріг 🦄 ] виглядає нижче:

Як бачите, 5 найкращих тегів 🦄 — це [unicorn], [nicki], [unicorns], [plt] і [barbz] .

Слово [єдиноріг] — це коротка назва цього смайла в CLDR, а решта 4 тегів витягнуті з twitter. [nicki] і [barbz] пов’язані з Нікі Мінаж та її групою фанатів , а слово [plt] відноситься до [Pretty Little Thing] , британського роздрібного продавця одягу або просто цієї фрази. 🦄 це популярний смайлик у SNS і дуже репрезентативний смайлик для шанувальників Нікі Мінаж. Якщо ви любите Нікі, вам точно варто скористатися цим смайлом!


Загалом, використовуючи нашу хмару тегів Emoji , ви можете легко дізнатися пов’язаний вміст певного емодзі, можливо, ви навіть зможете дізнатися більше про поп-культуру та уникнути збентеження, не знаючи основного та розширеного значення смайлів. Іноді використання емодзі може стати соціальним явищем, як-от цей емодзі 🥺 в Японії. Як емодзі для вираження жебрацтва, образи чи любові, це слово «ぴえん🥺» виграло «JC&JK Buzzword Awards 2019», «2019 Gal Buzzword Award» 2-е місце, перше місце «Instagram Buzzword Award за першу половину 2020» і став трендом емодзі по всій Японії! У цьому випадку для деяких людей хмара тегів Emoji також є чудовим інструментом, щоб дізнатися про інтернет-культуру, все залежить від того, як ви її використовуєте.

Все це для того, щоб вивчити більше використання смайлів, і сподіваюся, що ви знайдете смайли цікавими та інформативними. Щоб надати вам точний вміст, пов’язаний із емодзі, дані також постійно оновлюватимуться. Якщо у вас є додаткові поради щодо хмари тегів Emoji, повідомте нас у коментарях нижче👇!


Функція Меню

Категорії

колір шкіри

зачіска

Стать

Сентимент

Версія