Каждый смайлик особенный. Если вы правильно проанализируете его, вы сможете с первого взгляда узнать много информации, такой как значения, категории, связанные темы, даже некоторые уникальные способы использования эмодзи👀. После того, как мы выполнили большой объем вычислений и анализа для каждого смайлика, мы, наконец, получили облако тегов Emoji , ключевые слова и фразы, связанные с конкретным смайликом, и представим его в новом визуальном виде.

🔺Облако тегов смайликов [единорог🦄]

Как мы получаем теги?

Как мы все знаем, Twitter - всемирно известная социальная сеть, и люди любят твитнуть тексты с смайликами, чтобы выразить свои эмоции или просто в качестве украшения. Большинство наших тегов - это твиты со всего мира. Мы анализируем твиты с 2018.01 по 2021.11 и извлекаем теги из 812 миллионов твитов, содержащих эмодзи. Затем мы используем статистику и алгоритмы, чтобы выбрать тексты, которые имеют непосредственное отношение к конкретному смайлику, и различить язык. Благодаря этому мы даже можем узнать, как смайлики используются в разных странах.

В качестве примера мы используем английский сайт. Эти 2 смайлика на нашей английской странице: 😎 (улыбающееся лицо в темных очках) и 🦄 (единорог). Мы извлекаем для них теги и получаем такие слова, как [круто] или [ники] .

! img_1

! img_2

Здесь возникает новая проблема❓: Конечно, есть много текстов, связанных с эмодзи, тогда как мы выбираем наиболее подходящий тег и как их расположить?

В этой ситуации они задействуют дополнительные алгоритмы.

Профессиональное технологическое объяснение извлечения тегов

Существует множество типов технологий извлечения тегов с различными эффектами, например извлечение абстрактных статей для статей и алгоритмы тегов по ключевым словам для коротких текстов. Наше «Облако тегов Emoji - извлечение тегов Twitter» основано на алгоритме TF-IDF . Он выполняется с помощью модифицированного процесса, основанного на характеристиках данных Twitter, который представляет собой неконтролируемый алгоритм извлечения коротких текстовых меток.

Чтобы облегчить понимание, здесь мы суммируем процедуру извлечения тегов в 3 этапа.

  • Сначала мы выполняем извлечение эмодзи и очистку текста для каждого твита с месяцем в качестве единицы, удаляем темы и псевдонимы, такие как [@xx], [#xx], и удаляем URL-адрес твита. Во время очистки текста мы также фильтруем стоп-слова на разных языках (например, удаляем некоторые модальные частицы, такие как ah, oh и т. Д.), Сокращения, словоформы, заглавные буквы и другие факторы, наконец, получаем данные о частоте слов, соответствующие каждому эмодзи. .
  • Во-вторых, мы используем алгоритм текстового представления TF-IDF (частота термина - обратная частота документа) для вычисления начального веса текста метки на основе результатов, полученных на предыдущем шаге.
  • Формула расчета: TF-IDF = TF * IDF.

    TF (Term Frequency) получается путем деления количества вхождений слова, соответствующего смайлику, на общее количество слов, соответствующих смайлику. IDF - это обратная частота документов, IDF = log (N / N (w)) , в то время как [N] представляет общее количество смайлов, [N (w)] представляет количество смайлов, содержащих слово [w].

    🔺Когда слово появляется как в emojiA, так и в emojiB, это означает, что слово недостаточно репрезентативно, и вес этого слова следует уменьшить. Из формулы IDF = log (N / N (w)) видно, что диапазон IDF между 0 и положительной бесконечностью уменьшается с увеличением N (w).

    Если термин встречается в статье несколько раз, это означает, что значение термина больше. Однако чаще всего встречаются слова, которые выражают тон или не имеют реального значения, например [aww], [oh] или [RT]. Избежать фильтрации таких слов сложно, если только сортировка и фильтрация по значению TF. Таким образом, обратный номер документа IDF вводится как ограничение, чтобы вычислить более точное значение для представления веса текста метки.

    В конце шага 2 мы отфильтруем записи, которые появляются более 15% от общего количества смайликов.

  • Единицы, рассчитанные на первых двух шагах, представляют собой ежемесячные данные, а общие данные составляют четыре года. На последнем этапе мы проведем еще один раунд консолидированных статистических расчетов по всем месячным данным.
  • Преобразуйте рассчитанные данные твита за четыре года в форму [(сумма (tfidf_m) / M) * log (M)] , а затем вычислите вес каждой записи тега. [sum (tfidf_m)] представляет собой сумму значений TF-IDF термина в каждом месяце, а [M] представляет количество месяцев, в которых появляется этот термин.

Таким образом, это приблизительный метод расчета данных тегов эмодзи. После обобщения окончательных данных мы также вручную проверим и отфильтруем их по языку, чтобы получить более точные результаты тегов.


Кроме того, теги также будут использовать короткое имя CLDR и ключевые слова CLDR для справки, они являются самым основным текстом тега, что означает, что вы всегда будете видеть некоторые из этих слов в облаке тегов Emoji.

🔺 Когда эмодзи отправляется в Консорциум Unicode, в его предложении необходимо иметь короткое имя CLDR и ключевые слова CLDR, поэтому эти слова должны учитываться при выборе тега. Информация об эмодзи [unicorn🦄], мы помещаем его короткое имя и некоторые ключевые слова в его облако тегов.

Как использовать наше облако тегов Emoji?

Мы давно выпустили облако тегов Emoji. Лично я считаю, что это очень забавный и полезный инструмент для наблюдения за конкретным смайликом, иногда вы даже можете узнать, какая группа или популярная тема предпочитают использовать этот смайлик. Позвольте мне показать вам, как использовать наше облако тегов Emoji!

Как упоминалось выше, вес каждого текста тега разный. Вы можете просто судить о корреляции между тегами и смайликами по размеру круга (чем больше, тем актуальнее). Или вы можете навести указатель мыши на круг, появится маленький квадрат с [число, текст тега]. В этой ситуации, чем меньше число, тем тег в этом круге более релевантен смайлику. Вы также можете щелкнуть эти теги, чтобы найти другие похожие смайлы!

Тем не менее, мы используем в качестве примера единорога. Облако тегов эмодзи [единорог 🦄 ] выглядит следующим образом:

! img_1

Как видите, пятерка лучших тегов 🦄 - это [unicorn], [nicki], [unicorns], [plt] и [barbz] .

Слово [единорог] - это краткое название этого смайлика в CLDR, а остальные 4 тега извлечены из твиттера. [nicki] и [barbz] связаны с Ники Минаж и ее фан-группой , а слово [plt] относится к [Pretty Little Thing] , британскому розничному продавцу модной одежды, или просто к этой фразе. 🦄 - это популярный смайлик в социальных сетях и очень представительный смайлик для поклонников Ники Минаж. Если вы любите Ники, вам обязательно стоит использовать этот смайлик!

! img_2


В общем, используя наше Облако тегов Emoji , вы можете легко узнать связанное содержание определенного смайлика, возможно, вы даже сможете узнать больше о поп-культуре и избежать смущения из-за незнания основного и расширенного значения смайлика. Иногда использование смайлов может стать социальным явлением, например, этот смайлик 🥺 в Японии. Как смайлик для выражения мольбы, обиды или красоты, это слово 'ぴ え ん 🥺' получило награду JC&JK Buzzword Awards 2019, 2-е место «Gal Buzzword Award 2019» и первое место в Instagram Buzzword Award за первую половину 2020 »и стал модным смайликом по всей Японии! В этом случае для некоторых людей Emoji Tag Cloud также является отличным инструментом для знакомства с интернет-культурой, все зависит от того, как вы его используете.

Все это сделано для того, чтобы исследовать более широкое использование эмодзи и надеяться, что вы сочтете эмодзи интересными и информативными. Чтобы предоставить вам точное содержание, связанное с эмодзи, данные также будут обновляться. Если у вас есть дополнительные советы по поводу облака тегов Emoji, сообщите нам об этом в комментариях ниже👇!


функция Меню

категории

оттенок кожи

прическа

Пол

Настроения

Версии