В настоящее время создается все больше и больше практичных и интересных применений смайликов, например, разные категории смайликов будут объединены вместе, чтобы стать мемом, или, казалось бы, несвязанные смайлики могут фактически использоваться для описания одного и того же значения, что заставляет смайлики постепенно создавать связь между их. Мы хотим показать эту связь между смайликами визуально и позволяют пользователям иметь более глубокое понимание использования Emoji, поэтому мы используем машину алгоритмов обучения для расчета отношения между смайликами и сделать результат в удобную для понимания картины, которая является Emoji отношений График .

Что такое график отношений эмодзи?

Хорошо известно, что смайлики обычно представлены в виде изображений, но невозможно выяснить связь между смайликами и изображениями, потому что основное использование смайликов - передать информацию и эмоции, они больше похожи на язык, поэтому они будут более точно исследовать их отношения через значение и использование эмодзи. Таким образом, мы получили все твиты, содержащие эмодзи, с 2018 по 2021 год, всего 812 миллионов твитов . Учитывая, что использование эмодзи будет различным в разных языковых средах, мы классифицировали твиты по языку, а затем вычислили схожесть текста между эмодзи на каждом языке с помощью алгоритма машинного обучения, чтобы получить соответствующий график отношений эмодзи для каждого языка.

Как понять график отношений эмодзи?

Это график отношений эмодзи 👉 для испанского языка. В красном поле показаны 9 ближайших к нему смайлов, длина луча представляет степень взаимосвязи, чем короче луч, тем теснее взаимосвязь. Кроме того, график также показывает часть графика отношений других эмодзи. В черном ящике 👆показан график отношений, а в оранжевом поле - график отношений .

Результаты, отраженные в графике отношений, позволяют нам лучше понять использование эмодзи. Например, эти два смайлика 👈 🥺 в последние годы часто используются в сочетании с 👉 чтобы выразить обиду, застенчивость или мольбу, поэтому они появляются на этом графике отношений:

Эти два смайлика часто используются для обозначения ссылок, что означает, что они имеют сходство в использовании, поэтому они близки друг к другу в графе отношений:

Если вы углубитесь в диаграмму отношений смайликов, вы можете обновить свое восприятие некоторых смайликов.

Как рассчитать взаимосвязь между смайликами?

Далее мы дадим вам подробное описание процесса расчета. Его можно условно разделить на следующие три этапа:

  • Во-первых, мы используем алгоритм TF-IDF для извлечения тегов каждого эмодзи из твитов и веса, соответствующего каждому тегу. Теги относятся к тем словам, которые наиболее тесно связаны с эмодзи, что эквивалентно характеристикам эмодзи; и веса относятся к тесной связи между тегами и смайликами, чем выше вес, тем теснее связь. Об алгоритме и процессе расчета получения тегов мы написали статью, чтобы представить его подробно, вы можете щелкнуть правильную ссылку, чтобы прочитать ее: ☁️Emoji Tag Cloud: поможет вам получить больше знаний об Emoji!
  • После получения этикеток возникает новая проблема. Что касается расчетов, все мы знаем, что обычно можно рассчитать только числовые значения, но теги представлены в виде текста, так как же их можно вычислить алгоритмически? Поэтому наш второй шаг - преобразовать текст в числовые значения, которые можно вычислить - вектор . Этот процесс называется встраиванием слов . Нам нужно сначала прочитать большое количество данных твита, используя алгоритм word2vec (один из методов встраивания слов), чтобы преобразовать каждое слово в тексте в вектор, затем мы можем получить матрицу вложения слов, состоящую из всех многомерных векторов слов, а затем сопоставьте каждое слово, соответствующее каждому тегу, полученному на первом этапе, в многомерный вектор через матрицу вложения слов. Таким образом, мы завершили преобразование текста в вектор. Эти многомерные векторы вычисляются путем анализа контекста текста, который может хорошо сохранять семантическую информацию каждого слова и, таким образом, обеспечивать точность сходства текста. Алгоритм word2vec также подробно описан в нашем блоге, если вы хотите получить более подробную информацию, вы можете прочитать его: 🔍 Анализ настроений эмодзи
  • Последний шаг - вычислить текстовое сходство между смайликами. Для вычисления сходства текста обычно используется алгоритм VSM (Vector Space Model) . Это одна из наиболее широко используемых моделей вычисления сходства, но она позволяет получать результаты путем вычисления совпадающих слов (слов, которые встречаются в обоих текстах) двух текстов, что не является точным, когда вы сталкиваетесь с текстами с одинаковым значением, но разными формулировками. чтобы избежать этой ситуации, мы выбрали другой алгоритм - SCM (Soft Cosine Measure) . Он может измерять сходство между словами, поэтому даже если в двух текстах нет общих слов, этот алгоритм может вычислить сходство двух текстов, оценив сходство слов. После того, как мы используем SCM для измерения вектора, чем больше полученное значение, тем выше сходство текста между смайликами, и чем выше сходство текста, тем теснее их взаимосвязь.

Заключение

С помощью графика отношений мы можем понять привычки и предпочтения людей в отношении использования смайлов, а также изучить тенденции использования смайлов. Вы можете быть удивлены, обнаружив, что некоторые смайлы, которые вы не связали бы друг с другом, на самом деле очень тесно связаны, и это может быть новым модным использованием смайликов, о которых вы еще не знали! Также, если у вас есть предложения, напишите нам в комментариях!


Поиск Недавние Недавние Нет недавно использованных смайликов смайлики... Эмодзи успеха