Сьогодні створюється все більше і більше практичних і цікавих способів використання смайлів, наприклад, різні категорії смайлів будуть об’єднані разом, щоб стати мемом, або, здавалося б, не пов’язані смайли можуть насправді використовуватися для опису того самого значення, що змушує емоджі поступово створювати зв’язок між їх. Ми хочемо продемонструвати цей зв’язок між смайлами візуально і дозволити користувачам глибше зрозуміти використання смайлів, тому ми використовуємо алгоритми машинного навчання, щоб обчислити зв’язок між смайлами та намалювати результат у зрозумілу картинку, яка є зв’язком смайлів. Графік .

Що таке графік стосунків Emoji?

Загальновідомо, що емоджі зазвичай подаються у вигляді зображень, але неможливо з’ясувати зв’язок між смайлами і зображеннями, тому що основне використання емоджі – це передача інформації та емоцій, вони більше схожі на мову, тому буде точніше досліджувати їхні стосунки через значення та використання емодзі. Таким чином, ми отримали всі твіти, що містять смайли, з 2018 по 2021 рік, на загальну суму 812 мільйонів твітів . Враховуючи, що використання емоджі буде різним у різних мовних середовищах, ми класифікували твіти за мовою, а потім обчислили подібність тексту між смайлами на кожній мові за допомогою алгоритму машинного навчання, щоб отримати відповідний графік взаємовідносин Emoji для кожної мови.

Як зрозуміти діаграму взаємовідносин Emoji?

Це графік взаємовідносин Emoji для 👉 для іспанської мови. Червоне поле показує 9 найближчих до нього емодзі, довжина променя вказує на ступінь спорідненості, чим коротший промінь, тим тісніше взаємозв’язок. Крім того, на графіку також показано частину графіка взаємозв’язків інших смайлів. У чорному ящику знаходиться графік зв’язку 👆 а в помаранчевому — графік зв’язку .

Результати, відображені на графіку взаємозв’язків, дозволяють нам краще зрозуміти використання емодзі. Наприклад, ці два смайли 👈 🥺 останніми роками часто використовуються як комбінація з 👉 щоб висловити пригніченість, сором’язливість або благання, тому вони з’являються на цьому графіку відносин:

Ці два смайли часто використовуються для позначення посилань, що означає, що вони мають схожість у використанні, тому вони близькі один до одного на графіку відносин:

Якщо ви заглибитесь у діаграму взаємовідносин смайлів, ви можете оновити своє сприйняття деяких смайлів.

Як розрахувати співвідношення між емодзі?

Далі ми дамо вам детальний опис процесу розрахунку. Його можна приблизно розділити на наступні три кроки:

  • По-перше, ми використовуємо алгоритм TF-IDF для вилучення тегів кожного емодзі з твітів і ваги, що відповідає кожному тегу. Теги відносяться до тих слів, які найбільш тісно пов’язані з емодзі, які еквівалентні характеристикам емодзі; і вагові показники стосуються тісності зв’язку між тегами та смайликами, чим вище вага, тим тіснішим буде зв’язок. Про алгоритм і процес розрахунку отримання тегів ми написали статтю, щоб детально ознайомитися з нею, ви можете натиснути на праву посилання, щоб прочитати її: ☁️Хмара тегів Emoji: допоможе вам отримати більше знань про Emoji!
  • Після отримання етикеток виникає нова проблема. Коли справа доходить до обчислень, ми всі знаємо, що зазвичай можна обчислити тільки числові значення, але теги представлені у вигляді тексту, тож як їх можна обчислити алгоритмічно? Тому наш другий крок — перетворити текст у числові значення, які можна обчислити—— Vector . Цей процес називається вбудовуванням слова . Нам потрібно спочатку прочитати велику кількість даних твітів за допомогою алгоритму word2vec (один із методів вбудовування слів), щоб перетворити кожне слово в тексті у вектор, потім ми зможемо отримати матрицю вбудовування слів, що складається з усіх високорозмірних векторів слів, а пізніше відобразити кожне слово, відповідне кожному тегу, яке ми отримали на першому кроці, у високорозмірний вектор за допомогою матриці вбудовування слів. Таким чином, ми завершили перетворення тексту у вектор. Ці високорозмірні вектори обчислюються шляхом аналізу контексту тексту, який може добре зберегти семантичну інформацію кожного слова і таким чином забезпечити точність подібності тексту. Алгоритм word2vec також детально пояснюється в нашому блозі, якщо ви хочете більше деталей, можете прочитати його: 🔍Аналіз настроїв Emoji
  • Останнім кроком є обчислення схожості тексту між емодзі. Для обчислення схожості тексту зазвичай використовується алгоритм VSM (модель векторного простору) . Це одна з найбільш широко використовуваних моделей обчислення подібності, але вона отримує результати шляхом обчислення слів, що зустрічаються одночасно (слів, які зустрічаються в обох текстах) двох текстів, що не є точним, якщо розглядати тексти з однаковим значенням, але різними формулюваннями. Щоб уникнути цієї ситуації, ми обрали інший алгоритм—— SCM (м'яка косинусна міра) . Він може виміряти подібність між словами, тому навіть якщо два тексти не мають спільних слів, цей алгоритм може обчислити подібність двох текстів, оцінюючи схожість слів. Після того, як ми використовуємо SCM для вимірювання вектора, чим більше значення ми отримуємо, тим вище подібність тексту між смайлами, і чим вище подібність тексту, тим тісніше їх взаємозв’язок.

Висновок

За допомогою графіка відносин ми можемо зрозуміти звички та переваги людей щодо використання смайлів, а також дослідити тенденцію використання емодзі. Ви можете бути здивовані, виявивши, що деякі смайли, які ви не пов’язуєте один з одним, насправді дуже тісно пов’язані, і це може бути новим модним використанням смайлів, яких ви ще не знали! Також, якщо у вас є якісь пропозиції, будь ласка, повідомте нам у коментарі!


Пошук недавні Останні Смайли нещодавно не використовувалися Emojify... Emojify Успіх