Всяко емоджи е специално. Стига да го анализирате по правилния начин, можете да откриете много информация като значения, категория, свързана тема, дори някакво уникално използване на емоджи с един поглед👀. След като извършим голямо количество изчисления и анализи на всяко емоджи, най-накрая получаваме облак от етикети на емоджи , ключови думи и фрази, свързани с конкретно емоджи, и го представяме по нов визуален начин.

🔺Облакът от етикети на емоджи [еднорог🦄]

Как получаваме етикети?

Както всички знаем, Twitter е световно известна услуга за социални мрежи и хората обичат да туитват текстове с емоджи, за да изразят емоциите си или просто като украса. Повечето от нашите тагове са от туитове от цял свят. Анализираме туитове от 2018.01 до 2021.11 и извличаме таговете от 812 милиона туитове, които съдържат емоджи. След това използваме статистически данни и алгоритми, за да изберем текстове, които са много подходящи за конкретни емоджи, и да разграничим езика. Чрез това можем дори да разберем как се използва емоджи в различна страна.

Тук използваме английски сайт като пример. Тези 2 емоджита в нашата страница на английски: 😎 (усмихнато лице със слънчеви очила) и 🦄 (еднорог). Ние извършваме извличане на маркери към тях и получаваме думи като [cool] или [nicki] .

Тук се появява нов проблем❓: Разбира се, има много текстове, свързани с емоджи, тогава как избираме най-подходящия таг и как да ги подреждаме?

В тази ситуация те включват допълнителни алгоритми.

Професионалното технологично обяснение за извличане на етикети

Има много видове технологии за извличане на етикети с различни ефекти, като абстрактно извличане за статии и алгоритми за маркиране на ключови думи за кратки текстове. Нашето „Извличане на маркери в облака на емоджи от Twitter“ се основава на алгоритъма TF-IDF . Извършва се с модифициран процес, базиран на характеристиките на данните в Twitter, който представлява неконтролиран алгоритъм за извличане на кратък текстов етикет.

За да улесним разбирането, тук обобщаваме процедурата по извличане на етикети в 3 стъпки.

  • Първо, ние извършваме извличане на емоджи и почистване на текст за всеки туит с един месец като единица, премахваме теми и прякори като [@xx], [#xx] и изтриваме URL адреса на туит. По време на почистването на текста ние също така филтрираме стоп думи на различни езици (например премахваме някои модални частици като ah, oh и т.н.), съкращения, словоформи, главни букви и други фактори, накрая получаваме информация за честотата на думите, съответстваща на всяко емоджи .
  • Второ, ние използваме алгоритъма за представяне на текста TF-IDF (термин честота-инверсна честота на документа), за да изчислим първоначалното тегло на текста на етикета въз основа на резултатите, получени в предишната стъпка.
  • Формулата за изчисление е: TF-IDF = TF * IDF

    TF (Честота на термина) се получава чрез разделяне на броя на срещанията на дума, съответстваща на емоджи, на общия брой думи, съответстващи на емоджито. IDF е обратна честота на документа, IDF = log( N / N(w) ) , докато [N] представлява общия брой емоджита, [N(w)] представлява броя на емоджита, съдържащи думата [w].

    🔺Когато дадена дума се появи както в emojiA, така и в emojiB, това означава, че думата не е достатъчно представителна и тежестта на тази дума трябва да бъде намалена. От формулата IDF = log( N / N(w) ), може да се види, че диапазонът на IDF между 0 и положителната безкрайност намалява с увеличаването на N(w).

    Когато даден термин се появява повече пъти в статия, това означава, че тежестта на термина е по-голяма. Въпреки това, думите, които се появяват най-често, са думи, които изразяват тон или нямат действително значение, като [aww], [oh] или [RT]. Трудно е да се избегне филтрирането на такива думи само при сортиране и филтриране по стойността на TF. Така че обратният номер на документа на IDF се въвежда като ограничение, за да се изчисли по-точна стойност за представяне на тежестта на текста на етикета.

    В края на стъпка 2 ще филтрираме записите, които се появяват повече от 15% от общия брой емоджита.

  • Единиците, изчислени в първите две стъпки, са месечни данни, а общите данни са четири години. На последната стъпка ще извършим още един кръг от консолидирани статистически изчисления за всички месечни данни.
  • Преобразувайте изчислените четиригодишни данни за туит във формата на [(sum(tfidf_m) / M) * log(M)] и изчислете допълнително теглото на всеки запис на етикет. [sum(tfidf_m)] представлява сумата от стойностите на TF-IDF на термина за всеки месец, а [M] представлява броя на месеците, в които се появява терминът.

Това, следователно, е приблизителният метод за изчисление на данните за етикетите на емоджи. След като окончателните данни бъдат обобщени, ние също ръчно ще проверим и филтрираме според езика, за да получим по-точни резултати от маркери.


В допълнение, таговете също ще използват кратко име CLDR и ключови думи CLDR за справка, те са най-основният текст на маркера, което означава, че винаги ще виждате някои от тези думи в облака от етикети на Emoji.

🔺 Когато емоджи се изпраща на Unicode Consortium, е необходимо в предложението да има кратко име CLDR и ключови думи CLDR, така че тези думи трябва да се вземат предвид при избора на етикет. Информацията за емоджи [unicorn🦄], ние поставяме краткото му име и някои от ключовите думи в неговия облак от етикети.

Как да използваме нашия облак за етикети за емоджи?

Измина доста време, когато пуснахме облака за етикети за емоджи. Лично аз вярвам, че е много забавен и полезен инструмент за наблюдение на конкретно емоджи, понякога дори можете да знаете коя група или актуална тема предпочитат да използвате това емоджи. Позволете ми да ви покажа как да използвате нашия облак за етикети за емоджи!

Както бе споменато по-горе, теглото на текста на всеки етикет е различно. Можете просто да прецените връзката между таговете и емоджи по размера на кръга (колкото по-голям, толкова по-подходящ). Или можете да поставите мишката си върху кръга, ще се появи малък квадрат с [число, текст на етикета]. В тази ситуация, колкото по-малко е числото, етикетът в този кръг е по-подходящ за емоджито. Можете също да щракнете върху тези тагове, за да търсите други свързани емоджита!

Все пак използваме еднорог като пример. облакът от етикети на емоджи [еднорог 🦄 ] е като по-долу:

Както можете да видите, топ 5 тагове на 🦄 са [unicorn], [nicki], [unicorns], [plt] и [barbz] .

Word [unicorn] е краткото име на CLDR на това емоджи, а останалите 4 етикета са извлечени от twitter. [nicki] и [barbz] са свързани с Ники Минаж и нейната фен група , а думата [plt] се отнася до [Pretty Little Thing] , базиран в Обединеното кралство моден търговец на дребно или само тази фраза. 🦄 е популярно емоджи в SNS и много представително емоджи за феновете на Ники Минаж. Ако обичате Ники, определено трябва да използвате това емоджи!


Като цяло, като използвате нашия облак за етикети за емоджи , можете лесно да разберете свързаното съдържание на конкретно емоджи, може би дори можете да знаете повече за поп културата и да избегнете неудобството да не знаете основното и разширеното значение на емоджи. Понякога използването на емоджи може да се превърне в социален феномен, като това емоджи 🥺 в Япония. Като емоджи за изразяване на просия, оплакване или прелест, тази дума „ぴえん🥺“ спечели „JC&JK Buzzword Awards 2019“, „2019 Gal Buzzword Award“ 2-ро място, първото място на „Instagram Buzzword Award за първата половина на 2020" и се превърна в тенденция емоджи в цяла Япония! В този случай, за някои хора, Emoji Tag Cloud също е чудесен инструмент за запознаване с интернет културата, всичко зависи от това как го използвате.

Всичко това е, за да проучите повече използване на емоджи и се надяваме, че емоджитата са интересни и информативни. За да ви предоставим точно съдържание, свързано с емоджи, данните също ще продължат да се актуализират. Ако имате още съвети относно Emoji Tag Cloud, моля, уведомете ни в коментарите по-долу👇!


Търси скорошни Скорошни Няма скорошно използване на емотикони Emojify... Emojify успех