Сваки емоји је посебан. Све док га анализирате на прави начин, можете сазнати многе информације као што су значења, категорије, сродне теме, чак и нека јединствена употреба емоџија на први поглед👀. Након што извршимо велику количину прорачуна и анализе за сваки емоји, коначно добијамо Емоји Таг Цлоуд , кључне речи и фразе повезане са одређеним емоџијима и представљамо их на нов визуелни начин.

🔺Облак ознака емоџија [једнорог🦄]

Како добијамо ознаке?

Као што сви знамо, Твитер је глобално позната услуга друштвеног умрежавања и људи воле да твитују текстове са емоџијима како би изразили своје емоције или само као украс. Већина наших ознака је са твитова широм света. Анализирамо твитове од 2018.01 до 2021.11 и издвајамо ознаке из 812 милиона твитова који садрже емоџије. Затим користимо статистику и алгоритме да изаберемо текстове који су веома релевантни за одређени емоји и разликујемо језик. Кроз ово можемо чак знати како се емоји користи у различитим земљама.

Овде користимо енглески сајт као пример. Ова 2 емоџија на нашој страници на енглеском: 😎 (насмејано лице са наочарима за сунце) и 🦄 (једнорог). Изводимо им екстракцију ознака и добијамо речи као што су [цоол] или [ницки] .

!имг_1

!имг_2

Овде се појављује нови проблем❓: Наравно да постоји много текстова који се односе на емоји, затим како бирамо најприкладнију ознаку и како их распоредити?

У овој ситуацији они укључују даље алгоритме.

Професионално технолошко објашњење екстракције ознака

Постоји много типова технологија издвајања ознака са различитим ефектима, као што је издвајање апстрактног садржаја за чланке и алгоритми за означавање кључних речи за кратке текстове. Наше „Емоји Таг Цлоуд-Твиттер Таг Ектрацтион” је засновано на ТФ-ИДФ алгоритму . Спроведен је модификованим процесом заснованим на карактеристикама Твиттер података, што је ненадгледани алгоритам за издвајање кратких текстуалних ознака.

Да бисмо олакшали разумевање, овде сумирамо процедуру издвајања ознака у 3 корака.

  • Прво, вршимо екстракцију емоџија и чишћење текста за сваки твит са месецом као целином, уклањамо теме и надимке као што су [@кк], [#кк] и бришемо УРЛ твита. Током чишћења текста, такође филтрирамо стоп речи на различитим језицима (на пример, уклањамо неке модалне честице као што су ах, ох, итд.), Скраћенице, облике речи, велика слова и друге факторе, коначно добијамо податке о учесталости речи који одговарају сваком емоји .
  • Друго, користимо алгоритам за представљање текста ТФ-ИДФ (термин фреквенција инверзна фреквенција документа) да бисмо израчунали почетну тежину текста етикете на основу резултата добијених у претходном кораку.
  • Формула за израчунавање је: ТФ-ИДФ = ТФ * ИДФ

    ТФ (учесталост термина) се добија тако што се број појављивања речи која одговара емоџију подели са укупним бројем речи које одговарају емоџију. ИДФ је инверзна фреквенција документа, ИДФ = лог( Н / Н(в) ) , док [Н] представља укупан број емоџија, [Н(в)] представља број емоџија који садрже реч [в].

    🔺Када се реч појављује и у емојиА и у емојиБ, то значи да реч није довољно репрезентативна и да би тежину ове речи требало смањити. Из формуле ИДФ = лог( Н / Н(в) ), може се видети да се опсег ИДФ између 0 и позитивне бесконачности смањује са повећањем Н(в).

    Када се термин појављује више пута у чланку, то значи да је тежина термина већа. Међутим, речи које се најчешће појављују су речи које изражавају тон или немају стварно значење, као што су [авв], [ох] или [РТ]. Тешко је избећи филтрирање таквих речи ако се врши само сортирање и филтрирање по ТФ вредности. Дакле, ИДФ инверзни број документа је уведен као ограничење, да би се израчунала тачнија вредност која представља тежину текста етикете.

    На крају корака 2, филтрираћемо уносе који се појављују више од 15% од укупног броја емоџија.

  • Јединице израчунате у прва два корака су месечни подаци, а укупни подаци су четири године. У последњем кораку извршићемо још један круг консолидованих статистичких прорачуна за све месечне податке.
  • Претворите израчунате четворогодишње твит податке у облик [(сум(тфидф_м) / М) * лог(М)] и даље израчунајте тежину сваког уноса ознаке. [сум(тфидф_м)] представља збир ТФ-ИДФ вредности термина у сваком месецу, а [М] представља број месеци у којима се термин појављује.

Ово је, дакле, приближна метода израчунавања података ознака емоџија. Након што су коначни подаци сумирани, ми ћемо такође ручно проверити и филтрирати према језику како бисмо добили тачније резултате ознака.


Поред тога, ознаке ће такође користити ЦЛДР кратко име и ЦЛДР кључне речи за референцу, оне су најосновнији текст ознаке, што значи да ћете увек видети неке од ових речи у Емоји облаку ознака.

🔺 Када се емоџи достави Уницоде конзорцијуму, неопходно је да у свом предлогу има ЦЛДР кратко име и ЦЛДР кључне речи, тако да ове речи морају узети у обзир при избору ознаке. Информације о емоџију [једнорог🦄], ставили смо његов кратки назив и неке кључне речи у његов облак ознака.

Како користити наш Емоји Таг Цлоуд?

Прошло је доста времена када смо објавили Емоји Таг Цлоуд. Лично, верујем да је то веома смешно и корисно средство за посматрање одређеног емоџија, понекад чак можете знати која група или тема у тренду радије користе овај емотикон. Дозволите ми да вам покажем како да користите наш Емоји Таг Цлоуд!

Као што је горе поменуто, тежина текста сваке ознаке је различита. Можете једноставно проценити корелацију између ознака и емоџија према величини круга (што је већи, то је релевантнији). Или можете ставити миша на круг, појавиће се мали квадрат са [број, текст ознаке]. У овој ситуацији, што је мањи број, ознака у овом кругу је релевантнија за емоји. Такође можете да кликнете на ове ознаке да бисте претражили друге повезане емоџије!

Ипак, користимо једнорог као пример. Облак ознака емоџија [једнорог 🦄] је као испод:

!имг_1

Као што видите, првих 5 ознака 🦄 су [уницорн], [ницки], [уницорнс], [плт] и [барбз] .

Реч [једнорог] је ЦЛДР кратки назив овог емоџија, а преостале 4 ознаке су извучене из твитера. [ницки] и [барбз] су у сродству са Ники Минај и њеном групом обожавалаца , а реч [плт] се односи на [Претти Литтле Тхинг] , модног продавца у Великој Британији или само на ову фразу. 🦄 је популаран емоџи у СНС-у и веома репрезентативан емоџи за фанове Ники Минај. Ако волите Ники, дефинитивно би требало да користите овај емоји!

!имг_2


Све у свему, коришћењем нашег облака емоџија можете лако да сазнате сродан садржај одређеног емоџија, можда чак можете да сазнате више о поп култури и избегнете непријатност због непознавања основног и проширеног значења емоџија. Понекад употреба емоџија може постати друштвени феномен, као што је овај емоји 🥺 у Јапану. Као емоџи за изражавање просјачења, туге или љупкости, ова реч „ひえん🥺“ је освојила „ЈЦ&ЈК Буззворд Авардс 2019““, „2019 Гал Буззворд Авард“ 2. место, прво место „Инстаграм Буззворд Авард за прву половину 2020" и постао је тренд емоџија широм Јапана! У овом случају, за неке људе, Емоји Таг Цлоуд је такође одличан алат за упознавање са интернет културом, све зависи од тога како га користите.

Све ово је да истражите више употребе емоџија и надамо се да су емоји занимљиви и информативни. Да бисмо вам пружили тачан садржај у вези са емоџијима, подаци ће се такође стално ажурирати. Ако имате још савета о Емоји Таг Цлоуд-у, обавестите нас у коментарима испод👇!


Претрага недавни Недавно Нема недавне употребе емоџија Емојифи... Емојифи успех