Данас се ствара све више практичних и занимљивих употреба емоџија, на пример, различите категорије емоџија ће се комбиновати заједно да би постале Меме, или се наизглед неповезани емоџији могу заправо користити за описивање истог значења, што чини да емоји постепено стварају везу између њих. Желимо да визуелно прикажемо овај однос између емоџија и омогућимо корисницима да дубље разумеју употребу емоџија, тако да користимо алгоритме за машинско учење да бисмо израчунали однос између емоџија и нацртали резултат у лако разумљиву слику, а то је однос емоџија Графикон .

Шта је графикон односа емоџија?

Познато је да се емоји обично представљају као слике, али је немогуће одгонетнути однос емоџија са сликама, јер је главна употреба емоџија преношење информација и емоција, они су више као језик, тако да ће бити тачније истражити њихов однос кроз значење и употребу емоџија. Стога смо добили све твитове који садрже емоји од 2018. до 2021. године, укупно 812 милиона твитова . Узимајући у обзир да ће употреба емоџија бити различита у различитим језичким окружењима, класификовали смо твитове по језику, а затим израчунали сличност текста између емоџија на сваком језику помоћу алгоритма машинског учења, како бисмо добили одговарајући графикон односа емоџија за сваки језик.

Како разумети графикон односа емоџија?

Ово је графикон односа 👉 од за шпански. Црвена кутија приказује 9 најближих емојија до њега, дужина зрака представља степен везе, што је зрак краћи, то је однос ближи. Поред тога, графикон такође приказује део графикона односа других емоџија. У црној кутији је граф односа 👆 ,а у наранџастој кутији је граф односа .

Резултати приказани у графикону односа омогућавају нам да боље разумемо употребу емоџија. На пример, ова два емоџија 👈 🥺 се често користе као комбинација са 👉 последњих година да изразе увређеност, стидљивост или молбе, па се појављују на овом графикону односа:

Ова два емоџија се често користе за означавање веза, што значи да имају сличности у употреби, тако да су близу један другом на графикону односа:

Ако се задубите у графикон односа емоџија, можда ћете освежити своју перцепцију неких емоџија.

Како израчунати однос између емоџија?

Затим ћемо вам дати детаљан опис процеса израчунавања. Може се грубо поделити у следећа три корака:

  • Прво, користимо ТФ-ИДФ алгоритам да извучемо ознаке сваког емоји-ја из твитова и тежину која одговара свакој ознаци. Ознаке се односе на оне речи које су најближе емоџију, а које су еквивалентне карактеристикама емоџија; а тежине се односе на блискост односа између ознака и емоџија, што је већа тежина, то је однос ближи. О алгоритму и процесу израчунавања добијања ознака, написали смо чланак да га детаљно представимо, можете кликнути на десну везу да бисте га прочитали: ☁Емоји Таг Цлоуд: Помозите вам да сазнате више о Емоји!
  • Након добијања етикета, јавља се нови проблем. Када је реч о прорачунима, сви знамо да се генерално могу израчунати само нумеричке вредности, али се ознаке представљају као текст, па како се могу израчунати алгоритамски? Стога је наш други корак да претворимо текст у нумеричке вредности које се могу израчунати—— Вектор . Овај процес се назива уграђивање речи . Морамо прво да прочитамо велику количину твеет података користећи ворд2вец алгоритам (један од метода уграђивања речи) да трансформишемо сваку реч у тексту у вектор, а затим можемо добити матрицу за уградњу речи која се састоји од свих вектора високе димензије речи, а касније мапирати сваку реч која одговара свакој ознаци коју смо добили у првом кораку у вектор високе димензије кроз матрицу за уградњу речи. Тако смо завршили конверзију текста у вектор. Ови високодимензионални вектори се израчунавају анализом контекста текста, који може добро сачувати семантичку информацију сваке речи и на тај начин обезбедити тачност сличности текста. Алгоритам ворд2вец је такође детаљно објашњен на нашем блогу, ако желите више детаља, можете га прочитати: 🔍Емоји Сентимент Аналисис
  • Последњи корак је израчунавање сличности текста између емоџија. Алгоритам који се обично користи за израчунавање сличности текста је ВСМ (модел векторског простора) . Ово је један од најчешће коришћених модела израчунавања сличности, али се добијају резултати израчунавањем речи које се појављују у оба текста (речи које се појављују у оба текста) два текста, што није тачно када се суочавају са текстовима са истим значењем, али различитим формулацијама. да бисмо избегли ову ситуацију, изабрали смо други алгоритам—— СЦМ (Мека косинусна мера) . Може да мери сличност између речи, па чак и ако два текста немају заједничке речи, овај алгоритам може израчунати сличност два текста проценом сличности речи. Након што користимо СЦМ за мерење вектора, што већа вредност коју добијемо значи да је већа сличност текста између емоџија, а што је већа сличност текста, то је њихов однос ближи.

Закључак

Кроз графикон односа можемо разумети навике и преференције људи у коришћењу емоџија и истражити тренд употребе емоџија. Можда ћете бити изненађени када откријете да су неки емотикони које не бисте повезали једни с другима заправо веома блиско повезани, а то може бити нова модерна употреба емоџија коју још нисте познавали! Такође, ако имате било какве сугестије, реците нам у коментару!