Sa ngayon, parami nang parami ang mga praktikal at kawili-wiling paggamit ng emoji na nalilikha, halimbawa, pagsasama-samahin ang iba't ibang kategorya ng emoji upang maging Meme, o ang tila hindi nauugnay na emoji ay maaaring aktwal na gamitin upang ilarawan ang parehong kahulugan, na unti-unting gumagawa ng isang koneksyon sa pagitan ng emoji. sila. Gusto naming ipakita ang ugnayang ito sa pagitan ng emoji at hayaan ang mga user na magkaroon ng mas malalim na pag-unawa sa paggamit ng emoji, kaya gumagamit kami ng mga machine learning algorithm para kalkulahin ang kaugnayan sa pagitan ng emoji at iguhit ang resulta sa isang madaling maunawaang larawan, na ang Emoji Relationship Graph .
Ano ang Emoji Relationship Graph?
Kilalang-kilala na ang mga emoji ay karaniwang ipinakita bilang mga imahe, ngunit imposibleng malaman ang kaugnayan sa pagitan ng emoji na may mga imahe, dahil ang pangunahing gamit ng emoji ay upang ihatid ang impormasyon at mga emosyon, sila ay mas katulad ng isang wika, kaya ito ay magiging mas tumpak upang tuklasin ang kanilang relasyon sa pamamagitan ng kahulugan at paggamit ng emoji. Samakatuwid, nakuha namin ang lahat ng tweet na naglalaman ng emoji mula 2018 hanggang 2021, na may kabuuang 812 milyong tweet . Isinasaalang-alang na mag-iiba ang paggamit ng emoji sa iba't ibang environment ng wika, inuri namin ang mga tweet ayon sa wika, at pagkatapos ay kinakalkula ang Text Similarity sa pagitan ng emoji sa bawat wika sa pamamagitan ng machine learning algorithm, upang makuha ang kaukulang Emoji Relationship Graph para sa bawat wika.
Paano maintindihan ang Emoji Relationship Graph?
Ito ang Emoji Relationship Graph ng 👉 para sa espanyol. Ang pulang kahon ay nagpapakita ng 9 na pinakamalapit na emoji dito, ang haba ng sinag ay kumakatawan sa antas ng relasyon, mas maikli ang sinag, mas malapit ang relasyon. Bilang karagdagan, nagpapakita rin ang graph ng isang bahagi ng graph ng relasyon ng iba pang emoji. Sa black box ay ang relationship graph ng 👆 ,at sa orange box ay ang relationship graph ng ⤵ .
Ang mga resultang makikita sa graph ng relasyon ay nagbibigay-daan sa amin na magkaroon ng mas mahusay na pag-unawa sa paggamit ng emoji. Halimbawa, ang dalawang emoji na ito 👈 🥺 ay kadalasang ginagamit bilang kumbinasyon ng 👉nitong mga nakaraang taon upang ipahayag ang hinanakit, nahihiya o pagsusumamo, kaya lumalabas ang mga ito sa graph ng relasyon na ito:
Ang dalawang emoji na ito ay kadalasang ginagamit upang ipahiwatig ang mga link, na nangangahulugang mayroon silang pagkakatulad sa paggamit, kaya malapit sila sa isa't isa sa graph ng relasyon:
Kung susuriin mo ang tsart ng relasyon ng emoji, maaari mong i-refresh ang iyong pang-unawa sa ilang emoji.
Paano kalkulahin ang kaugnayan sa pagitan ng emoji?
Susunod, bibigyan ka namin ng isang detalyadong paglalarawan ng proseso ng pagkalkula. Ito ay halos nahahati sa sumusunod na tatlong hakbang:
- Una, ginagamit namin ang algorithm ng TF-IDF upang kunin ang mga tag ng bawat emoji mula sa mga tweet at ang bigat na naaayon sa bawat tag. Ang mga tag ay tumutukoy sa mga salitang iyon na pinaka malapit na nauugnay sa emoji, na katumbas ng mga katangian ng isang emoji; at ang mga timbang ay tumutukoy sa lapit ng relasyon sa pagitan ng mga tag at emoji, mas mataas ang timbang, mas malapit ang relasyon. Tungkol sa algorithm at proseso ng pagkalkula ng pagkuha ng mga tag, nagsulat kami ng isang artikulo upang ipakilala ito nang detalyado, maaari mong i-click ang tamang link para basahin ito: ☁️Emoji Tag Cloud: Tulungan Kang Kumuha ng Higit pang Kaalaman Ng Emoji!
- Matapos makuha ang mga label, lumitaw ang isang bagong problema. Pagdating sa mga kalkulasyon, alam nating lahat na sa pangkalahatan ay mga numerong halaga lamang ang maaaring kalkulahin, ngunit ang mga tag ay ipinakita bilang teksto, kaya paano sila makalkula ayon sa algorithm? Samakatuwid, ang aming pangalawang hakbang ay ang pag-convert ng teksto sa mga numerical na halaga na maaaring kalkulahin—— Vector . Ang prosesong ito ay tinatawag na Word Embedding . Kailangan muna nating magbasa ng malaking halaga ng data ng tweet gamit ang word2vec algorithm (isa sa mga paraan ng pag-embed ng salita) upang gawing vector ang bawat salita sa teksto, pagkatapos ay makakakuha tayo ng word embedding matrix na binubuo ng lahat ng mga high-dimensional na vector. ng mga salita, at sa paglaon ay imapa ang bawat salita na tumutugma sa bawat tag na nakuha namin sa unang hakbang sa isang high-dimensional na vector sa pamamagitan ng word embedding matrix. Kaya, nakumpleto na namin ang text-to-vector conversion. Ang mga high-dimensional na vector na ito ay kinakalkula sa pamamagitan ng pagsusuri sa konteksto ng teksto, na maaaring mapanatili ang semantikong impormasyon ng bawat salita at sa gayon ay matiyak ang katumpakan ng pagkakatulad ng teksto. Ang word2vec algorithm ay ipinaliwanag din nang detalyado sa aming blog, kung gusto mo ng higit pang mga detalye maaari mo itong basahin: 🔍Emoji Sentiment Analysis
- Ang huling hakbang ay kalkulahin ang pagkakatulad ng teksto sa pagitan ng mga emojis. Ang algorithm na karaniwang ginagamit upang kalkulahin ang pagkakatulad ng teksto ay VSM(Vector Space Model) . Ito ay isa sa mga pinakakaraniwang ginagamit na modelo ng pagkalkula ng pagkakatulad, ngunit nakakakuha ito ng mga resulta sa pamamagitan ng pagkalkula ng magkakatulad na mga salita (mga salitang lumalabas sa parehong mga teksto) ng dalawang teksto, na hindi tumpak kapag nakaharap sa mga teksto na may parehong kahulugan ngunit magkaibang mga salita. para maiwasan ang sitwasyong ito, pumili kami ng isa pang algorithm—— SCM(Soft Cosine Measure) . Masusukat nito ang pagkakatulad sa pagitan ng mga salita, kaya kahit na walang magkatulad na salita ang dalawang teksto, maaaring kalkulahin ng algorithm na ito ang pagkakapareho ng dalawang teksto sa pamamagitan ng pagsusuri sa pagkakatulad ng salita. Pagkatapos naming gamitin ang SCM para sukatin ang vector, mas malaki ang value na nakukuha namin ay nangangahulugan na mas mataas ang text similarity sa pagitan ng mga emojis, at mas mataas ang text similarity, mas malapit ang kanilang relasyon.
Konklusyon
Sa pamamagitan ng graph ng relasyon, mauunawaan natin ang mga gawi at kagustuhan ng mga tao sa paggamit ng emoji, at tuklasin ang takbo ng mga paggamit ng emoji. Maaaring mabigla kang malaman na ang ilang emoji na hindi mo iuugnay sa isa't isa ay talagang malapit na magkaugnay, at iyon ay maaaring isang bagong usong paggamit ng emoji na hindi mo pa alam! Gayundin, kung mayroon kang anumang mga mungkahi, mangyaring sabihin sa amin sa komento!