Mūsdienās tiek radīti arvien praktiskāki un interesantāki emocijzīmju lietojumi, piemēram, dažādas emocijzīmju kategorijas tiks apvienotas kopā, lai kļūtu par mēmi, vai arī šķietami nesaistītas emocijzīmes faktiski var izmantot, lai aprakstītu vienu un to pašu nozīmi, kas liek emocijzīmēm pakāpeniski veidot saikni starp viņiem. Mēs vēlamies vizuāli parādīt šo emocijzīmju saistību un ļaut lietotājiem dziļāk izprast emocijzīmju lietošanu, tāpēc mēs izmantojam mašīnmācīšanās algoritmus, lai aprēķinātu emociju attiecības un iegūto rezultātu viegli saprotamā attēlā, kas ir emocijzīmju saistība. Grafiks .
Kas ir emocijzīmju attiecību diagramma?
Ir labi zināms, ka emocijzīmes parasti tiek pasniegtas kā attēli, taču nav iespējams izdomāt emociju attiecības ar attēliem, jo emocijzīmju galvenais lietojums ir informācijas un emociju nodošana, tās vairāk atgādina valodu, tāpēc tā būs precīzāk, lai izpētītu viņu attiecības, izmantojot emocijzīmju nozīmi un lietojumu. Tāpēc no 2018. līdz 2021. gadam mēs ieguvām visus tvītus, kuros bija emocijzīmes, kopā 812 miljonus tvītu . Ņemot vērā, ka emocijzīmju lietojums dažādās valodu vidēs būs atšķirīgs, mēs klasificējām tvītus pēc valodas un pēc tam aprēķinājām teksta līdzību starp emocijzīmēm katrā valodā, izmantojot mašīnmācīšanās algoritmu, lai katrai valodai iegūtu atbilstošo emocijzīmju attiecību grafiku.
Kā saprast emocijzīmju attiecību grafiku?
Šis ir emocijzīmju attiecību grafiks 👉 spāņu valodā. Sarkanajā lodziņā ir redzamas 9 tai tuvākās emocijzīmes, stara garums norāda attiecību pakāpi, jo īsāks stars, jo ciešākas attiecības. Turklāt diagrammā ir parādīta arī daļa no citu emocijzīmju attiecību diagrammas. Melnajā kastē ir attiecību grafiks 👆 , un oranžajā lodziņā ir attiecību grafiks ⤵ .
Attiecību diagrammā atspoguļotie rezultāti ļauj mums iegūt plašāku izpratni par emocijzīmju lietojumu. Piemēram, šīs divas emocijzīmes 👈 🥺 pēdējos gados bieži tiek izmantotas kā kombinācija ar 👉 , lai izteiktu aizvainojumu, kautrību vai lūgumu, tāpēc tās parādās šajā attiecību diagrammā:
Šīs divas emocijzīmes bieži tiek izmantotas, lai norādītu saites, kas nozīmē, ka to lietojums ir līdzīgs, tāpēc attiecību diagrammā tās ir tuvu viena otrai:
Ja iedziļināsities emocijzīmju attiecību diagrammā, varat atsvaidzināt savu uztveri par dažām emocijzīmēm.
Kā aprēķināt emociju attiecības?
Tālāk mēs sniegsim detalizētu aprēķina procesa aprakstu. To var aptuveni iedalīt šādos trīs posmos:
- Pirmkārt, mēs izmantojam TF-IDF algoritmu, lai no tvītiem izvilktu katras emocijzīmes atzīmes un katrai atzīmei atbilstošo svaru. Atzīmes attiecas uz vārdiem, kas ir visciešāk saistīti ar emocijzīmēm, kas ir līdzvērtīgi emocijzīmes īpašībām; un svari attiecas uz attiecību ciešumu starp tagiem un emocijzīmēm, jo lielāks svars, jo ciešākas attiecības. Par tagu iegūšanas algoritmu un aprēķinu procesu esam uzrakstījuši rakstu, lai ar to detalizēti iepazīstinātu, varat noklikšķināt uz labās saites, lai to izlasītu: ☁️Emoji Tag Cloud: Palīdziet iegūt vairāk zināšanu par emocijzīmēm!
- Pēc etiķešu iegūšanas rodas jauna problēma. Runājot par aprēķiniem, mēs visi zinām, ka parasti var aprēķināt tikai skaitliskās vērtības, bet tagi tiek parādīti kā teksts, kā tad tos var aprēķināt algoritmiski? Tāpēc mūsu otrais solis ir pārvērst tekstu skaitliskās vērtībās, kuras var aprēķināt—— Vector . Šo procesu sauc par Word iegulšanu . Vispirms mums ir jāizlasa liels daudzums tvītu datu, izmantojot algoritmu word2vec (viena no vārdu iegulšanas metodēm), lai katru vārdu tekstā pārveidotu par vektoru, pēc tam mēs varam iegūt vārdu iegulšanas matricu, kas sastāv no visiem augstas dimensijas vektoriem. no vārdiem un vēlāk kartēt katru vārdu, kas atbilst katram tagam, ko mēs ieguvām pirmajā solī, augstas dimensijas vektorā, izmantojot vārdu iegulšanas matricu. Tādējādi mēs esam pabeiguši teksta pārvēršanu vektorā. Šie augstas dimensijas vektori tiek aprēķināti, analizējot teksta kontekstu, kas var labi saglabāt katra vārda semantisko informāciju un tādējādi nodrošināt teksta līdzības precizitāti. Word2vec algoritms ir arī detalizēti izskaidrots mūsu emuārā, ja vēlaties sīkāku informāciju, varat to izlasīt: 🔍Emoji sentimentu analīze
- Pēdējais solis ir aprēķināt teksta līdzību starp emocijzīmēm. Algoritms, ko parasti izmanto teksta līdzības aprēķināšanai, ir VSM (Vector Space Model) . Šis ir viens no visplašāk izmantotajiem līdzības aprēķinu modeļiem, taču tas iegūst rezultātus, aprēķinot divu tekstu vienlaikus sastopamos vārdus (vārdus, kas parādās abos tekstos), kas nav precīzs, saskaroties ar tekstiem ar vienādu nozīmi, bet atšķirīgu formulējumu. Lai izvairītos no šīs situācijas, mēs izvēlējāmies citu algoritmu — SCM (Soft Cosine Measure) . Tas var izmērīt vārdu līdzību, tāpēc pat tad, ja diviem tekstiem nav kopīgu vārdu, šis algoritms var aprēķināt divu tekstu līdzību, novērtējot vārdu līdzību. Pēc tam, kad vektora mērīšanai izmantosim SCM, jo lielāka vērtība, ko iegūstam, nozīmē, ka ir lielāka teksta līdzība starp emocijzīmēm, un jo lielāka ir teksta līdzība, jo ciešāka ir to savstarpējā saistība.
Secinājums
Izmantojot attiecību diagrammu, mēs varam izprast cilvēku ieradumus un vēlmes izmantot emocijzīmes, kā arī izpētīt emocijzīmju lietošanas tendences. Jūs varat būt pārsteigts, atklājot, ka dažas emocijzīmes, kuras jūs nesaistītu viena ar otru, patiesībā ir ļoti cieši saistītas, un tas var būt jauns, moderns emocijzīmju lietojums, ko jūs vēl nezināt! Tāpat, ja jums ir kādi ieteikumi, lūdzu, pastāstiet mums komentārā!