Šiais laikais sukuriama vis daugiau praktiškesnių ir įdomesnių jaustukų panaudojimo būdų, pavyzdžiui, skirtingos jaustukų kategorijos bus sujungtos, kad taptų Meme, arba iš pažiūros nesusiję jaustukai iš tikrųjų gali būti naudojami apibūdinti tai pačiai reikšmei, todėl jaustukai palaipsniui sukuria ryšį tarp juos. Norime parodyti šį jaustukų ryšį vizualiai ir leisti vartotojams geriau suprasti jaustukų naudojimą, todėl naudojame mašininio mokymosi algoritmus, kad apskaičiuotume ryšį tarp jaustukų ir gautume rezultatą į lengvai suprantamą paveikslėlį, kuris yra jaustukų ryšys. Grafikas .
Kas yra jaustukų santykių grafikas?
Gerai žinoma, kad jaustukai dažniausiai pateikiami kaip vaizdai, tačiau neįmanoma išsiaiškinti emocijų santykio su vaizdais, nes pagrindinis jaustukų panaudojimas yra informacijos ir emocijų perteikimas, jie labiau panašūs į kalbą, todėl bus tiksliau ištirti jų santykius per jaustukų reikšmę ir naudojimą. Todėl nuo 2018 iki 2021 m. gavome visus tviterius, kuriuose yra jaustukų, iš viso 812 mln . Atsižvelgiant į tai, kad jaustukų naudojimas bus skirtingi skirtingų kalbų aplinkoje, mes suklasifikavo tweets pagal kalbą, o tada apskaičiavo Tekstas panašumo jaustukų kiekvienoje mašina mokymosi algoritmo kalba, siekiant gauti atitinkamą jaustukų Sąryšis grafikas kiekvienai kalbai.
Kaip suprasti jaustukų santykių grafiką?
Tai jaustukų santykių grafikas 👉 ispanų kalba. Raudonas langelis rodo 9 artimiausius jaustukus, spindulio ilgis parodo ryšio laipsnį, kuo spindulys trumpesnis, tuo artimesnis ryšys. Be to, diagramoje taip pat rodoma kitų jaustukų santykių diagramos dalis. Juodajame langelyje yra santykių grafikas 👆, o oranžiniame lange yra ⤵ santykių grafikas.
Santykių diagramoje pateikti rezultatai leidžia mums geriau suprasti jaustukų naudojimą. Pavyzdžiui, šie du jaustukai 👈 🥺 pastaraisiais metais dažnai naudojami kaip derinys su 👉 , norint išreikšti susierzinimą, drovumą ar maldavimą, todėl jie rodomi šioje santykių diagramoje:
Šie du jaustukai dažnai naudojami nuorodoms nurodyti, o tai reiškia, kad jų naudojimas yra panašus, todėl santykių diagramoje yra arti vienas kito:
Jei įsigilinsite į jaustukų santykių diagramą, galite atnaujinti kai kurių jaustukų suvokimą.
Kaip apskaičiuoti jaustukų ryšį?
Toliau pateiksime išsamų skaičiavimo proceso aprašymą. Jį galima apytiksliai suskirstyti į tris etapus:
- Pirma, mes naudojame TF-IDF algoritmą, kad iš tviterio ištrauktume kiekvieno jaustuko žymas ir kiekvienos žymos svorį. Žymos nurodo tuos žodžius, kurie yra labiausiai susiję su jaustukais, kurie yra lygiaverčiai jaustuko savybėms; o svoriai nurodo žymų ir jaustukų santykio glaudumą, kuo didesnis svoris, tuo artimesnis ryšys. Apie žymų gavimo algoritmą ir skaičiavimo procesą parašėme straipsnį, kuriame išsamiai supažindiname su juo, galite spustelėti dešiniąją nuorodą, kad perskaitytumėte: ☁️Emoji Tag Cloud: Padėkite daugiau sužinoti apie jaustukus!
- Gavus etiketes, iškyla nauja problema. Kalbant apie skaičiavimus, visi žinome, kad paprastai galima apskaičiuoti tik skaitines reikšmes, tačiau žymos pateikiamos kaip tekstas, taigi kaip jas galima apskaičiuoti algoritmiškai? Todėl antrasis mūsų žingsnis yra konvertuoti tekstą į skaitines reikšmes, kurias galima apskaičiuoti—— Vektorius . Šis procesas vadinamas Word įterpimu . Pirmiausia turime perskaityti didelį kiekį tviterio duomenų naudojant word2vec algoritmą (vieną iš žodžių įterpimo būdų), kad kiekvienas teksto žodis būtų paverstas vektoriumi, tada galime gauti žodžių įterpimo matricą, susidedančią iš visų didelės dimensijos vektorių. žodžių, o vėliau kiekvieną žodį, atitinkantį kiekvieną žymą, kurią gavome pirmame žingsnyje, susieti į didelės dimensijos vektorių per žodžių įterpimo matricą. Taigi, mes užbaigėme teksto konvertavimą į vektorių. Šie didelės dimensijos vektoriai skaičiuojami analizuojant teksto kontekstą, kuris gali gerai išsaugoti kiekvieno žodžio semantinę informaciją ir taip užtikrinti teksto panašumo tikslumą. Word2vec algoritmas taip pat yra išsamiai paaiškintas mūsų tinklaraštyje, jei norite daugiau informacijos, galite jį perskaityti: 🔍Emoji jausmų analizė
- Paskutinis žingsnis yra apskaičiuoti jaustukų teksto panašumą. Paprastai teksto panašumui apskaičiuoti naudojamas algoritmas yra VSM (Vector Space Model) . Tai vienas iš plačiausiai naudojamų panašumo skaičiavimo modelių, tačiau rezultatai gaunami apskaičiuojant dviejų tekstų kartu pasitaikančius žodžius (žodžius, kurie pasitaiko abiejuose tekstuose), o tai nėra tikslu, kai susiduriame su tos pačios reikšmės, bet skirtingos formuluotės tekstais. Norėdami išvengti šios situacijos, pasirinkome kitą algoritmą - SCM (Soft Cosine Measure) . Jis gali išmatuoti žodžių panašumą, todėl net jei du tekstai neturi bendrų žodžių, šis algoritmas gali apskaičiuoti dviejų tekstų panašumą įvertinęs žodžių panašumą. Po to, kai vektoriui matuoti naudojame SCM, kuo didesnę reikšmę gauname, tuo didesnis jaustukų teksto panašumas, o kuo didesnis teksto panašumas, tuo glaudesnis jų ryšys.
Išvada
Naudodami santykių grafiką galime suprasti žmonių įpročius ir pageidavimus naudoti jaustukus bei ištirti jaustukų naudojimo tendencijas. Galbūt nustebsite pastebėję, kad kai kurios jaustukai, kurių nesusietumėte vienas su kitu, iš tikrųjų yra labai glaudžiai susiję, ir tai gali būti naujas, madingas jaustukų panaudojimas, kurio dar nežinojote! Be to, jei turite kokių nors pasiūlymų, pasakykite mums komentaruose!