Tänapäeval luuakse järjest praktilisemaid ja huvitavamaid emotikonide kasutusviise, näiteks kombineeritakse erinevad emotikonide kategooriad kokku, et saada meemiks või võib tegelikult kasutada sama tähenduse kirjeldamiseks näiliselt mitteseotud emotikone, mis paneb emotikonide vahel järk-järgult seost looma. neid. Soovime seda emotikonide vahelist seost visuaalselt näidata ja võimaldada kasutajatel emotikonide kasutamisest sügavamalt aru saada, seega kasutame masinõppe algoritme, et arvutada emotikonide seos ja joonistada tulemus kergesti arusaadavaks pildiks, mis on emotikonide seos. Graafik .

Mis on emotikonide suhete graafik?

On hästi teada, et emotikone esitatakse tavaliselt piltidena, kuid emotikonide ja piltide vahelist seost on võimatu välja mõelda, kuna emotikonide peamine kasutusala on teabe ja emotsioonide edastamine, need on rohkem nagu keel, nii et see on täpsem, et uurida nende suhet emotikonide tähenduse ja kasutamise kaudu. Seetõttu saime aastatel 2018–2021 kõik emotikone sisaldavad säutsud, kokku 812 miljonit säutsu . Arvestades, et kasutamine emotikonide on erinev keelekeskkonna, me liigitada säutse keele ja seejärel arvutatakse Tekst sarnasus emotikonide iga keele Masinõppimise algoritmi, et saada vastav Emoji Suhte Graph iga keele.

Kuidas mõista emotikonide suhete graafikut?

See on hispaania keele👉 emotikonide suhete graafik. Punane kast näitab sellele 9 lähimat emotikonit, kiire pikkus tähistab suhte astet, mida lühem kiir, seda tihedam on suhe. Lisaks näitab graafik ka osa teiste emotikonide suhtegraafikust. Mustas kastis on seose graafik 👆, ja oranžis kastis on seose graafik .

Suhtegraafikul kajastuvad tulemused võimaldavad meil emotikonide kasutamisest paremini mõista. Näiteks on neid kahte emotikonit 👈 🥺 viimastel aastatel sageli kasutatud kombinatsioonina -ga👉, et väljendada solvunud, häbeliku või anuvat olemust, nii et need kuvatakse selles suhtegraafikus:

Neid kahte emotikonit kasutatakse sageli linkide tähistamiseks, mis tähendab, et neil on kasutusel sarnasusi, seega on need suhtegraafikus üksteise lähedal:

Kui süvenete emotikonide suhete tabelisse, võite värskendada oma ettekujutust mõnest emotikonist.

Kuidas arvutada emotikonide vahelist seost?

Järgmisena anname teile arvutusprotsessi üksikasjaliku kirjelduse. Selle võib laias laastus jagada järgmiseks kolmeks etapiks:

  • Esiteks kasutame TF-IDF algoritmi, et eraldada säutsidest iga emotikonide sildid ja igale märgisele vastav kaal. Sildid viitavad sõnadele, mis on emotikonidega kõige tihedamalt seotud ja mis on samaväärsed emotikonide omadustega; ja kaalud viitavad siltide ja emotikonide vahelise seose lähedusele, mida suurem kaal, seda tihedam on seos. Siltide hankimise algoritmi ja arvutusprotsessi kohta oleme kirjutanud artikli, et seda üksikasjalikult tutvustada, selle lugemiseks võite klõpsata paremal lingil: ☁️Emoji sildipilv: aitab teil emotikonidest rohkem teadmisi saada!
  • Pärast siltide hankimist tekib uus probleem. Kui rääkida arvutustest, siis me kõik teame, et üldjuhul saab arvutada ainult arvväärtusi, kuid sildid esitatakse tekstina, kuidas saab neid siis algoritmiliselt arvutada? Seetõttu on meie teine samm teisendada tekst arvulisteks väärtusteks, mida saab arvutada—— Vector . Seda protsessi nimetatakse Wordi manustamiseks . Peame kõigepealt lugema läbi suure hulga säutsuandmeid, kasutades algoritmi word2vec (üks sõna manustamise meetodeid), et teisendada tekstis iga sõna vektoriks, seejärel saame sõna manustamismaatriksi, mis koosneb kõigist suuremõõtmelistest vektoritest. sõnadest ja hiljem kaardistada igale esimeses etapis saadud igale sildile vastava sõna sõna manustamismaatriksi kaudu suuremõõtmeliseks vektoriks. Seega oleme tekstist vektoriks teisendamise lõpetanud. Need suuremõõtmelised vektorid arvutatakse teksti konteksti analüüsides, mis suudab hästi säilitada iga sõna semantilist teavet ja seega tagada teksti sarnasuse täpsuse. Word2vec algoritmi on üksikasjalikult selgitatud ka meie ajaveebis, kui soovite rohkem üksikasju, saate seda lugeda: 🔍Emoji sentiment Analysis
  • Viimane samm on emotikonide vahelise teksti sarnasuse arvutamine. Teksti sarnasuse arvutamiseks tavaliselt kasutatav algoritm on VSM (Vector Space Model) . See on üks enimkasutatud sarnasuse arvutamise mudeleid, kuid see saab tulemusi kahe teksti samaaegselt esinevate sõnade (mõlemas tekstis esinevate sõnade) arvutamisel, mis ei ole täpne, kui vaadata sama tähendusega, kuid erineva sõnastusega tekste. selle olukorra vältimiseks valisime teise algoritmi — SCM (Soft Cosine Measure) . See võib mõõta sõnade sarnasust, nii et isegi kui kahel tekstil pole ühiseid sõnu, saab see algoritm arvutada kahe teksti sarnasuse, hinnates sõnade sarnasust. Pärast seda, kui kasutame vektori mõõtmiseks SCM-i, tähendab see, et mida suurem on saadud väärtus, seda suurem on emotikonide teksti sarnasus ja mida suurem on teksti sarnasus, seda tihedam on nende seos.

Järeldus

Suhtegraafiku kaudu saame mõista inimeste emotikonide kasutamise harjumusi ja eelistusi ning uurida emotikonide kasutamise trende. Võite olla üllatunud, kui avastate, et mõned emotikonid, mida te omavahel ei seostaks, on tegelikult väga tihedalt seotud ja see võib olla uus trendikas emotikonide kasutus, mida te veel ei tunne! Samuti, kui teil on ettepanekuid, andke meile kommentaarides teada!