Emoji on täynnä tunteita. Se voi parantaa tai säätää tekstin sävyä ja mielialaa, samaan aikaan emojien ilmaisemat tunteet voivat olla selvempiä kuin vain sanat.
Esimerkiksi tämä emoji 👿 (vihaiset kasvot sarvilla). Se on ilmeisesti paholainen hahmo, joten ajatuksia saattaa olla "huono" emoji, kuten jotkut pahat ajatukset jonkun päässä.
Mutta silti tällainen kuvaus on hyvin abstrakti. Voimmeko siis visualisoida näiden hymiöiden ilmaisemat mielipidetyypit ja tasot?
Vastaus on tietysti "kyllä"! Teimme luonnollisen kielenkäsittelyn (NLP) julkisille näytteille, joissa oli vähintään 50 miljoonaa twiittiä, ja yhdistämme emoji-tunnelman arvosarjaan ja visualisoimme sen tekstin sentimenttianalyysillä (jota kutsutaan myös mielipiteenmuokkaukseksi). Vietimme paljon aikaa, energiaa ja laskentatehoa emoji-tunteiden analyysimme tekemiseksi tieteellisemmäksi ja tarkemmaksi, jotta jokainen voi tuntea viehätyksen ja saada paremman käsityksen emojista.
Visuaaliset kaaviot emoji-mielipiteiden analysointia varten
Tiedot, kuten emoji-tunteen arvo, laskettiin tekstimittausanalyysin mukaan, joka kuuluu tilastoihin ja todennäköisyysteoriaan. Kun olemme ratkaisseet algoritmin ja laskentatehon ongelman, kohdattiin sitten uusia vaikeuksia: miten saada käyttäjät ymmärtämään nämä ammattitiedot?
Ajatus kulkee mielessämme - Hei! Entä visualisoimme emoji-tunteen arvot hienoilla malleilla!
💡: Muunnimme lasketut ja analysoidut tiedot (vasemmalla) kaavioon, jonka käyttäjät voivat paremmin ymmärtää (oikealla), mikä voi intuitiivisemmin näyttää emojien emotionaalisen jakautumisen;
Joten anna minun selittää seuraava kaavio, joka kuvaa emojin tunteen taipumuksen analyysin tuloksia todellisessa viestinnässä.
💡: 2 tyyppistä kaaviota emoji 👿: n mielipiteiden analysointiin, tässä analysoimme vain yllä olevaa kaaviota.
Kuvassa oleva puoliympyräkaari on jaettu kolmeen väreihin, jotka edustavat emoji different: n eri emotionaalisia taipumuksia. Kuten voimme nähdä, näiden kolmen tunteen osuudet ovat noin 4: 1: 5, vihreällä ja oranssilla on samanlaiset mittasuhteet, mikä tarkoittaa, että tämä emoji on enemmän neutraali (yllätys !!).
- Harmaa kohdistin on luottamustaso , tilastollinen käsite. Sen sijainti ja leveys osoittavat:
Expected Value ± Confidence
. - Odotettu arvo : Se on emoji-tunteen arvon dispersiivisten satunnaismuuttujien painotettu keskiarvo, jota käytetään ilmaisemaan todennäköisyyttä,
c ∈ [−1, 0, +1]
. - Luottamus : Se on emoji-tunteen arvojakauman parametrijoukko, joka näyttää kohtuullisen virhealueen positiivisen ja negatiivisen aikavälin muodossa. Ja mitä enemmän corpus-näytteitä on, sitä pienempi virhe.
Yksinkertaisesti sanottuna, mitä lähempänä kohdistinta on vasemmalla, tämän emojin tunne on negatiivisempi. Päinvastoin, mitä lähempänä kohdistinta on oikea, sitä positiivisempi tunne tuntee tämän emojin. Ja mitä kapeampi kohdistin on, tunteen arviointi on tarkempi.
Voitko nyt ymmärtää emoji-mielipiteiden analyysin kaavion?
Mikä on mielipiteen analyysi?
Uskon, että olet ymmärtänyt emoji-mielipiteiden analyysin datakaavion, joten puhutaanpa sentimenttianalyysiä.
Sentimenttianalyysiä kutsutaan myös mielipiteen louhinnaksi. Teknisesti katsottuna mielipiteiden analyysi on osa luonnollisen kielenkäsittelyn (NLP) tutkimusta. Sentimenttianalyysimenetelmät on jaettu kahteen tyyppiin: koneoppiminen ja sanakirjaan perustuvat menetelmät . Mutta syvän oppimisteknologian kehittyessä tämän tekniikan käytöstä tunteen analysoinnissa on tullut valtavirtaa.
Tunnelman analysointiprosessi sisältää tietojen esikäsittelyn, ominaisuuksien suunnittelun ja mallikoulutuksen. Yleisesti ottaen tietojen esikäsittelyvaihe jakaa tekstin pääasiassa sanoiksi ja poistaa lopetussanat ja välimerkit. Tunnelmaanalyysissämme on kuitenkin välimerkit ja lopetussanat. Ominaisuuksien suunnitteluvaiheessa valitsimme Google-tiimin vuonna 2013 ehdottaman sanan upottamisen esitys (Word2Vec), joka on jaettu CBOW-malliin (jatkuva sanapussi) ja Skip-gram- malliin. Mallin tulokset ovat seuraavat:
💡 : Vasemmalla on CBOW-malli, oikealla Skip-gram-malli
CBOW perustuu kontekstiin ennustamaan kohdesana, joka kouluttaa sanavektorin saamiseksi. Kuten kuvassa on esitetty, W (t) ennustetaan neljän sanan W(t-2), W(t-1), W(t+1), W(t+2)
; Ja ohita-gramma on ennustaa ympäröivät sanat kohdesanan mukaan kouluttaakseen sanavektorin saamiseksi. Kuten kuvassa on esitetty, on ennustettava W(t-2),W(t-1),W(t+1),W(t+2)
W (t): n mukaan .
Mallien ennustusvaiheessa tiedot jaetaan kahteen osaan: Harjoitussarja jaettuna suhteella 5: 1 ja testijoukko ja harjoitusjoukko käsitellään järjestyksessä.
Tunneleanalyysin käyttö emojissa
Sentimenttianalyysi on kattava analyysimenetelmä, joka yhdistää syvällisen oppimisen ja tilastot. Olemme saaneet emojin tunteen arvon monimutkaisen analyysin ja tietojen laskemisen jälkeen, ja täydellinen emoji-tunnelman analysointi on seuraava:
Emoji-tunteen analyysin prosessi
- Merkitse sosiaalisen verkostoitumisen korpus
- Tietojen esikäsittely
- Jaa tietojoukko: Harjoittelusarja (80%), Testisarja (20%)
- Käytä mallin rakentamiseen LSTM-hermoverkkoa
- Säädä hyperparametreja mallin suorituskyvyn mukaan testisarjassa mallin yleistyskyvyn parantamiseksi
- Suorita sama tietojen esikäsittelytoiminto leimaamattomille tiedoille
- Käytä koulutettua mielipiteen ennustusmallia ennustamaan tuntemattomuus tietojen merkitsemättömistä tiedoista
Suoritamme mielipiteiden analyysin emojilla ja käytämme syväoppimistekniikkaa kouluttaaksemme emoji-tekstin tunteen luokittelijan. Luokittelijan lähtötasolle valitaan aktivoitava sigmoidifunktio ja heijastetaan ulostulotason tulokset väliin 0-1. Mitä lähempänä teksti on nollaa, sitä negatiivisempi se on ja mitä lähempänä se on 1, sitä positiivisempi se on.
Sigmoidifunktion kaava on: F(x)=1/(1+ex)
Käytämme analyysikorpusina suurta otosdataa, joka sisältää 50 miljoonaa twiittiä, jotka sisältävät emojia, ja laitamme sitten korpus analysoitavaksi koulutettuun tunteiden luokittelijaan mielipiteen ennustamiseksi. Lopuksi luokittelijan mielipiteen ennustamisen tulokset on jaettu kolmeen tyyppiin: negatiivinen, neutraali ja positiivinen. Luokitteluperusteet ovat:
Joka tapauksessa, se on vaikeaa, mutta onnistuimme !!
Emoji Sentiment Analysis -sovelluksen käyttö ja näkymät
Sentimenttianalyysiä käytetään laajalti markkinoinnissa, mainonnassa, psykologiassa, lääketieteessä ja muilla aloilla. Päätämme tehdä emoji-mielipiteiden analyysin tarkoituksena on auttaa ihmisiä ymmärtämään paremmin emojia todellisessa sosiaalisessa vuorovaikutuksessa, poistamaan epäselvyys ja väärinkäsitys emojista tehokkaammin.
Esimerkiksi, kun keskustelet ystäväsi (tai ihastuksesi) kanssa verkossa, toinen henkilö voi joskus lähettää sinulle emojeja, joita et oikein ymmärrä. Itse asiassa on monia tällaisia tilanteita, kuten:
- Mitä 🤒 tarkoittaa jos joku vastaa kuvani?
- Mitä tarkoittaa, kun tyttö lähettää 😊 minulle?
- Jos murskaukseni lähettää minut ❤ , onko se hyvä merkki?
Kuten tiedämme, et voi kertoa emojin tarkkaa merkitystä, mutta tunteiden analyysin avulla voit analysoida nämä emojit psykologisesti, kuten "hän lähetti minulle 💞, se on positiivinen merkki, ehkä minun pitäisi pyytää häntä ulos" tai " miksi poikaystäväni lähettää minulle 😒? Se on tavallaan negatiivinen, onko hän vihainen minulle? " , jotain tällaista. Emoji Sentiment Analysis -sovelluksen avulla uskon, että ymmärrät emojin syvemmälle.
Kaiken kaikkiaan olemme maksaneet paljon tästä emoji-tunnelman analysointiprojektista. Vaikka se on vaikeaa, haluamme silti syventää sitä. Analysoimme nyt emojia eri kielillä, emojien emotionaalista vahvistumisvaikutusta puhtaaseen tekstiin, ja myös useita muita syventäviä tutkimuksia on harkittu. Kaikkien näiden tarkoituksena on tutkia emojien käyttöä lisää, ja toivon, että emojit ovat mielenkiintoisia ja informatiivisia.