Funksjon Meny

kategorier

hudtone

hår stil

kjønn

Sentiment

Versjon

Emoji er fulle av følelser. Det kan forbedre eller justere tonen og stemningen i teksten, samtidig kan følelsene som uttrykkes av emoji være mer åpenbare enn bare ord.

For eksempel denne emojien 👿 (sint ansikt med horn). Det er åpenbart i form av en djevelkarakter, så det kan ha tanker ansett at det er en "dårlig" emoji, som noen onde tanker i hodet på noen.

Men likevel er denne typen beskrivelse veldig abstrakt. Kan vi derfor visualisere følelsestypene og nivåene uttrykt av disse emojiene?


Svaret er "Ja" selvfølgelig! Vi utførte Natural Language Processing (NLP) på offentlige eksempler på ikke mindre enn 50 millioner tweets, og vi bruker Text Sentiment Analysis (også kalt opinion mining) for å knytte emoji-sentimentet til et sett med verdier og visualisere det. Vi brukte mye tid, energi og datakraft for å gjøre vår emoji-sentimentanalyse mer vitenskapelig og streng, slik at alle kan føle sjarmen og få bedre forståelse av emoji.

Visuelle diagrammer for emoji-sentimentanalyse

Data som emoji sentimentverdi ble beregnet i henhold til tekst sentimentanalyse, som tilhører statistikk og sannsynlighetsteori. Etter at vi løste problemet med algoritme og datakraft, møtte vi nye vanskeligheter: hvordan få brukerne til å forstå disse profesjonelle dataene?

En tanke krysser oss --— Hei! Hva med at vi visualiserer emoji-sentimentverdier med noen kule design!

💡: Vi konverterte de beregnede og analyserte dataene (til venstre) til et diagram som kan forstås bedre av brukerne (høyre), som mer intuitivt kan vise den emosjonelle inndelingen av emoji;

Så la meg forklare følgende diagram, som skildrer resultatene av emojis sentimentanalyseanalyse i faktisk kommunikasjon.

💡: 2 typer diagrammer for emoji 👿 s sentimentanalyse, her analyserer vi bare diagrammet ovenfor.

Halvsirkelbuen i bildet er delt inn i tre farger, som representerer forskjellige emosjonelle tendenser til emoji 👿 . Som vi kan se, er proporsjonene til disse tre følelsene omtrent 4: 1: 5, grønt og oransje har lignende proporsjoner, noe som betyr at denne emoji er mer nøytral (overraskelse !!).

  • Den grå markøren er konfidensnivå , et statistisk konsept. Dens posisjon og bredde indikerer: Expected Value ± Confidence .
  • Forventet verdi : Det er det vektede gjennomsnittet av dispersive tilfeldige variabler av emoji-sentimentverdi, brukt til å uttrykke sannsynlighet, c ∈ [−1, 0, +1] .
  • Tillit : Det er parametersettet for verdifordeling av emoji-sentimenter, viser et rimelig feilområde i form av positivt og negativt intervall. Og større antall korpusprøver er, jo mindre er feilen.

Enkelt sagt, jo nærmere markøren er til venstre, følelsene til denne emojien er mer negativ. Tvert imot, jo nærmere markøren er til høyre, jo mer positive følelser uttrykt av denne emoji. Og jo smalere markøren er, er følelsen bedre.


Nå, kan du forstå vårt diagram over emoji-sentimentanalyse?

Hva er sentimentanalyse?

Jeg tror at du har forstått datakartet for emoji-sentimentanalyse, så la oss snakke om hva som er sentimentanalyse.

Sentimentanalyse kalles også opinion mining. Teknisk sett er sentimentanalyse en del av NLP-forskning (Natural Language Processing). Sentimentanalysemetoder er delt inn i to typer: Machine learning og Dictionary-baserte metoder . Men med utviklingen av dyp læringsteknologi har bruken av denne teknologien til sentimentanalyse blitt det vanlige.

Sentimentanalyseprosessen inkluderer forbehandling av data, funksjonsteknikk og modellopplæring. Generelt deler dataforbehandlingstrinnet hovedsakelig teksten i ord og fjerner stoppord og tegnsetting. Imidlertid beholder vår sentimentanalyse skilletegn og stoppord. I funksjonsteknikkfasen valgte vi ordet innebygd representasjon (Word2Vec) foreslått av Google-teamet i 2013, som er delt inn i CBOW-modellen (kontinuerlig pose med ord) og Skip-gram- modellen. Modellresultatene er som følger:

💡 : Til venstre er CBOW-modellen, til høyre er Skip-gram-modellen

CBOW er basert på konteksten for å forutsi målordet for å trene for å oppnå ordvektoren. Som vist i figuren blir W (t) spådd basert på fire ord W(t-2), W(t-1), W(t+1), W(t+2) ; Og skip-gram er å forutsi de omkringliggende ordene i henhold til målordet for å trene for å oppnå ordvektoren. Som vist i figuren er å forutsi W(t-2),W(t-1),W(t+1),W(t+2) henhold til W (t) .

I modellforutsigelsesfasen deler vi dataene i to deler: Treningssettet delt i forholdet 5: 1 og testsettet og treningssettet behandles ute av drift.

Anvendelse av sentimentanalyse i emoji

Sentimentanalyse er en omfattende analysemetode som kombinerer dyp læring og statistikk. Vi har fått sentimentverdien til emoji etter komplisert analyse og beregning av data, og den komplette analyseprosessen for emoji-sentimenter er som følger:

Prosessen med Emoji Sentiment Analysis

  • Merk sosiale nettverk korpus
  • Forbehandling av data
  • Del datasettet: Training Set (80%), Testing Set (20%)
  • Bruk LSTM nevrale nettverk til å bygge en modell
  • I henhold til ytelsen til modellen på testsettet, juster hyperparametrene for å forbedre modellens generaliseringsevne
  • Utfør den samme databehandlingshandlingen på umerkede data
  • Bruk den trente følelsesforutsigelsesmodellen for å forutsi følelsestendensen på umerkede data

Vi utfører sentimentanalyse på emoji, og bruker dyp læringsteknologi for å trene for å få en emoji tekst sentimentklassifiserende. For utgangslaget til klassifisereren velger vi sigmoid-funksjonen som skal aktiveres, og projiserer resultatene av utgangslaget til intervallet 0-1. Jo nærmere teksten er 0, jo mer negativ er den, og jo nærmere den er 1, jo mer positiv er den.

Formelen for sigmoidfunksjonen er: F(x)=1/(1+ex)

Vi bruker en stor eksempeldata på 50 millioner tweets som inneholder emoji som et analysekorpus, og legger deretter korpusbehovet til å bli analysert i den trente sentimentklassifisereren for sentimentforutsigelse. Til slutt, resultatene av sentiment prediksjon fra klassifisereren er delt inn i tre typer: negativ, nøytral og positiv. Klassifiseringskriteriene er:

Uansett er det vanskelig, men vi klarte det !!

Bruken og utsiktene til Emoji Sentiment Analysis

Sentimentanalyse er mye brukt innen markedsføring, reklame, psykologi, medisinsk og andre felt. Vi bestemmer oss for å gjøre emoji-sentimentanalyse er å hjelpe folk til å få dypere forståelse av emoji i faktisk sosial interaksjon, eliminere tvetydighet og misforståelse av emoji mer effektivt.

For eksempel når du chatter med vennen din (eller forelskelsen din) på nettet, kan den andre personen noen ganger sende deg emojier som du ikke helt forstår. Egentlig er det mange situasjoner som dette, for eksempel:

  • Hva betyr 🤒 hvis noen svarer på bildet mitt?
  • Hva betyr det når en jente sender 😊 til meg?
  • Hvis min forelskelse sender meg , er det da et godt tegn?

Som vi vet, kan du ikke fortelle en emoji sin nøyaktige betydning, men gjennom vår sentimentanalyse kan du kanskje analysere disse emojene psykologisk, som "hun sendte meg en 💞, det er et positivt tegn, kanskje jeg bør spørre henne ut" eller " hvorfor kjæresten min sender meg en 😒? Det er litt negativt, er han sint på meg? " , noe sånt som dette. Med vår Emoji Sentiment-analyse tror jeg du kan forstå emoji dypere.


Alt i alt har vi betalt mye for dette emoji-sentimentanalyseprosjektet. Selv om det er vanskelig, vil vi fortsatt gjøre det dypere. Vi analyserer nå emoji på forskjellige språk, den emosjonelle gevinsteffekten av emoji på ren tekst, og flere andre avanserte studier har også blitt vurdert. Alt dette er for å utforske mer bruk av emoji, og håper du finner emoji er interessant og informativt.