Nå for tiden skapes det flere og mer praktiske og interessante emoji-bruk, for eksempel vil ulike kategorier av emoji bli kombinert sammen for å bli en Meme, eller tilsynelatende urelaterte emoji kan faktisk brukes til å beskrive den samme betydningen, noe som gjør at emoji gradvis skaper en sammenheng mellom dem. Vi ønsker å vise dette forholdet mellom emoji visuelt og la brukere få en dypere forståelse av emoji-bruk, så vi bruker maskinlæringsalgoritmer for å beregne forholdet mellom emoji og tegne resultatet inn i et lettfattelig bilde, som er emoji-forholdet Graf .
Hva er Emoji Relationship Graph?
Det er velkjent at emojier vanligvis presenteres som bilder, men det er umulig å finne ut av forholdet mellom emoji og bilder, fordi hovedbruken av emoji er å formidle informasjon og følelser, de er mer som et språk, så det blir mer nøyaktig å utforske forholdet deres gjennom betydningen og bruken av emoji. Derfor fikk vi alle tweets som inneholdt emoji fra 2018 til 2021, totalt 812 millioner tweets . Tatt i betraktning at bruken av emoji vil være forskjellig i forskjellige språkmiljøer, klassifiserte vi tweetene etter språk, og beregnet deretter tekstlikheten mellom emoji på hvert språk ved hjelp av maskinlæringsalgoritme, for å få den tilsvarende Emoji-relasjonsgrafen for hvert språk.
Hvordan forstå Emoji-relasjonsgrafen?
Dette er Emoji Relationship Graph for 👉 for spansk. Den røde boksen viser de 9 emojiene som er nærmest den, lengden på strålen representerer graden av sammenheng, jo kortere strålen er, jo nærmere forholdet. I tillegg viser grafen også en del av andre emojis forholdsgraf. I den svarte boksen er relasjonsgrafen til 👆 ,og i den oransje boksen er relasjonsgrafen til ⤵ .
Resultatene reflektert i relasjonsgrafen lar oss få en rikere forståelse av bruken av emoji. For eksempel er disse to 👈 🥺 ofte brukt som en kombinasjon med 👉 de siste årene for å uttrykke fornærmede, sjenerte eller bønnfallende, så de vises i denne relasjonsgrafen:
Disse to emojiene brukes ofte for å indikere lenker, noe som betyr at de har likheter i bruk, så de er nær hverandre i relasjonsgrafen:
Hvis du fordyper deg i emoji-forholdskartet, kan du oppdatere oppfatningen din av noen emojier.
Hvordan beregne forholdet mellom emoji?
Deretter vil vi gi deg en detaljert beskrivelse av beregningsprosessen. Det kan grovt deles inn i følgende tre trinn:
- Først bruker vi TF-IDF-algoritmen for å trekke ut taggene til hver emoji fra tweetene og vekten som tilsvarer hver tag. Etiketter refererer til de ordene som er mest relatert til emoji, som tilsvarer egenskapene til en emoji; og vekter refererer til nærheten til forholdet mellom tagger og emoji, jo høyere vekt, jo nærmere forholdet. Om algoritmen og beregningsprosessen for å få tags, har vi skrevet en artikkel for å introdusere den i detalj, du kan klikke på den riktige lenken for å lese den: ☁️Emoji Tag Cloud: Help You To Get More Knowledge Of Emoji!
- Etter å ha fått etikettene, oppstår et nytt problem. Når det kommer til beregninger, vet vi alle at det vanligvis bare er numeriske verdier som kan beregnes, men kodene presenteres som tekst, så hvordan kan de beregnes algoritmisk? Derfor er vårt andre trinn å konvertere teksten til de numeriske verdiene som kan beregnes—— Vector . Denne prosessen kalles Word Embedding . Vi må først lese en stor mengde tweet-data ved å bruke word2vec-algoritmen (en av metodene for ordinnbygging) for å transformere hvert ord i teksten til en vektor, deretter kan vi få en ordinnbyggingsmatrise som består av alle høydimensjonale vektorer av ord, og senere kartlegge hvert ord som tilsvarer hver tag vi fikk i det første trinnet inn i en høydimensjonal vektor gjennom ordet embedding-matrisen. Dermed har vi fullført tekst-til-vektor-konverteringen. Disse høydimensjonale vektorene beregnes ved å analysere konteksten til teksten, noe som godt kan bevare den semantiske informasjonen til hvert ord og dermed sikre nøyaktigheten av tekstlikheten. Word2vec-algoritmen er også forklart i detalj i bloggen vår, hvis du vil ha flere detaljer kan du lese den: 🔍Emoji Sentiment Analysis
- Det siste trinnet er å beregne tekstlikheten mellom emojiene. Algoritmen som vanligvis brukes for å beregne tekstlikhet er VSM (Vector Space Model) . Dette er en av de mest brukte likhetsberegningsmodellene, men den oppnår resultater ved å beregne samtidige ord (ord som forekommer i begge tekstene) av to tekster, noe som ikke er nøyaktig når man står overfor tekster med samme betydning, men forskjellige ordlyd. for å unngå denne situasjonen, valgte vi en annen algoritme—— SCM(Soft Cosine Measure) . Den kan måle likheten mellom ord, så selv om to tekster ikke har ord til felles, kan denne algoritmen beregne likheten mellom to tekster ved å evaluere ordlikheten. Etter at vi har brukt SCM til å måle vektoren, betyr jo større verdi vi får, jo høyere tekstlikhet mellom emojier, og jo høyere tekstlikhet, desto nærmere forhold er de.
Konklusjon
Gjennom relasjonsgrafen kan vi forstå folks vaner og preferanser med å bruke emoji, og utforske trenden med emoji-bruk. Du kan bli overrasket over å finne ut at noen emojier du ikke ville assosiere med hverandre faktisk er veldig nært beslektet, og det kan være en ny trendy bruk av emoji du ikke har kjent ennå! Også, hvis du har noen forslag, vennligst fortell oss i kommentaren!