Hver emoji er spesiell. Så lenge du analyserer det på en riktig måte, kan du finne ut mye informasjon som betydninger, kategori, relatert emne, til og med unik bruk av en emoji på et øyeblikk👀. Etter at vi har utført en stor mengde beregninger og analyser av hver emoji, får vi endelig Emoji Tag Cloud , nøkkelord og fraser relatert til en spesifikk emoji, og representerer den på en nyskapende visuell måte.

🔺Tagskyen av emoji [enhjørning🦄]

Hvordan får vi tags?

Som vi alle vet, er Twitter en global kjent sosial nettverkstjeneste, og folk liker å tweete tekster med emojier for å uttrykke følelsene sine eller bare som pynt. De fleste av taggene våre er fra tweets over hele verden. Vi analyserer tweets fra 2018.01 til 2021.11 og trekker ut taggene fra 812 millioner tweets som inneholder emojier. Da bruker vi statistikk og algoritmer for å plukke ut tekstene som er høyst relevante for en spesifikk emoji, og skille språket. Gjennom dette kan vi til og med vite hvordan en emoji brukes i forskjellige land.

Her bruker vi engelsk side som eksempel. Disse 2 emojiene på vår engelske side: 😎 (smilende ansikt med solbriller) og 🦄 (enhjørning). Vi utfører tag-utvinning til dem og får ord som [cool] eller [nicki] .

Her dukker det opp et nytt problem❓: Selvfølgelig er det mange tekster relatert til en emoji, hvordan velger vi den mest egnede taggen, og hvordan ordner vi dem?

I denne situasjonen involverer de ytterligere algoritmer.

Den profesjonelle teknologiforklaringen om tag-utvinning

Det finnes mange typer tag-utvinningsteknologier med forskjellige effekter, for eksempel abstrakt utvinning for artikler og nøkkelordtagging-algoritmer for korte tekster. Vår "Emoji Tag Cloud-Twitter Tag Extraction" er basert på TF-IDF-algoritmen . Den ble utført med en modifisert prosess basert på egenskapene til Twitter-dataene, som er en uovervåket algoritme for utvinning av kort tekstetikett.

For å lette forståelsen, oppsummerer vi her prosedyren for å trekke ut tagger i 3 trinn.

  • Først utfører vi emoji utvinning og tekst rengjøring for hver tweet med en måned som en enhet, må du ta emner og kallenavn som [@xx], [#xx], og slette tweet URL. Under tekstrensingen filtrerer vi også stoppord på forskjellige språk (f.eks. fjerner noen modale partikler som ah, oh, etc.), forkortelser, ordformer, store bokstaver og andre faktorer, og får til slutt ordfrekvensinformasjon som tilsvarer hver emoji .
  • For det andre bruker vi tekstrepresentasjonsalgoritmen TF-IDF (term frequency-inverse document frequency) for å beregne en innledende etiketttekstvekt basert på resultatene oppnådd i forrige trinn.
  • Beregningsformelen er: TF-IDF = TF * IDF

    TF (Term Frequency) oppnås ved å dele antallet forekomster av et ord som tilsvarer en emoji med det totale antallet ord som tilsvarer emojien. IDF er invers dokumentfrekvens, IDF = log( N / N(w) ) , mens [N] representerer det totale antallet emojier, representerer [N(w)] antall emojier som inneholder ordet [w].

    🔺Når et ord vises i både emojiA og emojiB, betyr det at ordet ikke er representativt nok, og vekten av dette ordet bør reduseres. Fra formelen IDF = log( N / N(w) ), kan man se at rekkevidden til IDF mellom 0 og positiv uendelig avtar med økningen av N(w).

    Når et begrep forekommer flere ganger i en artikkel, betyr det at begrepets vekt er større. Ordene som dukker opp oftest er imidlertid ord som uttrykker tone eller ikke har noen egentlig betydning, for eksempel [aww], [oh] eller [RT]. Det er vanskelig å unngå filtrering av slike ord hvis man bare sorterer og filtrerer etter TF-verdien. Så det inverse dokumentnummeret for IDF er introdusert som en begrensning, for å beregne en mer nøyaktig verdi for å representere vekten av etikettteksten.

    På slutten av trinn 2 vil vi filtrere oppføringene som vises mer enn 15 % av det totale antallet emojier.

  • Enhetene beregnet i de to første trinnene er månedlige data, og de totale dataene er fire år. På siste trinn vil vi utføre en ny runde med konsoliderte statistiske beregninger på alle månedlige data.
  • Konverter de beregnede fireårige tweet-dataene til [(sum(tfidf_m) / M) * log(M)] , og beregn videre vekten av hver tag-oppføring. [sum(tfidf_m)] representerer summen av TF-IDF-verdiene til begrepet i hver måned, og [M] representerer antall måneder begrepet vises i.

Dette er altså den omtrentlige beregningsmetoden for emoji-tagdata. Etter at de endelige dataene er oppsummert, vil vi også manuelt sjekke og filtrere i henhold til språket for å få mer nøyaktige tag-resultater.


I tillegg vil taggene også bruke CLDR-kortnavn og CLDR-nøkkelord som referanse, de er den mest grunnleggende tagteksten, noe som betyr at du alltid vil se noen av disse ordene i Emoji Tag Cloud.

🔺 Når en emoji sendes inn til Unicode Consortium, er det nødvendig å ha CLDR-kortnavn og CLDR-nøkkelord i forslaget, så disse ordene må ta hensyn til taggvalg. Informasjonen til emoji [enhjørning🦄], vi legger det korte navnet og noen av nøkkelordene i merkeskyen.

Hvordan bruke vår Emoji Tag Cloud?

Det har vært en god stund vi ga ut Emoji Tag Cloud. Personlig tror jeg det er et veldig morsomt og nyttig verktøy for å observere en spesifikk emoji, noen ganger kan du til og med vite hvilken gruppe eller trendemne som foretrekker å bruke denne emojien. La meg vise deg hvordan du bruker vår Emoji Tag Cloud!

Som nevnt ovenfor er vekten av hver tag-tekst forskjellig. Du kan ganske enkelt bedømme korrelasjonen mellom tagger og emoji etter størrelsen på sirkelen (jo større, jo mer relevant). Eller du kan sette musen på sirkelen, det vil være en liten firkant med [nummer, tag-tekst] vises. I denne situasjonen, jo mindre tallet er, er taggen i denne sirkelen mer relevant for emojien. Du kan også klikke på disse kodene for å søke etter andre relaterte emojier!

Likevel bruker vi enhjørning som eksempel. Tag Cloud av emoji [enhjørning 🦄 ] er som nedenfor:

Som du kan se, er topp 5-taggene til 🦄 [unicorn], [nicki] , [unicorns] , [plt] og [barbz] .

Ordet [enhjørning] er CLDR-kortnavnet på denne emojien, og resten av 4 tagger er alle hentet fra twitter. [nicki] og [barbz] er relatert til Nicki Minaj og hennes fangruppe, og ordet [plt] refererer til [Pretty Little Thing] , en UK-basert moteforhandler eller bare denne setningen. 🦄 er en populær emoji i SNS, og en veldig representativ emoji for Nicki Minaj-fans. Hvis du elsker Nicki, bør du definitivt bruke denne emojien!


Alt i alt, ved å bruke vår Emoji Tag Cloud , kan du enkelt finne ut det relaterte innholdet til en spesifikk emoji, kanskje du til og med kan vite mer om popkultur og unngå flauhet over å ikke vite den grunnleggende og utvidede betydningen av en emoji. Noen ganger kan bruken av en emoji bli et sosialt fenomen, for eksempel denne emojien 🥺 i Japan. Som en emoji for å uttrykke tigging, klage eller nydelighet, vant dette ordet "ぴえん🥺" "JC&JK Buzzword Awards 2019", "2019 Gal Buzzword Award" 2. plass, førsteplassen til "Instagram Buzzword Award for første halvdel av 2020" og ble en trend-emoji over hele Japan! I dette tilfellet, for noen mennesker, er Emoji Tag Cloud også et flott verktøy for å bli kjent med internettkultur, alt avhenger av hvordan du bruker den.

Alle disse er for å utforske mer bruk av emoji, og håper du synes at emoji er interessant og informativ. For å gi deg nøyaktig emoji-relatert innhold, vil dataene også fortsette å oppdateres. Hvis du har flere råd om Emoji Tag Cloud, vennligst gi oss beskjed i kommentarene nedenfor👇!