Hver emoji er speciel. Så længe du analyserer det på den rigtige måde, kan du hurtigt finde ud af mange oplysninger såsom betydninger, kategori, relateret emne, endda en unik brug af en emoji👀. Efter at vi har udført en stor mængde beregninger og analyser af hver emoji, får vi endelig Emoji Tag Cloud , søgeord og sætninger relateret til en specifik emoji og repræsenterer det på en ny visuel måde.

🔺Mærkeskyen af emoji [enhjørning🦄]

Hvordan får vi tags?

Som vi alle ved, er Twitter en global berømt social netværkstjeneste, og folk kan lide at tweete tekster med emojis for at udtrykke deres følelser eller bare som dekoration. De fleste af vores tags er fra tweets over hele verden. Vi analyserer tweets fra 2018.01 til 2021.11 og udtrækker tags fra 812 millioner tweets, der indeholder emojis. Så bruger vi statistik og algoritmer til at udvælge de tekster, der er yderst relevante for en specifik emoji, og skelne sproget. Gennem dette kan vi endda vide, hvordan en emoji bruges i forskellige lande.

Her bruger vi engelsk side som eksempel. Disse 2 emojis på vores engelske side: 😎 (smilende ansigt med solbriller) og 🦄 (enhjørning). Vi udfører tag-udtrækning til dem og får ord som [cool] eller [nicki] .

Her dukker et nyt problem op❓: Selvfølgelig er der masser af tekster relateret til en emoji, hvordan vælger vi så det bedst egnede tag, og hvordan arrangerer vi dem?

I denne situation involverer de yderligere algoritmer.

Den professionelle teknologiske forklaring på tag-udtrækning

Der er mange typer tag-ekstraktionsteknologier med forskellige effekter, såsom abstrakt udtræk til artikler og nøgleordstagging-algoritmer til korte tekster. Vores "Emoji Tag Cloud-Twitter Tag Extraction" er baseret på TF-IDF algoritmen . Det blev udført med en modificeret proces baseret på karakteristikaene for Twitter-dataene, som er en uovervåget algoritme for udtrækning af kort tekstetiketter.

For at lette forståelsen opsummerer vi her proceduren for tag-udtrækning i 3 trin.

  • Først, vi udfører emoji udvinding og tekst rengøring for hver tweet med en måned som en enhed, skal du tage emner og øgenavne som [@xx], [#xx], og slet tweet webadresse. Under tekstrensningen filtrerer vi også stopord på forskellige sprog (f.eks. fjern nogle modale partikler som ah, oh osv.), forkortelser, ordformer, store bogstaver og andre faktorer, endelig får ordfrekvensinformationsdata svarende til hver emoji .
  • For det andet bruger vi TF-IDF (term frequency-inverse document frequency) tekstrepræsentationsalgoritme til at beregne en indledende etikettekstvægt baseret på resultaterne opnået i det foregående trin.
  • Beregningsformlen er: TF-IDF = TF * IDF

    TF (Term Frequency) fås ved at dividere antallet af forekomster af et ord svarende til en emoji med det samlede antal ord, der svarer til emojien. IDF er Inverse Document Frequency, IDF = log( N / N(w) ) , mens [N] repræsenterer det samlede antal emojis, repræsenterer [N(w)] antallet af emojis, der indeholder ordet [w].

    🔺Når et ord optræder i både emojiA og emojiB, betyder det, at ordet ikke er repræsentativt nok, og vægten af dette ord bør reduceres. Ud fra formlen IDF = log( N / N(w) ), kan det ses, at området for IDF mellem 0 og positiv uendelighed falder med stigningen af N(w).

    Når et udtryk optræder flere gange i en artikel, betyder det, at udtrykkets vægt er større. Men de ord, der optræder oftest, er ord, der udtrykker tone eller ikke har nogen egentlig betydning, såsom [aww], [oh] eller [RT]. Det er svært at undgå filtrering af sådanne ord, hvis man kun sorterer og filtrerer efter TF-værdien. Så det omvendte dokumentnummer i IDF er indført som en begrænsning for at beregne en mere nøjagtig værdi til at repræsentere vægten af etiketteksten.

    I slutningen af trin 2 vil vi filtrere de poster, der vises mere end 15% af det samlede antal emojis.

  • Enhederne beregnet i de første to trin er månedlige data, og de samlede data er fire år. På det sidste trin vil vi udføre endnu en runde af konsoliderede statistiske beregninger på alle månedlige data.
  • Konverter de beregnede fire-årige tweet-data i form af [(sum(tfidf_m) / M) * log(M)] , og beregn yderligere vægten af hver tag-indgang. [sum(tfidf_m)] repræsenterer summen af termens TF-IDF-værdier i hver måned, og [M] repræsenterer antallet af måneder, hvor termen optræder.

Disse er så den omtrentlige beregningsmetode for emoji-tagdata. Efter at de endelige data er opsummeret, vil vi også manuelt kontrollere og filtrere efter sproget for at få mere nøjagtige tag-resultater.


Derudover vil tags også bruge CLDR short name og CLDR nøgleord til reference, de er den mest basale tag tekst, hvilket betyder, at du altid vil se nogle af disse ord i Emoji Tag Cloud.

🔺 Når en emoji indsendes til Unicode Consortium, er det nødvendigt at have CLDR-kortnavn og CLDR-nøgleord i sit forslag, så disse ord skal tage hensyn til tag-valg. Oplysningerne om emoji [enhjørning🦄], vi har lagt dets korte navn og nogle af nøgleordene i dens tagsky.

Hvordan bruger man vores Emoji Tag Cloud?

Det har været en lang tid, vi udgav Emoji Tag Cloud. Personligt synes jeg, det er et meget sjovt og nyttigt værktøj til at observere en specifik emoji, nogle gange kan du endda vide, hvilken gruppe eller trendemne der foretrækker at bruge denne emoji. Lad mig vise dig, hvordan du bruger vores Emoji Tag Cloud!

Som nævnt ovenfor er vægten af hver tagtekst forskellig. Du kan simpelthen bedømme sammenhængen mellem tags og emoji ud fra størrelsen på cirklen (jo større, jo mere relevant). Eller du kan sætte musen på cirklen, der vil være en lille firkant med [nummer, tag-tekst] dukker op. I denne situation, jo mindre tallet er, er tagget i denne cirkel mere relevant for emojien. Du kan også klikke på disse tags for at søge efter andre relaterede emojis!

Alligevel bruger vi enhjørning som eksempel. tagskyen af emoji [enhjørning 🦄 ] er som nedenfor:

Som du kan se, er top 5 tags af 🦄 [enhjørning], [nicki], [enhjørninger], [plt] og [barbz] .

Ordet [enhjørning] er det korte CLDR-navn på denne emoji, og resten af 4 tags er alle udvundet fra twitter. [nicki] og [barbz] er relateret til Nicki Minaj og hendes fangruppe , og ordet [plt] henviser til [Pretty Little Thing] , en britisk-baseret modeforhandler eller bare denne sætning. 🦄 er en populær emoji i SNS og en meget repræsentativ emoji for Nicki Minaj-fans. Hvis du elsker Nicki, bør du helt sikkert bruge denne emoji!


Alt i alt kan du ved at bruge vores Emoji Tag Cloud nemt finde ud af det relaterede indhold af en specifik emoji, måske kan du endda vide mere om popkultur og undgå forlegenhed over ikke at kende den grundlæggende og udvidede betydning af en emoji. Nogle gange kan brugen af en emoji blive et socialt fænomen, såsom denne emoji 🥺 i Japan. Som en emoji til at udtrykke tiggeri, klage eller skønhed vandt dette ord "ぴえん🥺" "JC&JK Buzzword Awards 2019", "2019 Gal Buzzword Award" 2. pladsen, førstepladsen for "Instagram Buzzword Award for første halvdel af 2020" og blev en trend-emoji over hele Japan! I dette tilfælde er Emoji Tag Cloud for nogle mennesker også et godt værktøj til at blive klogere på internetkulturen, alt afhænger af, hvordan du bruger det.

Alle disse er for at udforske mere brug af emoji, og håber du finder emoji er interessant og informativ. For at give dig nøjagtigt emoji-relateret indhold vil dataene også blive ved med at opdatere. Hvis du har flere råd om Emoji Tag Cloud, så lad os det vide i kommentarerne nedenfor👇!


Fungere Menu

Kategorier

hudfarve

frisure

køn

Følelse

Version