Ogni emoji è speciale. Se lo analizzi nel modo giusto, puoi scoprire molte informazioni come significati, categoria, argomento correlato, persino un uso unico di un'emoji a colpo d'occhio👀. Dopo aver eseguito una grande quantità di calcoli e analisi per ogni emoji, finalmente otteniamo Emoji Tag Cloud , parole chiave e frasi relative a un'emoji specifica e la rappresentiamo in un modo visivo innovativo.

🔺La nuvola di tag delle emoji [unicorno🦄]

Come otteniamo i tag?

Come tutti sappiamo, Twitter è un servizio di social network famoso in tutto il mondo e alle persone piace twittare testi con emoji per esprimere le proprie emozioni o semplicemente come decorazione. La maggior parte dei nostri tag proviene da tweet di tutto il mondo. Analizziamo i tweet dal 2018.01 al 2021.11 ed estraiamo i tag da 812 milioni di tweet che contengono emoji. Quindi utilizziamo statistiche e algoritmi per selezionare i testi che sono altamente rilevanti per una specifica emoji e distinguere la lingua. Attraverso questo, possiamo persino sapere come viene utilizzata un'emoji in diversi paesi.

Qui usiamo il sito inglese come esempio. Questi 2 emoji nella nostra pagina inglese: 😎 (faccina sorridente con occhiali da sole) e 🦄 (unicorno). Eseguiamo l'estrazione dei tag per loro e otteniamo parole come [cool] o [nicki] .

Qui si presenta un nuovo problema❓: Ovviamente ci sono molti testi relativi a un'emoji, quindi come scegliamo il tag più adatto e come disporli?

In questa situazione, coinvolgono ulteriori algoritmi.

La spiegazione tecnologica professionale dell'estrazione dei tag

Esistono molti tipi di tecnologie di estrazione di tag con effetti diversi, come l'estrazione astratta per gli articoli e gli algoritmi di tagging delle parole chiave per i testi brevi. La nostra "Emoji Tag Cloud-Twitter Tag Extraction" si basa sull'algoritmo TF-IDF . È stato eseguito con un processo modificato in base alle caratteristiche dei dati di Twitter, che è un algoritmo di estrazione di etichette di testo breve non supervisionato.

Per facilitare la comprensione, qui riassumiamo la procedura di estrazione dei tag in 3 passaggi.

  • Innanzitutto, eseguiamo l' estrazione di emoji e la pulizia del testo per ogni tweet con un mese come unità, rimuoviamo argomenti e soprannomi come [@xx], [#xx] ed eliminiamo l'URL del tweet. Durante la pulizia del testo, filtriamo anche le parole di arresto in diverse lingue (ad esempio, rimuoviamo alcune particelle modali come ah, oh, ecc.), abbreviazioni, forme di parole, lettere maiuscole e altri fattori, infine otteniamo i dati di informazione sulla frequenza delle parole corrispondenti a ciascuna emoji .
  • In secondo luogo, utilizziamo l'algoritmo di rappresentazione del testo TF-IDF (term frequency-inverse document frequency) per calcolare un peso iniziale del testo dell'etichetta in base ai risultati ottenuti nel passaggio precedente.
  • La formula di calcolo è: TF-IDF = TF * IDF

    TF (Term Frequency) si ottiene dividendo il numero di occorrenze di una parola corrispondente a un'emoji per il numero totale di parole corrispondenti all'emoji. IDF è Inverse Document Frequency, IDF = log( N / N(w) ) , mentre [N] rappresenta il numero totale di emoji, [N(w)] rappresenta il numero di emoji contenenti la parola [w].

    🔺Quando una parola appare sia in emojiA che in emojiB, significa che la parola non è sufficientemente rappresentativa e il peso di questa parola dovrebbe essere ridotto. Dalla formula IDF = log( N / N(w) ), si vede che l'intervallo di IDF tra 0 e infinito positivo diminuisce con l'aumento di N(w).

    Quando un termine compare più volte in un articolo, significa che il peso del termine è maggiore. Tuttavia, le parole che appaiono più spesso sono parole che esprimono tono o non hanno un significato reale, come [aww], [oh] o [RT]. È difficile evitare il filtraggio di tali parole se si ordina e si filtra solo in base al valore TF. Quindi il numero di documento inverso IDF viene introdotto come vincolo, al fine di calcolare un valore più accurato per rappresentare il peso del testo dell'etichetta.

    Alla fine del passaggio 2, filtreremo le voci che appaiono più del 15% del numero totale di emoji.

  • Le unità calcolate nei primi due passaggi sono dati mensili e i dati totali sono quattro anni. Nell'ultimo passaggio, eseguiremo un altro giro di calcoli statistici consolidati su tutti i dati mensili.
  • Converti i dati del tweet di quattro anni calcolati nella forma di [(sum(tfidf_m) / M) * log(M)] e calcola ulteriormente il peso di ciascuna voce di tag. [sum(tfidf_m)] rappresenta la somma dei valori TF-IDF del termine in ogni mese e [M] rappresenta il numero di mesi in cui appare il termine.

Questi, quindi, sono il metodo di calcolo approssimativo dei dati dei tag emoji. Dopo che i dati finali sono stati riepilogati, controlleremo e filtreremo anche manualmente in base alla lingua per ottenere risultati di tag più accurati.


Inoltre, i tag utilizzeranno anche il nome breve CLDR e le parole chiave CLDR come riferimento, sono il testo del tag più semplice, il che significa che vedrai sempre alcune di queste parole nell'Emoji Tag Cloud.

🔺 Quando un'emoji viene inviata a Unicode Consortium, è necessario avere il nome breve CLDR e le parole chiave CLDR nella sua proposta, quindi queste parole devono prendere in considerazione la scelta del tag. Le informazioni di emoji [unicorn🦄], abbiamo inserito il suo nome breve e alcune parole chiave nella sua nuvola di tag.

Come usare la nostra Emoji Tag Cloud?

È passato molto tempo da quando abbiamo rilasciato Emoji Tag Cloud. Personalmente, credo che sia uno strumento molto divertente e utile per osservare un'emoji specifica, a volte puoi persino sapere quale gruppo o argomento di tendenza preferisce usare questa emoji. Lascia che ti mostri come utilizzare la nostra Emoji Tag Cloud!

Come accennato in precedenza, il peso di ogni testo di tag è diverso. Puoi semplicemente giudicare la correlazione tra tag ed emoji in base alla dimensione del cerchio (più grande è, più rilevante). Oppure puoi mettere il mouse sul cerchio, ci sarà un piccolo quadrato con [numero, testo del tag] visualizzato. In questa situazione, più piccolo è il numero, più il tag in questo cerchio è rilevante per l'emoji. Puoi anche fare clic su questi tag per cercare altri emoji correlati!

Tuttavia, usiamo l'unicorno come esempio. la Tag Cloud di emoji [unicorn 🦄 ] è come di seguito:

Come puoi vedere, i primi 5 tag di 🦄 sono [unicorn], [nicki], [unicorns], [plt] e [barbz] .

Parola [unicorno] è il nome breve CLDR di questa emoji e il resto dei 4 tag sono tutti estratti da Twitter. [nicki] e [barbz] sono legati a Nicki Minaj e al suo gruppo di fan , e la parola [plt] si riferisce a [Pretty Little Thing] , un rivenditore di moda con sede nel Regno Unito o semplicemente a questa frase. 🦄 è un'emoji popolare in SNS e un'emoji molto rappresentativa per i fan di Nicki Minaj. Se ami Nicki, dovresti assolutamente usare questa emoji!


Tutto sommato, utilizzando la nostra Emoji Tag Cloud , puoi facilmente scoprire i contenuti correlati di una specifica emoji, forse puoi anche saperne di più sulla cultura pop ed evitare l'imbarazzo di non conoscere il significato di base ed esteso di un'emoji. A volte l'uso di un'emoji può diventare un fenomeno sociale, come questa emoji 🥺 in Giappone. Come emoji per esprimere l'accattonaggio, la lamentela o la bellezza, questa parola 'ぴえん🥺' ha vinto il "JC&JK Buzzword Awards 2019'", "2019 Gal Buzzword Award" 2 ° posto, il primo posto di "Instagram Buzzword Award per la prima metà di 2020" ed è diventata un'emoji di tendenza in tutto il Giappone! In questo caso, per alcune persone, Emoji Tag Cloud è anche un ottimo strumento per conoscere la cultura di Internet, tutto dipende da come lo usi.

Tutti questi sono per esplorare un maggiore utilizzo delle emoji e spero che tu trovi le emoji interessanti e informative. Al fine di fornirti contenuti accurati relativi alle emoji, anche i dati continueranno ad essere aggiornati. Se hai altri consigli su Emoji Tag Cloud, faccelo sapere nei commenti qui sotto👇!


Cerca recenti Recenti Nessuna emoji di uso recente Emoji... Emoziona il successo