Chaque emoji est spécial. Tant que vous l'analysez correctement, vous pouvez trouver de nombreuses informations telles que les significations, la catégorie, le sujet connexe, même certaines utilisations uniques d'un emoji en un coup d'œil👀. Après avoir effectué une grande quantité de calculs et d'analyses pour chaque emoji, nous obtenons enfin Emoji Tag Cloud , des mots-clés et des phrases liés à un emoji spécifique, et le représentons d'une manière visuelle inédite.
🔺Le nuage de tags d'emoji [licorne🦄]
Comment obtenons-nous des balises ?
Comme nous le savons tous, Twitter est un service de réseautage social de renommée mondiale, et les gens aiment tweeter des textes avec des emojis pour exprimer leurs émotions ou simplement comme décoration. La plupart de nos tags proviennent de tweets du monde entier. Nous analysons les tweets de 2018.01 à 2021.11 et extrayons les tags de 812 millions de tweets contenant des emojis. Ensuite, nous utilisons des statistiques et des algorithmes pour sélectionner les textes qui sont très pertinents pour un emoji spécifique et distinguer la langue. Grâce à cela, nous pouvons même savoir comment un emoji est utilisé dans différents pays.
Ici, nous utilisons le site anglais comme exemple. Ces 2 emojis dans notre page en anglais : 😎 (visage souriant avec lunettes de soleil) et 🦄 (licorne). Nous leur effectuons une extraction de balises et obtenons des mots comme [cool] ou [nicki] .
Ici apparaît un nouveau problème❓ : Bien sûr il y a beaucoup de textes liés à un emoji, alors comment choisir le tag le plus adapté, et comment les arranger ?
Dans cette situation, ils impliquent d'autres algorithmes.
L'explication de la technologie professionnelle de l'extraction de balises
Il existe de nombreux types de technologies d'extraction de balises avec des effets différents, telles que l'extraction de résumés pour les articles et les algorithmes de balisage de mots-clés pour les textes courts. Notre "Emoji Tag Cloud-Twitter Tag Extraction" est basée sur l' algorithme TF-IDF . Elle a été réalisée avec un processus modifié basé sur les caractéristiques des données Twitter, qui est un algorithme d'extraction d'étiquettes de texte court non supervisé.
Pour faciliter la compréhension, nous résumons ici la procédure d'extraction de tag en 3 étapes.
- Tout d'abord, nous effectuons l' extraction des emoji et le nettoyage du texte pour chaque tweet avec un mois comme unité, supprimons les sujets et les surnoms tels que [@xx], [#xx] et supprimons l'URL du tweet. Pendant le nettoyage du texte, nous filtrons également les mots vides dans différentes langues (par exemple, supprimez certaines particules modales comme ah, oh, etc.), les abréviations, les formes de mots, les majuscules et d'autres facteurs, pour enfin obtenir des données d'information sur la fréquence des mots correspondant à chaque emoji .
- Deuxièmement, nous utilisons l'algorithme de représentation de texte TF-IDF (terme fréquence-fréquence de document inverse) pour calculer un poids de texte d'étiquette initial sur la base des résultats obtenus à l'étape précédente.
- Les unités calculées dans les deux premières étapes sont des données mensuelles et les données totales sont de quatre ans. À la dernière étape, nous effectuerons une autre série de calculs statistiques consolidés sur toutes les données mensuelles.
La formule de calcul est : TF-IDF = TF * IDF
La TF (Term Frequency) est obtenue en divisant le nombre d'occurrences d'un mot correspondant à un emoji par le nombre total de mots correspondant à l'emoji. IDF est Inverse Document Frequency, IDF = log( N / N(w) ) , tandis que [N] représente le nombre total d'emojis, [N(w)] représente le nombre d'emojis contenant le mot [w].
🔺Lorsqu'un mot apparaît à la fois dans emojiA et emojiB, cela signifie que le mot n'est pas assez représentatif et que le poids de ce mot doit être réduit. A partir de la formule IDF = log( N / N(w) ), on peut voir que la plage d'IDF entre 0 et l'infini positif diminue avec l'augmentation de N(w).
Lorsqu'un terme apparaît plusieurs fois dans un article, cela signifie que le poids du terme est plus important. Cependant, les mots qui apparaissent le plus souvent sont des mots qui expriment un ton ou n'ont pas de sens réel, tels que [aww], [oh] ou [RT]. Il est difficile d'éviter le filtrage de tels mots ne serait-ce qu'un tri et un filtrage par la valeur TF. Ainsi, le numéro de document inversé IDF est introduit comme une contrainte, afin de calculer une valeur plus précise pour représenter le poids du texte de l'étiquette.
À la fin de l'étape 2, nous filtrerons les entrées qui apparaissent à plus de 15 % du nombre total d'emojis.
Convertissez les données de tweet calculées sur quatre ans sous la forme [(sum(tfidf_m) / M) * log(M)] , puis calculez le poids de chaque entrée de tag. [sum(tfidf_m)] représente la somme des valeurs TF-IDF du terme dans chaque mois, et [M] représente le nombre de mois pendant lesquels le terme apparaît.
Il s'agit donc de la méthode de calcul approximative des données des balises emoji. Une fois les données finales résumées, nous vérifierons et filtrerons également manuellement en fonction de la langue afin d'obtenir des résultats de balises plus précis.
De plus, les balises utiliseront également le nom court CLDR et les mots clés CLDR à titre de référence, ce sont le texte de balise le plus basique, ce qui signifie que vous verrez toujours certains de ces mots dans le nuage de balises Emoji.
🔺 Lorsqu'un emoji est soumis au Consortium Unicode, il est nécessaire d'avoir un nom court CLDR et des mots-clés CLDR dans sa proposition, donc ces mots doivent prendre en compte le choix de la balise. L'information d'emoji [licorne🦄], nous mettons son nom court et quelques mots-clés dans son nuage de tags.
Comment utiliser notre nuage de tags Emoji ?
Cela faisait un bon moment que nous avions sorti le nuage de tags Emoji. Personnellement, je pense que c'est un outil très amusant et utile pour observer un emoji spécifique, parfois vous pouvez même savoir quel groupe ou sujet tendance préfère utiliser cet emoji. Laissez-moi vous montrer comment utiliser notre nuage de tags Emoji !
Comme mentionné ci-dessus, le poids de chaque texte de balise est différent. Vous pouvez simplement juger de la corrélation entre les balises et les emoji par la taille du cercle (le plus grand, le plus pertinent). Ou vous pouvez placer votre souris sur le cercle, il y aura un petit carré avec [numéro, texte de balise] apparaîtra. Dans cette situation, plus le nombre est petit, plus la balise dans ce cercle est plus pertinente pour l'emoji. Vous pouvez également cliquer sur ces balises pour rechercher d'autres emojis connexes !
Pourtant, nous utilisons la licorne comme exemple. le nuage de tags d'emoji [licorne 🦄 ] est comme ci-dessous :
Comme vous pouvez le voir, les 5 balises principales de 🦄 sont [unicorn], [nicki], [licorns], [plt] et [barbz] .
Word [licorne] est le nom abrégé CLDR de cet emoji, et les 4 autres balises sont toutes extraites de Twitter. [nicki] et [barbz] sont liés à Nicki Minaj et à son groupe de fans , et le mot [plt] fait référence à [Pretty Little Thing] , un détaillant de mode basé au Royaume-Uni ou simplement cette phrase. 🦄 est un emoji populaire dans SNS, et un emoji très représentatif pour les fans de Nicki Minaj. Si vous aimez Nicki, vous devriez certainement utiliser cet emoji !
Dans l'ensemble, en utilisant notre Emoji Tag Cloud , vous pouvez facilement découvrir le contenu associé à un emoji spécifique, peut-être même en savoir plus sur la culture pop et éviter l'embarras de ne pas connaître la signification basique et étendue d'un emoji. Parfois, l'utilisation d'un emoji peut devenir un phénomène social, comme cet emoji 🥺 au Japon. En tant qu'emoji pour exprimer la mendicité, le grief ou la beauté, ce mot '' a remporté la 2e place des "JC&JK Buzzword Awards 2019", "2019 Gal Buzzword Award", la première place de "Instagram Buzzword Award pour la première moitié de 2020" et est devenu un emoji tendance dans tout le Japon ! Dans ce cas, pour certaines personnes, Emoji Tag Cloud est également un excellent outil pour se familiariser avec la culture Internet, tout dépend de la façon dont vous l'utilisez.
Tout cela vise à explorer davantage l'utilisation des emoji, et j'espère que vous trouverez les emoji intéressants et instructifs. Afin de vous fournir des contenus précis liés aux emoji, les données continueront également à être mises à jour. Si vous avez d'autres conseils sur Emoji Tag Cloud, faites-le nous savoir dans les commentaires ci-dessous !