Cada emoji es especial. Siempre que lo analicemos de la manera correcta, podemos encontrar mucha información de un emoji, como significado, categoría, tema relacionado, incluso algún uso único👀. Después de realizar una gran cantidad de cálculos y análisis de cada emoji, finalmente obtenemos Nube de palabras de Emoji, una representación visual de las palabras clave y frases relacionadas con un emoji específico.

🔺La nube de palabras de emoji [unicornio🦄]

¿Cómo obtenemos etiquetas?

Como todos sabemos, Twitter es un servicio de redes sociales mundialmente famoso, y a la gente le gusta tuitear textos con emojis para expresar sus emociones o simplemente como decoración. La mayoría de nuestras etiquetas provienen de tweets de todo el mundo. Analizamos los tweets de 2018.01 a 2021.11 y extraemos las etiquetas de 812 millones de tweets que contienen emojis. Luego usamos estadísticas y algoritmos para seleccionar los textos que son muy relevantes para un emoji específico y distinguir el idioma. A través de esto, incluso podemos saber cómo se usa un emoji en diferentes países.

Aquí usamos el sitio en inglés como ejemplo. Estos 2 emojis en nuestra página en inglés: 😎 (cara sonriente con gafas de sol) y 🦄 (unicornio). Les realizamos extracción de etiquetas y obtenemos palabras como [cool] o [nicki] .

! img_1

! img_2

Aquí aparece un nuevo problema❓: por supuesto que hay muchos textos relacionados con un emoji, entonces, ¿cómo elegimos la etiqueta más adecuada y cómo organizarlos?

En esta situación, involucran más algoritmos.

La explicación tecnológica profesional de la extracción de etiquetas

Existen muchos tipos de tecnologías de extracción de etiquetas con diferentes efectos, como la extracción de resúmenes para artículos y algoritmos de etiquetado de palabras clave para textos breves. Nuestra "Extracción de etiquetas Emoji Tag Cloud-Twitter" se basa en el algoritmo TF-IDF . Se llevó a cabo con un proceso modificado en función de las características de los datos de Twitter, que es un algoritmo de extracción de etiquetas de texto corto no supervisado.

Para facilitar la comprensión, aquí resumimos el procedimiento de extracción de etiquetas en 3 pasos.

  • Primero, realizamos extracción de emoji y limpieza de texto para cada tweet con un mes como unidad, eliminamos temas y apodos como [@xx], [#xx] y eliminamos la URL del tweet. Durante la limpieza de texto, también filtramos palabras vacías en diferentes idiomas (por ejemplo, eliminamos algunas partículas modales como ah, oh, etc.), abreviaturas, formas de palabras, mayúsculas y otros factores, finalmente obtenemos datos de información de frecuencia de palabras correspondientes a cada emoji .
  • En segundo lugar, utilizamos el algoritmo de representación de texto TF-IDF (término frecuencia-frecuencia inversa del documento) para calcular un peso de texto de etiqueta inicial en función de los resultados obtenidos en el paso anterior.
  • La fórmula de cálculo es: TF-IDF = TF * IDF

    TF (Término Frecuencia) se obtiene dividiendo el número de apariciones de una palabra correspondiente a un emoji por el número total de palabras correspondientes al emoji. IDF es Frecuencia Inversa de Documentos, IDF = log (N / N (w)) , mientras que [N] representa el número total de emojis, [N (w)] representa el número de emojis que contienen la palabra [w].

    🔺Cuando una palabra aparece tanto en emojiA como en emojiB, significa que la palabra no es lo suficientemente representativa y el peso de esta palabra debe reducirse. De la fórmula IDF = log (N / N (w)), se puede ver que el rango de IDF entre 0 e infinito positivo disminuye con el aumento de N (w).

    Cuando un término aparece más veces en un artículo, significa que el peso del término es mayor. Sin embargo, las palabras que aparecen con mayor frecuencia son palabras que expresan tono o no tienen un significado real, como [aww], [oh] o [RT]. Es difícil evitar el filtrado de tales palabras si solo se clasifican y filtran por el valor de TF. Por lo tanto, el número de documento inverso IDF se introduce como una restricción, con el fin de calcular un valor más preciso para representar el peso del texto de la etiqueta.

    Al final del paso 2, filtraremos las entradas que aparezcan más del 15% del número total de emojis.

  • Las unidades calculadas en los dos primeros pasos son datos mensuales y los datos totales son cuatro años. En el último paso, realizaremos otra ronda de cálculos estadísticos consolidados en todos los datos mensuales.
  • Convierta los datos de tweets de cuatro años calculados en la forma de [(sum (tfidf_m) / M) * log (M)] y calcule el peso de cada entrada de etiqueta. [sum (tfidf_m)] representa la suma de los valores TF-IDF del término en cada mes, y [M] representa el número de meses en los que aparece el término.

Estos, entonces, son el método de cálculo aproximado de los datos de las etiquetas emoji. Una vez resumidos los datos finales, también comprobaremos y filtraremos manualmente según el idioma para obtener resultados de etiquetas más precisos.


Además, las etiquetas también usarán el nombre corto CLDR y las palabras clave CLDR como referencia, son el texto de etiqueta más básico, lo que significa que siempre verá algunas de estas palabras en la nube de etiquetas Emoji.

🔺 Cuando se envía un emoji a Unicode Consortium, es necesario tener un nombre corto CLDR y palabras clave CLDR en su propuesta, por lo que estas palabras deben tener en cuenta la elección de la etiqueta. La información de emoji [unicornio], ponemos su nombre corto y algunas de las palabras clave en su nube de etiquetas.

¿Cómo utilizar nuestra nube de etiquetas Emoji?

Ha pasado bastante tiempo que lanzamos Emoji Tag Cloud. Personalmente, creo que es una herramienta muy divertida y útil para observar un emoji específico, a veces incluso puedes saber qué grupo o trending topic prefiere usar este emoji. ¡Déjame mostrarte cómo usar nuestra nube de etiquetas Emoji!

Como se mencionó anteriormente, el peso de cada texto de etiqueta es diferente. Simplemente puede juzgar la correlación entre etiquetas y emoji por el tamaño del círculo (cuanto más grande, más relevante). O puede poner el mouse en el círculo, aparecerá un pequeño cuadrado con [número, texto de la etiqueta]. En esta situación, cuanto menor sea el número, la etiqueta en este círculo es más relevante para el emoji. ¡También puede hacer clic en estas etiquetas para buscar otros emojis relacionados!

Aún así, usamos unicornio como ejemplo. la nube de etiquetas de emoji [unicornio 🦄 ] es como a continuación:

! img_1

Como puede ver, las 5 etiquetas principales de 🦄 son [unicornio], [nicki], [unicornios], [plt] y [barbz] .

Word [unicornio] es el nombre corto CLDR de este emoji, y el resto de las 4 etiquetas se extraen de Twitter. [nicki] y [barbz] están relacionados con Nicki Minaj y su grupo de fans , y la palabra [plt] se refiere a [Pretty Little Thing] , un minorista de moda con sede en el Reino Unido o simplemente esta frase. 🦄 es un emoji popular en las redes sociales y un emoji muy representativo para los fanáticos de Nicki Minaj. Si amas a Nicki, ¡definitivamente deberías usar este emoji!

! img_2


Con todo, al usar nuestra nube de etiquetas Emoji , puede encontrar fácilmente el contenido relacionado de un emoji específico, tal vez incluso pueda saber más sobre la cultura pop y evitar la vergüenza de no conocer el significado básico y extendido de un emoji. A veces, el uso de un emoji puede convertirse en un fenómeno social, como este emoji 🥺 en Japón. Como un emoji para expresar súplica, agravio o belleza, esta palabra 'ぴ え ん 🥺' ganó los premios "JC&JK Buzzword Awards 2019", "2019 Gal Buzzword Award" segundo lugar, el primer lugar del "Instagram Buzzword Award para la primera mitad de 2020 "y se convirtió en un emoji de tendencia en todo Japón. En este caso, para algunas personas, Emoji Tag Cloud también es una gran herramienta para conocer la cultura de Internet, todo depende de cómo se use.

Todos estos son para explorar más el uso de emoji, y espero que encuentres que los emoji son interesantes e informativos. Con el fin de proporcionarle contenidos precisos relacionados con emoji, los datos también se seguirán actualizando. Si tiene más consejos sobre Emoji Tag Cloud, háganoslo saber en los comentarios a continuación👇.


Buscar recientes Recientes Ningún emoji de uso reciente emojify... Éxito Emojify