Função Menu

Categorias

tom de pele

Penteado

gênero

Sentimento

Versão

Cada emoji é especial. Contanto que você analise de maneira correta, você pode descobrir muitas informações, como significados, categoria, tópico relacionado, até mesmo algum uso exclusivo de um emoji em um piscar de olhos👀. Depois de realizar uma grande quantidade de cálculos e análises para cada emoji, finalmente obtemos Emoji Tag Cloud , palavras-chave e frases relacionadas a um emoji específico, e o representamos de uma forma visual inovadora.

🔺 A nuvem de tags de emoji [unicórnio🦄]

Como obtemos tags?

Como todos sabemos, o Twitter é um serviço de rede social mundialmente famoso, e as pessoas gostam de tweetar textos com emojis para expressar suas emoções ou apenas como decoração. A maioria de nossas tags vem de tuítes de todo o mundo. Analisamos os tweets de 2018.01 a 2021.11 e extraímos as tags de 812 milhões de tweets que contêm emojis. Em seguida, usamos estatísticas e algoritmos para escolher os textos que são altamente relevantes para um emoji específico e distinguir o idioma. Por meio disso, podemos até saber como um emoji é usado em diferentes países.

Aqui usamos o site em inglês como exemplo. Estes 2 emojis em nossa página em inglês: 😎 (rosto sorridente com óculos escuros) e 🦄 (unicórnio). Nós executamos a extração de tags para eles e obtemos palavras como [legal] ou [nicki] .

! img_1

! img_2

Aqui surge um novo problema❓: Claro que existem muitos textos relacionados a um emoji, então como escolhemos a tag mais adequada e como organizá-los?

Nessa situação, eles envolvem algoritmos adicionais.

A explicação da tecnologia profissional de extração de tag

Existem muitos tipos de tecnologias de extração de tags com efeitos diferentes, como extração de resumos para artigos e algoritmos de marcação de palavras-chave para textos curtos. Nosso "Emoji Tag Cloud-Twitter Tag Extraction" é baseado no algoritmo TF-IDF . É realizado com um processo modificado com base nas características dos dados do Twitter, que é um algoritmo de extração de rótulo de texto curto não supervisionado.

Para facilitar a compreensão, aqui resumimos o procedimento de extração de tags em 3 etapas.

  • Primeiro, executamos a extração de emojis e a limpeza de texto para cada tweet com um mês como uma unidade, removemos tópicos e apelidos como [@xx], [#xx] e excluímos o URL do tweet. Durante a limpeza do texto, também filtramos palavras de parada em diferentes idiomas (por exemplo, removemos algumas partículas modais como ah, oh, etc.), abreviações, formas de palavras, letras maiúsculas e outros fatores, finalmente obtemos dados de informações de frequência de palavras correspondentes a cada emoji .
  • Em segundo lugar, usamos o algoritmo de representação de texto TF-IDF (termo frequência-frequência inversa do documento) para calcular o peso do texto do rótulo inicial com base nos resultados obtidos na etapa anterior.
  • A fórmula de cálculo é: TF-IDF = TF * IDF

    TF (Frequência do termo) é obtido dividindo o número de ocorrências de uma palavra correspondente a um emoji pelo número total de palavras correspondentes ao emoji. IDF é frequência inversa do documento, IDF = log (N / N (w)) , enquanto [N] representa o número total de emojis, [N (w)] representa o número de emojis contendo a palavra [w].

    🔺Quando uma palavra aparece em emojiA e emojiB, significa que a palavra não é representativa o suficiente e o peso dessa palavra deve ser reduzido. Pela fórmula IDF = log (N / N (w)), pode-se observar que a faixa de IDF entre 0 e infinito positivo diminui com o aumento de N (w).

    Quando um termo aparece mais vezes em um artigo, significa que o peso do termo é maior. No entanto, as palavras que aparecem com mais frequência são palavras que expressam tom ou não têm nenhum significado real, como [aww], [oh] ou [RT]. É difícil evitar a filtragem de tais palavras apenas classificando e filtrando pelo valor TF. Portanto, o número inverso do documento IDF é introduzido como uma restrição, a fim de calcular um valor mais preciso para representar o peso do texto da etiqueta.

    No final da etapa 2, filtraremos as entradas que aparecem mais de 15% do número total de emojis.

  • As unidades calculadas nas duas primeiras etapas são dados mensais e o total de dados é de quatro anos. Na última etapa, realizaremos outra rodada de cálculos estatísticos consolidados em todos os dados mensais.
  • Converta os dados de tweet de quatro anos calculados na forma de [(sum (tfidf_m) / M) * log (M)] e calcule posteriormente o peso de cada entrada de tag. [sum (tfidf_m)] representa a soma dos valores TF-IDF do termo em cada mês, e [M] representa o número de meses em que o termo aparece.

Este, então, é o método de cálculo aproximado dos dados da tag de emoji. Depois que os dados finais forem resumidos, também verificaremos e filtraremos manualmente de acordo com o idioma para obter resultados de tag mais precisos.


Além disso, as tags também usarão o nome abreviado CLDR e as palavras-chave CLDR para referência, eles são o texto de tag mais básico, o que significa que você sempre verá algumas dessas palavras na nuvem de tags Emoji.

🔺 Quando um emoji é enviado ao Unicode Consortium, é necessário ter um nome abreviado CLDR e palavras-chave CLDR em sua proposta, portanto, essas palavras devem levar em consideração a escolha da tag. As informações do emoji [unicorn🦄], colocamos seu nome curto e algumas palavras-chave em sua nuvem de tags.

Como usar nosso Emoji Tag Cloud?

Já faz um bom tempo que lançamos o Emoji Tag Cloud. Pessoalmente, acredito que seja uma ferramenta muito divertida e útil para observar um emoji específico, às vezes você pode até saber qual grupo ou trending topic prefere usar esse emoji. Deixe-me mostrar como usar nossa Emoji Tag Cloud!

Conforme mencionado acima, o peso de cada texto de tag é diferente. Você pode simplesmente julgar a correlação entre tags e emoji pelo tamanho do círculo (quanto maior, o relevante). Ou você pode colocar o mouse no círculo, haverá um pequeno quadrado com [número, nome do emoji] exibido. Nessa situação, quanto menor o número, a tag neste círculo é mais relevante para o emoji. Você também pode clicar nessas tags para pesquisar outros emojis relacionados!

Ainda assim, usamos o unicórnio como exemplo. a Tag Cloud de emoji [unicórnio 🦄 ] é como abaixo:

Como você pode ver, as 5 marcas principais de 🦄 são [unicórnio], [nicki], [unicórnios], [plt] e [barbz] .

Palavra [unicórnio] é o nome abreviado CLDR deste emoji, e o resto das 4 tags foram todas extraídas do Twitter. [nicki] e [barbz] são parentes de Nicki Minaj e seu grupo de fãs , e a palavra [plt] se refere a [Pretty Little Thing] , um varejista de moda com sede no Reino Unido ou apenas esta frase. 🦄 é um emoji popular no SNS e um emoji muito representativo para os fãs de Nicki Minaj. Se você ama a Nicki, definitivamente deveria usar este emoji!


Resumindo, usando nosso Emoji Tag Cloud , você pode facilmente descobrir o conteúdo relacionado de um emoji específico, talvez você ainda possa saber mais sobre a cultura pop e evitar o constrangimento de não saber o significado básico e extenso de um emoji. Às vezes, o uso de um emoji pode se tornar um fenômeno social (como 🥺 no Japão). Nesse caso, para algumas pessoas, Emoji Tag Cloud também é uma ótima ferramenta para se conhecer a cultura da internet, tudo depende de como você a usa.

Tudo isso para explorar mais o uso de emojis e espero que você os ache interessantes e informativos. Para fornecer a você conteúdos precisos relacionados a emojis, os dados também continuarão sendo atualizados. Se você tiver mais algum conselho sobre Emoji Tag Cloud, por favor, deixe-nos saber nos comentários abaixo👇!