每个emoji都是特别的。只要我们分析得当,便能一目了然地发现很多相关信息,例如emoji的含义、分类、相关主题,甚至有时还能找到它的一些独特用法👀。就此,我们对每一个emoji表情进行了大量的计算和分析后,最终得到了emoji标签云,一个用新颖的视觉方式,展现与特定emoji相关的关键词和短语的新功能。

🔺【🦄】独角兽的标签云

如何获得标签?

众所周知,推特(Twitter)是世界知名的社交网络服务平台,人们喜欢在网上发带有emoji的推文来表达自己的情绪或用作推文装饰。标签云中的大部分标签便是来自世界各地网友们的推文。我们对 2018.01 至 2021.11 的推文进行了详细分析,并从共8.12 亿条包含emoji的推文中提取了标签后,使用统计和算法来挑选出与特定emoji高度相关的文本,并区分语言。这样,我们甚至可以知道一个emoji在不同的国家是如何被使用的。

这里我们以英文站为例。这两个emoji:😎(墨镜笑脸)和🦄(独角兽)。我们对它们分别进行标签提取后,得到了像【cool】【nicki】这样的标签词条。

但这样又会出现了一个新的问题❓:当与某emoji相关的词条有很多时,该如何选择最合适的标签,以及如何排列展示它们呢?

在这种情况下,标签云又将涉及进一步的算法。

标签提取的专业技术讲解

标签提取技术种类繁多效果不一,有针对长文本的文章摘要提取、针对短文本的关键词标注算法。而我们的“标签云--Emoji推特标签提取”则是以TF-IDF算法为核心。它根据推特数据的特征进行稍加修改的流程进行Emoji的标签提取方法,属于非监督短文本标签提取算法。

为了便于大家理解,这里我们将标签提取的过程总结为3个步骤。

  • 第一步,先对以月份为单位的每一条推特进行emoji提取文本清洗,去除[@ xx]、[#xx]之类的话题和昵称,并对推特网址进行删除。而在文本清洗的过程中,我们应对不同语言还会进行停用词筛选过滤(比如去除像呀,啰等的一些语气词),缩写、词形以及大小写的替换等文本细节处理,最终得到了每一个emoji对应的单词词频信息数据。
  • 第二步则是根据上一步得到的结果,剔除词频前300的单词后通过TF-IDF(term frequency–inverse document frequency)文本表示算法算出一个初始的标签文本权重。
  • 计算公式为:TF-IDF = TF * IDF

    其中,TF即词频(Term Frequency),由某一个emoji对应的单词出现的次数除以该emoji对应的单词总数得来。IDF是逆文本频率指数(Inverse Document Frequency),公式为: IDF = log( N / N(w) ), [N] 表示emoji表情的总数,[N(w)] 表示包含单词 [w] 的表情符号的数量。

    🔺当一个单词既在emoji1中出现也在emoji2中出现,则说明这个单词不具有代表性,应该对这个emoji的权重进行降低。由公式IDF = log( N / N ( w ) )可以看出,IDF的范围在0到正无穷之间随着N(w)的增加而减小。

    当一个词条在一篇文章中出现的次数越多,则表示这个词条的权重越大。然而,最常出现的词是一些表达语气,没有实际意义,或者太过于普遍的词,例如【啊】、【啰】或【转发】。若是仅仅按TF值进行排序筛选,则很难避免此类字词的过滤,因此引入IDF逆文档数进行约束,以求计算出更为准确的数值来表示标签文本的权重。

    在此步的最终,我们将过滤出现次数超过emoji总数15%的词条。

  • 前两步计算的单位都为月度数据,总共的文本为四年的数据量。而到了最后一步,我们将会对所有的月份数据进行再一轮的合并统计计算。
  • 将计算好的四年的推文数据转换为[(sum(tfidf_m) / M) * log(M)] 的形式,对其中每一个标签词条的权值进行进一步的计算。其中sum( tfidf_m )表示对词条在每个月中的TF-IDF值进行求和,M表示词条出现的月份个数。

以上便是emoji的标签数据的大致计算方法,最终数据汇总之后,我们还会根据语言进行人工的检查过滤,以求能够得到更加精准的标签结果。


除此之外,标签也会采用emoij的CLDR短名称和CLDR关键字,它们是最基本的标签文本,这意味着您将始终在 Emoji 标签云中看到其中一些词。

🔺当一个emoji提交给Unicode联盟时,它的提案中需要有CLDR短名称和CLDR关键字,因此这些词必须考虑加入标签云中。比如【独角兽🦄】,我们便把它的简称和一些关键词放到了它的标签云中。

如何使用Emoji标签云?

我们发布Emoji标签云也有一段时间了。就个人而言,我认为标签云是观察分析特定emoji的一个非常有趣并有用的功能,有时您甚至可以知道哪个群体或热门话题更喜欢使用这个emoji表情。

正如前述,每个标签文本的权重是不一样的。您可以简单地通过圆圈的大小(圆的面积越大,相关性也越大)来判断标签和emoji之间的相关性。或者您可以将鼠标停留在圆圈上,会出现一个带有[数字,标签]的小方块。这时数字越小,该圆圈中的标签与emoji的相关性也越高。您还可以点击这些标签来搜索其他相关的emoji表情哦!

在此,我们仍以独角兽表情为例。emoji [独角兽🦄 ]的英语站标签云如下图:

如您所见,英语站🦄的标签前五名为[unicorn][nicki][unicorns][plt] [barbz]

词语[unicorn]是这个emoji的CLDR简称,其余4个标签全部摘自推特。 [nicki] 和 [barbz] 与“麻辣鸡”(Nicki Minaj)和她的粉丝群体有关,而单词 [plt] 指的是[Pretty Little Thing] ,一家英国时装零售商,或者只是指“小可爱”这个词。 🦄是SNS中的流行表情,也是Nicki Minaj粉丝的代表emoji。如果你喜欢麻辣鸡,那这个emoji你一定得多多使用!


总而言之,通过我们的Emoji标签云,您可以轻松找到与特定emoji相关的内容,甚至可以了解更多流行文化,避免因不了解emoji的基础意思和扩展含义而发生尴尬。有时,emoji的使用会成为一种社会现象,例如这个emoji🥺在日本的使用。它作为表达拜托、委屈或可爱的emoji表情,词语"ぴえん🥺"荣获“JC&JK流行语大赏2019”、“2019辣妹流行语大赏”二等奖、“Instagram流行语大赏2020上半年”流行语部门第一名,一跃成为日本的潮流emoji!在这种情况下,对于一些人来说,Emoji标签云也是了解网络文化的绝佳工具,这都取决于您如何使用它。

本站开发的所有功能,全部都是为了探索emoji表情符号的更多用法,希望您发现emoji的趣味与丰富内涵。与此同时,为了向您提供更加准确的emoji相关内容,数据也会不断更新。如果您对我们的Emoji标签云有更多建议,欢迎在下面的评论中告诉我们哦👇!


搜索 最近 最近 最近没有使用emoji 表情符号化... 表情成功