如今越来越多实用又有趣的emoji用法被创造了出来,比如不同类别的emoji会被组合在一起成为一个梗,或者看似没有关联的emoji其实可以用来形容同一个意思,这使得emoji之间逐渐产生了联系。我们想直观地展现emoji之间的这种关系,让用户对emoji用法有更深入的了解,所以我们使用机器学习算法将emoji之间的关系计算了出来,并将结果绘制成简单易懂的图片,这就是Emoji关系图

什么是Emoji关系图?

众所周知emoji作为表情符号,通常以图像的方式呈现,但是凭借图像是无法算出emoji之间的关系的,因为emoji的主要用途是传递信息和情绪,它们更像是一种语言,只有通过它们的含义和用法来探究其关系才更加准确,也更有实际意义。所以我们获取了2018年到2021年的所有包含emoji的推文数据,共计8.12亿条,并考虑到不同语言环境下emoji的用法会有所不同,将推文按照语种进行了分类,再通过机器学习算法分别计算出每一种语言里emoji之间的文本相似度,从而得出各个语种所对应的emoji关系图。

如何理解Emoji关系图?

这是西班牙语站内👉的关系图。红色方框里展示着和它关系最近的9个emoji,射线长度代表关系远近程度,射线越短,关系越近。此外,图中还展示了一小部分其他emoji的关系图,黑色方框里是👆的关系图,而橘色方框里是emoji的关系图(这两个关系图均只展示了一部分)。

通过关系图里反映的结果,我们可以对emoji的用法有更丰富的认识。比如下图这两个emoji👈🥺近年来经常与👉组合使用来表达委屈、害羞或恳求,所以它们俩出现在了这张关系图中:

再比如这两个emoji,它们的用法相似,都经常被用来表示链接,所以在关系图中也挨得很近:

如果您深入研究emoji关系图,也许会刷新您对一些emoji的固有认知,留下新的印象。

如何计算emoji之间的关系?

接下来我们就为大家详细介绍一下计算过程。大致可以分为以下三个步骤:

  • 第一步,是使用TF-IDF 算法从推文数据中提取出每个emoji的标签以及每个标签对应的权重。标签指的是那些与emoji关系最紧密的单词,相当于是一个emoji的特征;而权重就是指标签与emoji的关系的紧密程度,权重越高,则关系越紧密。关于获取标签的算法原理和计算过程,我们专门写了一篇文章详细介绍,您可以点击右边链接进行阅读: ☁️Emoji标签云:助你更懂Emoji!
  • 获取标签后,新的问题出现了。说到计算,一般都是数值才能被计算,可标签是以文本的形式呈现的,怎么能用算法计算呢?因此,我们的第二步就是将文本转换为可以计算的数值—— 向量 。这个过程称为词嵌入。我们需要先用word2vec算法(词嵌入的方法之一)对大量推文数据进行阅读,使文本中的每一个单词转化为向量,然后我们就能获得一个由所有单词的高维向量构成的词嵌入矩阵,之后再通过词嵌入矩阵把我们在第一步得到的每一个标签对应的单词映射到一个高维向量中。这些高维向量都是通过文本上下文进行计算后得出的,能够很好地将每一个单词的语义信息给保留下来,因此可以保证我们计算的文本相似度的准确性。(关于word2vec这个算法我们在情绪分析那篇博客中也有详细解释过,如果您想了解更多细节可以在这里查看: 🔍Emoji情绪分析
  • 最后一步就是计算文本相似度了。常用于计算文本相似度的算法是VSM(空间向量模型)。这是应用最广泛的一个基础相似度计算模型,但是它是通过计算两个文本的共现词(即在两个文本中都出现的词)来得到结果,在面对含义相同但措辞不同的文本的时候,它的计算结果就不准确了。所以为了避免这种情况,我们选择了另一种算法——SCM(软余弦测量法) 。它可以衡量词与词之间的相似度,即便两个文本没有共同单词,最终也可以通过词的相似度来评估文本的相似性。我们使用SCM测量向量后,得出来的数值越大就表示文本相似度越高,文本相似度越高,则emoji的关系越近。

结论

通过关系图,我们可以了解人们使用emoji的习惯和喜好,挖掘emoji的流行趋势。你可能会惊讶地发现有些你完全不会联系在一起的emoji其实关系非常紧密,那有可能就是一个你还未了解过的emoji新潮用法哦~对于想要深入研究emoji的朋友们,希望我们的这个功能能够为你提供一些帮助和思路!同时有什么建议和意见的话,也请多多地在评论区告诉我们吧!


搜索 最近 最近 最近没有使用emoji 表情符号化... 表情成功