Emoji富含情感,能非常有效的增强或调整文本的语气和情绪,同时比单纯的文字所表达出的情绪更丰富。

例如这个emoji👿(生气的恶魔)。很明显它是一个恶魔角色,所以可能会有人认为它是一个不好的emoji,可能其中包含一些邪恶的想法和行动。

但这样的描述仍然很抽象,那我们能不能具象化这些emoji所表达出的情绪的类别和程度呢?


当然可以!我们对不少于5000万条推文的公开样本进行了自然语言处理 (NLP),并使用文本情感分析(也称为意见挖掘)将emoji情感与一组值相关联并将其可视化。我们为此付出了大量的时间和精力以及算力,只为使emoji情绪分析更科学、更严谨,让大家更直观的感受到emoji的魅力,更好地了解emoji。

用于emoji情感分析的可视化图表

根据文本情感分析计算出的emoji情绪值等各项数据,都属于统计学和概率论中比较专业的内容。在我们解决了算法和算力的难题之后,又遇到了新的难点:如何让用户看懂这些专业的数据呢?

一个念头掠过我们的脑海——不如试试可视化设计?

💡:我们将计算和分析的数据(左)转换成一个可以被用户更好理解的图表(右),这样便可以更直观地展示emoji的情感划分;

接下来,我们将详细解释下图,它描绘了emoji在实际交流中的情感倾向分析的结果。

💡:👿情感分析的2种图表,这里我们只分析上面的图表。

图片中的半圆弧分为三种颜色,代表emoji👿的不同情感倾向。我们可以看到,这三种情绪的比例大约是 4:1:5,绿色和橙色的比例相似,这意味着这个表情符号更中性,而不是普遍认为的“消极/坏的”。

  • 灰色游标是置信度。它是一个统计概念。它的位置和宽度表示:期望值 ± 置信度
  • 期望值:是emoji情绪值的离散型随机变量的加权平均,用来表示概率, c ∈ [−1, 0, +1]
  • 置信度 :是emoji情绪值分布的参数集合,以正负数区间的形式表示出合理的误差范围,当语料样本的数量越大,其误差就越小。

简单来说,光标越靠左,这个表情的情绪越消极。相反,光标越靠近右侧,该表情符号表达的积极情绪就越多。并且光标越窄,对情绪的判断就越准确。


现在,emoji情绪分析的图表,你看懂了吗?

什么是情绪分析?

相信大家已经了解了emoji情绪分析的数据图表,那我们就来聊聊什么是情绪分析。

情绪分析也叫意见挖掘,从技术上讲,情绪分析是自然语言处理(NLP)研究的一部分。情绪分析方法分为两类:机器学习方法基于字典的方法。但随着深度学习技术的发展,利用深度学习技术进行情绪分析已成为主流。

在情绪分析过程中包含数据的预处理,特征工程以及模型的训练。一般的数据预处理阶段主要为文本分词以及去停用词和标点符号,而我们的情绪分析则保留标点符号和停用词,只需要进行文本分词即可。在特征工程阶段我们选择了由谷歌团队2013年提出的词嵌入表示(Word2Vec),分为CBOW(continuous bag of words连续词袋模型)和Skip-gram(跳字模型)。模型结果如下:

💡:左边是CBOW模型,右边是Skip-gram模型

CBOW是根据上下文去预测目标词来训练得到词向量,如图W(t)是根据四个词W(t-2), W(t-1), W(t+1), W(t+2)来预测的;而Skip-gram是根据目标词去预测周围词来训练得到词向量,如图是根据W(t)去预测W(t-2),W(t-1),W(t+1),W(t+2)

在模型预测阶段我们将数据划分为两部分,以5:1的比例划分训练集和测试集并对训练集进行乱序处理,训练集三类情感比例分别为1:1:1,通过测试集我们得出模型的准确率为82%。

情绪分析在emoji中的应用

情绪分析是一种结合深度学习和统计学的综合分析方法。我们经过对庞大数据的复杂分析计算才得出了emoji的情绪值,而完整的emoji情绪分析流程如下:

Emoji情绪分析的过程

  • 标记社交网络语料库
  • 数据预处理
  • 对数据集进行划分:训练集(80%)、测试集(20%)
  • 利用LSTM神经网络进行模型的搭建
  • 根据模型在测试集上的表现,调整超参数以提高模型的泛化能力
  • 对未标记的数据执行相同的数据预处理操作
  • 使用训练好的情感预测模型对未标注数据进行情感预测

我们对emoji进行情感分析,利用深度学习技术进行训练得出一个emoji文本情感分类器。对于分类器的输出层,我们选择sigmoid函数激活,将输出层结果投影到0-1的区间中。一条文本越接近于0表示越消极,越接近于1表示越开心。

sigmoid函数公式为: F(x)=1/(1+ex)

我们将包含emoji的5000万条推文的大样本数据作为分析语料库,再把待分析的语料库放入训练好的情感分类器中进行情感预测,最后把情感分类器进行文本情感预测的结果分为消极、中性和积极三类,划分公式表示为:

虽然这一系列的操作有些困难,但我们还是努力做到啦!

Emoji情感分析的使用和前景

情绪分析广泛应用于营销、广告、心理学、医学等领域。我们决定做 emoji 情绪分析则是为了帮助人们在实际的社交互动中更深入地了解 emoji,更有效地消除 emoji 的歧义和误解。

例如,当你在网上与朋友(或暗恋对象)聊天时,对方有时可能会发送一些你不太了解的emoji给你。其实这样的情况有很多,比如:

  • 有人回复我的照片🤒,是什么意思?
  • 一个女孩给我发😊,她是什么意思?
  • 我暗恋的人给我发了一个 ,她也喜欢我吗?

虽然你无法说出一个emoji的准确含义,但是,通过我们的情绪分析,你可以从心理上分析这些emoji,比如“我喜欢的人给我发了💞,这是一个积极的emoji,也许我应该约她出去”“为什么我男朋友给我发😒?有点消极,他生我的气了吗?”,以此类推。通过我们的Emoji情绪分析,相信你可以更深入地了解 emoji。


总而言之,我们为这个emoji情绪分析项目付出了很多。即便它困难重重,我们仍想把它做得更深入。我们现在正在对不同语言中的emoji进行分析,以及emoji对纯文本的情绪增益效果,更细致的研究它们的区别,也拟定了其他几个进阶的方向,探寻更多的用法和玩法。希望我们的emoji情绪分析能够开阔你的视野。同时,如果你有更好的想法和建议,也可以在下方留言给我们,感谢你的支持🤗!