Emoji富含情感,能非常有效的增強或調整文本的語氣和情緒,同時比單純的文字所表達出的情緒更豐富。

例如這個emoji👿(生氣的惡魔)。很明顯它是一個惡魔角色,所以可能會有人認為它是一個不好的emoji,可能其中包含一些邪惡的想法和行動。

但這樣的描述仍然很抽象,那我們能不能具象化這些emoji所表達出的情緒的類別和程度呢?


當然可以!我們對不少於5000萬條推文的公開樣本進行了 自然語言處理 (NLP) ,並使用文本情感分析(也稱為意見挖掘)將emoji情感與一組值相關聯並將其可視化。我們為此付出了大量的時間和精力以及算力,只為使emoji情緒分析更科學、更嚴謹,讓大家更直觀的感受到emoji的魅力,更好地了解emoji。

用於emoji情感分析的可視化圖表

根據文本情感分析計算出的emoji情緒值等各項數據,都屬於統計學和概率論中比較專業的內容。在我們解決了算法和算力的難題之後,又遇到了新的難點:如何讓用戶看懂這些專業的數據呢?

一個念頭掠過我們的腦海——不如試試可視化和設計?

💡:我們將計算和分析的數據(左)轉換成一個可以被用戶更好理解的圖表(右),這樣便可以更直觀地展示emoji的情感劃分;

接下來,我們將詳細解釋下圖,它描繪了emoji在實際交流中的情感傾向分析的結果。

💡:👿情感分析的2種圖表,這裡我們只分析上面的圖表。

圖片中的半圓弧分為三種顏色,代表emoji👿。的不同情感傾向。我們可以看到,這三種情緒的比例大約是 4:1:5,綠色和橙色的比例相似,這意味著這個表情符號更中性,而不是普遍認為的“消極/壞的” 。

  • 灰色游標是置信度。它是一個統計概念。它的位置和寬度表示:期望值 ± 置信度
  • 期望值:是emoji情緒值的離散型隨機變量的加權平均,用來表示概率,c ∈ [−1, 0, +1]
  • 置信度:是emoji情緒值分佈的參數集合,以正負數區間的形式表示出合理的誤差範圍,當語料樣本的數量越大,其誤差就越小。

簡單來說,光標越靠左,這個表情的情緒越消極。相反,光標越靠近右側,該表情符號表達的積極情緒就越多。並且光標越窄,對情緒的判斷就越準確。


現在,emoji情緒分析的圖表,你看懂了嗎?

什麼是情緒分析?

相信大家已經了解了emoji情緒分析的數據圖表,那我們就來聊聊什麼是情緒分析。

情緒分析也叫意見挖掘,從技術上講,情緒分析是自然語言處理(NLP)研究的一部分。情緒分析方法分為兩類:機器學習方法基於字典的方法。但隨著深度學習技術的發展,利用深度學習技術進行情緒分析已成為主流。

在情緒分析過程中包含數據的預處理,特徵工程以及模型的訓練。一般的數據預處理階段主要為文本分詞以及去停用詞和標點符號,而我們的情緒分析則保留標點符號和停用詞,只需要進行文本分詞即可。在特徵工程階段我們選擇了由谷歌團隊2013年提出的詞嵌入表示(Word2Vec),分為 CBOW(continuous bag of words連續詞袋模型)和Skip-gram(跳字模型)。模型結果如下:

💡:左邊是CBOW模型,右邊是Skip-gram模型

CBOW是根據上下文去預測目標詞來訓練得到詞向量,如圖W(t)是根據四個詞W(t-2), W(t-1), W(t+1), W(t+2)来预测的;來預測的;而Skip-gram是根據目標詞去預測周圍詞來訓練得到詞向量,如圖是根據W(t)去預測W(t-2),W(t-1),W(t+1),W(t+2)

在模型預測階段我們將數據劃分為兩部分,以5:1的比例劃分訓練集和測試集並對訓練集進行亂序處理,訓練集三類情感比例分別為1:1:1,通過測試集我們得出模型的準確率為82%。

情緒分析在emoji中的應用

情緒分析是一種結合深度學習和統計學的綜合分析方法。我們經過對龐大數據的複雜分析計算才得出了emoji的情緒值,而完整的emoji情緒分析流程如下:

Emoji情緒分析的過程

  • 標記社交網絡語料庫
  • 數據預處理
  • 對數據集進行劃分:訓練集(80%)、測試集(20%)
  • 利用LSTM神經網絡進行模型的搭建
  • 根據模型在測試集上的表現,調整超參數以提高模型的泛化能力
  • 對未標記的數據執行相同的數據預處理操作
  • 使用訓練好的情感預測模型對未標註數據進行情感預測

我們對emoji進行情感分析,利用深度學習技術進行訓練得出一個emoji文本情感分類器。對於分類器的輸出層,我們選擇sigmoid函數激活,將輸出層結果投影到0-1的區間中。一條文本越接近於0表示越消極,越接近於1表示越開心。

sigmoid函數公式為:F(x)=1/(1+ex)

我們將包含emoji的5000萬條推文的大樣本數據作為分析語料庫,再把待分析的語料庫放入訓練好的情感分類器中進行情感預測,最後把情感分類器進行文本情感預測的結果分為消極、中性和積極三類,劃分公式表示為:

雖然這一系列的操作有些困難,但我們還是努力做到啦!

Emoji情感分析的使用和前景

情緒分析廣泛應用於營銷、廣告、心理學、醫學等領域。我們決定做 emoji 情緒分析則是為了幫助人們在實際的社交互動中更深入地了解 emoji,更有效地消除 emoji 的歧義和誤解。

例如,當你在網上與朋友(或暗戀對象)聊天時,對方有時可能會發送一些你不太了解的emoji給你。其實這樣的情況有很多,比如:

  • 有人回复我的照片🤒,是什麼意思?
  • 一個女孩給我發😊,她是什麼意思?
  • 我暗戀的人給我發了一個 ,她也喜歡我嗎?

雖然你無法說出一個emoji的準確含義,但是,通過我們的情緒分析,你可以從心理上分析這些emoji,比如“我喜歡的人給我發了💞 ,這是一個積極的emoji,也許我應該約她出去”“為什麼我男朋友給我發😒?有點消極,他生我的氣了嗎?”,以此類推。通過我們的Emoji情緒分析,相信你可以更深入地了解 emoji。


總而言之,我們為這個emoji情緒分析項目付出了很多。即便它困難重重,我們仍想把它做得更深入。我們現在正在對不同語言中的emoji進行分析,以及emoji對純文本的情緒增益效果,更細緻的研究它們的區別,也擬定了其他幾個進階的方向,探尋更多的用法和玩法。希望我們的emoji情緒分析能夠開闊你的視野。同時,如果你有更好的想法和建議,也可以在下方留言給我們,感謝你的支持🤗!

功能選單

分類

膚色

髮型

性别

情緒

版本