功能選單

分類

膚色

髮型

性别

情緒

版本

每個emoji都是特別的。只要我們分析得當,便能一目了然地發現很多相關信息,例如emoji的含義、分類、相關主題,甚至有時還能找到它的一些獨特用法👀。就此,我們對每一個emoji表情進行了大量的計算和分析後,最終得到了emoji標籤雲,一個用新穎的視覺方式,展現與特定emoji相關的關鍵詞和短語的新功能。

🔺【🦄】獨角獸的標籤雲

如何獲得標籤?

眾所周知,推特(Twitter)是世界知名的社交網絡服務平台,人們喜歡在網上髮帶有emoji的推文來表達自己的情緒或用作推文裝飾。標籤雲中的大部分標籤便是來自世界各地網友們的推文。我們對 2018.01 至 2021.11 的推文進行了詳細分析,並從共8.12 億條包含emoji的推文中提取了標籤後,使用統計和算法來挑選出與特定emoji高度相關的文本,並區分語言。這樣,我們甚至可以知道一個emoji在不同的國家是如何被使用的。

這裡我們以英文站為例。這兩個emoji:😎(墨鏡笑臉)和🦄(獨角獸)。我們對它們分別進行標籤提取後,得到了像【cool】【nicki】這樣的標籤詞條。

但這樣又會出現了一個新的問題❓:當與某emoji相關的詞條有很多時,該如何選擇最合適的標籤,以及如何排列展示它們呢?

在這種情況下,標籤雲又將涉及進一步的算法。

標籤提取的專業技術講解

標籤提取技術種類繁多效果不一,有針對長文本的文章摘要提取、針對短文本的關鍵詞標註算法。而我們的“標籤雲--Emoji推特標籤提取”則是以TF-IDF算法為核心。它根據推特數據的特徵進行稍加修改的流程進行Emoji的標籤提取方法,屬於非監督短文本標籤提取算法。

為了便於大家理解,這裡我們將標籤提取的過程總結為3個步驟。

  • 第一步,先對以月份為單位的每一條推特進行emoji提取文本清洗,去除[@ xx]、[#xx]之類的話題和暱稱,並對推特網址進行刪除。而在文本清洗的過程中,我們應對不同語言還會進行停用詞篩選過濾(比如去除像呀,囉等的一些語氣詞),縮寫、詞形以及大小寫的替換等文本細節處理,最終得到了每一個emoji對應的單詞詞頻信息數據。
  • 第二步則是根據上一步得到的結果,剔除詞頻前300的單詞後通過TF-IDF(term frequency–inverse document frequency)文本表示算法算出一個初始的標籤文本權重。
  • 計算公式為:TF-IDF = TF * IDF

    其中,TF即詞頻(Term Frequency),由某一個emoji對應的單詞出現的次數除以該emoji對應的單詞總數得來。 IDF是逆文本頻率指數(Inverse Document Frequency),公式為: IDF = log( N / N(w) ), [N] 表示emoji表情的總數,[N(w)] 表示包含單詞 [w] 的表情符號的數量。

    🔺當一個單詞既在emoji1中出現也在emoji2中出現,則說明這個單詞不具有代表性,應該對這個emoji的權重進行降低。由公式IDF = log( N / N ( w ) )可以看出,IDF的範圍在0到正無窮之間隨著N(w)的增加而減小。

    當一個詞條在一篇文章中出現的次數越多,則表示這個詞條的權重越大。然而,最常出現的詞是一些表達語氣,沒有實際意義,或者太過於普遍的詞,例如【啊】、【囉】或【轉發】。若是僅僅按TF值進行排序篩選,則很難避免此類字詞的過濾,因此引入IDF逆文檔數進行約束,以求計算出更為準確的數值來表示標籤文本的權重。

    在此步的最終,我們將過濾出現次數超過emoji總數15%的詞條。

  • 前兩步計算的單位都為月度數據,總共的文本為四年的數據量。而到了最後一步,我們將會對所有的月份數據進行再一輪的合併統計計算。
  • 將計算好的四年的推文數據轉換為[(sum(tfidf_m) / M) * log(M)] 的形式,對其中每一個標籤詞條的權值進行進一步的計算。其中sum( tfidf_m )表示對詞條在每個月中的TF-IDF值進行求和,M表示詞條出現的月份個數。

以上便是emoji的標籤數據的大致計算方法,最終數據匯總之後,我們還會根據語言進行人工的檢查過濾,以求能夠得到更加精準的標籤結果。


除此之外,標籤也會採用emoij的CLDR短名稱和CLDR關鍵字,它們是最基本的標籤文本,這意味著您將始終在 Emoji 標籤雲中看到其中一些詞。

🔺當一個emoji提交給Unicode聯盟時,它的提案中需要有CLDR短名稱和CLDR關鍵字,因此這些詞必須考慮加入標籤雲中。比如【獨角獸🦄】,我們便把它的簡稱和一些關鍵詞放到了它的標籤雲中。

如何使用Emoji標籤雲?

我們發布Emoji標籤雲也有一段時間了。就個人而言,我認為標籤雲是觀察分析特定emoji的一個非常有趣並有用的功能,有時您甚至可以知道哪個群體或熱門話題更喜歡使用這個emoji表情。

正如前述,每個標籤文本的權重是不一樣的。您可以簡單地通過圓圈的大小(圓的面積越大,相關性也越大)來判斷標籤和emoji之間的相關性。或者您可以將鼠標停留在圓圈上,會出現一個帶有[數字,標籤]的小方塊。這時數字越小,該圓圈中的標籤與emoji的相關性也越高。您還可以點擊這些標籤來搜索其他相關的emoji表情哦!

在此,我們仍以獨角獸表情為例。 emoji [獨角獸🦄 ]的英語站標籤云如下圖:

如您所見,英語站🦄的標籤前五名為[unicorn][nicki][unicorns][plt] [barbz]

詞語[unicorn]是這個emoji的CLDR簡稱,其餘4個標籤全部摘自推特。 [nicki] 和 [barbz] 與“麻辣雞”(Nicki Minaj)和她的粉絲群體有關,而單詞 [plt] 指的是[Pretty Little Thing] ,一家英國時裝零售商,或者只是指“小可愛”這個詞。 🦄是SNS中的流行表情,也是Nicki Minaj粉絲的代表emoji。如果你喜歡麻辣雞,那這個emoji你一定得多多使用!


總而言之,通過我們的Emoji標籤雲,您可以輕鬆找到與特定emoji相關的內容,甚至可以了解更多流行文化,避免因不了解emoji的基礎意思和擴展含義而發生尷尬。有時,emoji的使用會成為一種社會現象(如日本的🥺)。在這種情況下,對於一些人來說,Emoji標籤雲也是了解網絡文化的絕佳工具,這都取決於您如何使用它。

本站開發的所有功能,全部都是為了探索emoji表情符號的更多用法,希望您發現emoji的趣味與豐富內涵。與此同時,為了向您提供更加準確的emoji相關內容,數據也會不斷更新。如果您對我們的Emoji標籤云有更多建議,歡迎在下面的評論中告訴我們哦👇!