如今越來越多實用又有趣的emoji用法被創造了出來,比如不同類別的emoji會被組合在一起成為一個梗,或者看似沒有關聯的emoji其實可以用來形容同一個意思,這使得emoji之間逐漸產生了聯繫。我們想直觀地展現emoji之間的這種關係,讓用戶對emoji用法有更深入的了解,所以我們使用機器學習算法將emoji之間的關係計算了出來,並將結果繪製成簡單易懂的圖片,這就是Emoji關係圖

什麼是Emoji關係圖?

眾所周知emoji作為表情符號,通常以圖像的方式呈現,但是憑藉圖像是無法算出emoji之間的關係的,因為emoji的主要用途是傳遞信息和情緒,它們更像是一種語言,只有通過它們的含義和用法來探究其關係才更加準確,也更有實際意義。所以我們獲取了2018年到2021年的所有包含emoji的推文數據,共計8.12億條,並考慮到不同語言環境下emoji的用法會有所不同,將推文按照語種進行了分類,再通過機器學習算法分別計算出每一種語言裡emoji之間的文本相似度 ,從而得出各個語種所對應的emoji關係圖。

如何理解Emoji關係圖?

這是西班牙語站內👉的關係圖。紅色方框裡展示著和它關係最近的9個emoji,射線長度代表關係遠近程度,射線越短,關係越近。此外,圖中還展示了一小部分其他emoji的關係圖,黑色方框裡是👆的關係圖,而橘色方框裡是emoji的關係圖(這兩個關係圖均只展示了一部分)。

通過關係圖裡反映的結果,我們可以對emoji的用法有更豐富的認識。比如下圖這兩個emoji👈🥺近年來經常與👉組合使用來表達委屈、害羞或懇求,所以它們倆出現在了這張關係圖中:

再比如這兩個emoji,它們的用法相似,都經常被用來表示鏈接,所以在關係圖中也挨得很近:

如果您深入研究emoji關係圖,也許會刷新您對一些emoji的固有認知,留下新的印象。

如何計算emoji之間的關係?

接下來我們就為大家詳細介紹一下計算過程。大致可以分為以下三個步驟:

  • 第一步,是使用TF-IDF 算法從推文數據中提取出每個emoji的標籤以及每個標籤對應的權重。標籤指的是那些與emoji關係最緊密的單詞,相當於是一個emoji的特徵;而權重就是指標籤與emoji的關係的緊密程度,權重越高,則關係越緊密。關於獲取標籤的算法原理和計算過程,我們專門寫了一篇文章詳細介紹,您可以點擊右邊鏈接進行閱讀: ☁️Emoji標籤雲:助你更懂Emoji!
  • 獲取標籤後,新的問題出現了。說到計算,一般都是數值才能被計算,可標籤是以文本的形式呈現的,怎麼能用算法計算呢?因此,我們的第二步就是將文本轉換為可以計算的數值—— 向量 。這個過程稱為詞嵌入。我們需要先用word2vec算法(詞嵌入的方法之一)對大量推文數據進行閱讀,使文本中的每一個單詞轉化為向量,然後我們就能獲得一個由所有單詞的高維向量構成的詞嵌入矩陣,之後再通過詞嵌入矩陣把我們在第一步得到的每一個標籤對應的單詞映射到一個高維向量中。這些高維向量都是通過文本上下文進行計算後得出的,能夠很好地將每一個單詞的語義信息給保留下來,因此可以保證我們計算的文本相似度的準確性。 (關於word2vec這個算法我們在情緒分析那篇博客中也有詳細解釋過,如果您想了解更多細節可以在這裡查看: 🔍Emoji情緒分析
  • 最後一步就是計算文本相似度了。常用於計算文本相似度的算法是VSM(空間向量模型) 。這是應用最廣泛的一個基礎相似度計算模型,但是它是通過計算兩個文本的共現詞(即在兩個文本中都出現的詞)來得到結果,在面對含義相同但措辭不同的文本的時候,它的計算結果就不准確了。所以為了避免這種情況,我們選擇了另一種算法——SCM(軟餘弦測量法) 。它可以衡量詞與詞之間的相似度,即便兩個文本沒有共同單詞,最終也可以通過詞的相似度來評估文本的相似性。我們使用SCM測量向量後,得出來的數值越大就表示文本相似度越高,文本相似度越高,則emoji的關係越近。

結論

通過關係圖,我們可以了解人們使用emoji的習慣和喜好,挖掘emoji的流行趨勢。你可能會驚訝地發現有些你完全不會聯繫在一起的emoji其實關係非常緊密,那有可能就是一個你還未了解過的emoji新潮用法哦~對於想要深入研究emoji的朋友們,希望我們的這個功能能夠為你提供一些幫助和思路!同時有什麼建議和意見的話,也請多多地在評論區告訴我們吧!


搜尋 最近 最近 最近沒有使用emoji 表情符號化... 表情成功