Ngày nay, ngày càng có nhiều cách sử dụng biểu tượng cảm xúc thực tế và thú vị được tạo ra, chẳng hạn như các danh mục biểu tượng cảm xúc khác nhau sẽ được kết hợp với nhau để trở thành Meme, hoặc biểu tượng cảm xúc dường như không liên quan thực sự có thể được sử dụng để diễn tả cùng một ý nghĩa, điều này khiến biểu tượng cảm xúc dần dần tạo ra sự kết nối giữa họ. Chúng tôi muốn thể hiện mối quan hệ giữa biểu tượng cảm xúc này một cách trực quan và để người dùng hiểu sâu hơn về cách sử dụng biểu tượng cảm xúc, vì vậy chúng tôi sử dụng thuật toán máy học để tính toán mối quan hệ giữa các biểu tượng cảm xúc và vẽ kết quả thành một bức tranh dễ hiểu, đó là Mối quan hệ biểu tượng cảm xúc Đồ thị .

Biểu đồ quan hệ biểu tượng cảm xúc là gì?

Ai cũng biết rằng biểu tượng cảm xúc thường được trình bày dưới dạng hình ảnh, nhưng không thể tìm ra mối quan hệ giữa biểu tượng cảm xúc với hình ảnh, bởi vì công dụng chính của biểu tượng cảm xúc là truyền tải thông tin và cảm xúc, chúng giống như một ngôn ngữ hơn, vì vậy nó sẽ chính xác hơn để khám phá mối quan hệ của họ thông qua ý nghĩa và cách sử dụng biểu tượng cảm xúc. Do đó, chúng tôi đã thu được tất cả các tweet có chứa biểu tượng cảm xúc từ năm 2018 đến năm 2021, tổng cộng là 812 triệu tweet . Cân nhắc rằng việc sử dụng biểu tượng cảm xúc sẽ khác nhau trong các môi trường ngôn ngữ khác nhau, chúng tôi đã phân loại các tweet theo ngôn ngữ, sau đó tính toán Độ giống văn bản giữa các biểu tượng cảm xúc trong mỗi ngôn ngữ bằng thuật toán máy học, để có được Biểu đồ quan hệ biểu tượng cảm xúc tương ứng cho mỗi ngôn ngữ.

Làm thế nào để hiểu Biểu đồ mối quan hệ biểu tượng cảm xúc?

Đây là Biểu đồ Mối quan hệ Biểu tượng cảm xúc của 👉 cho tiếng Tây Ban Nha. Ô màu đỏ hiển thị 9 biểu tượng cảm xúc gần nhất với nó, độ dài của tia biểu thị mức độ quan hệ, tia càng ngắn thì mối quan hệ càng thân thiết. Ngoài ra, biểu đồ cũng thể hiện một phần biểu đồ quan hệ của các biểu tượng cảm xúc khác. Trong hộp đen là đồ thị quan hệ của 👆, và trong hộp màu cam là đồ thị quan hệ của .

Kết quả được phản ánh trong biểu đồ mối quan hệ cho phép chúng ta hiểu sâu hơn về cách sử dụng biểu tượng cảm xúc. Ví dụ: hai biểu tượng cảm xúc này 👈 🥺 thường được sử dụng kết hợp với 👉 trong những năm gần đây để thể hiện sự đau khổ, xấu hổ hoặc cầu xin, vì vậy chúng xuất hiện trong biểu đồ mối quan hệ này:

Hai biểu tượng cảm xúc này thường được sử dụng để biểu thị các liên kết, có nghĩa là chúng có những điểm tương đồng trong cách sử dụng, vì vậy chúng gần nhau trong biểu đồ mối quan hệ:

Nếu bạn đi sâu vào biểu đồ mối quan hệ của biểu tượng cảm xúc, bạn có thể làm mới nhận thức của mình về một số biểu tượng cảm xúc.

Làm thế nào để tính toán mối quan hệ giữa các biểu tượng cảm xúc?

Tiếp theo, chúng tôi sẽ cung cấp cho bạn một mô tả chi tiết về quá trình tính toán. Nó có thể được chia thành ba bước sau:

  • Đầu tiên, chúng tôi sử dụng thuật toán TF-IDF để trích xuất các thẻ của mỗi biểu tượng cảm xúc từ các tweet và trọng lượng tương ứng với mỗi thẻ. Thẻ đề cập đến những từ có liên quan chặt chẽ nhất đến biểu tượng cảm xúc, tương đương với các đặc điểm của biểu tượng cảm xúc; và trọng số đề cập đến mức độ gần gũi của mối quan hệ giữa các thẻ và biểu tượng cảm xúc, trọng số càng cao thì mối quan hệ càng chặt chẽ. Về thuật toán và quy trình tính toán lấy thẻ, chúng tôi đã có bài viết giới thiệu chi tiết, các bạn click vào link bên phải để đọc nhé: ☁️Emoji Tag Cloud: Giúp Bạn Có Thêm Kiến Thức Về Emoji!
  • Sau khi lấy được các nhãn, một vấn đề mới nảy sinh. Khi nói đến tính toán, chúng ta đều biết rằng thông thường chỉ có thể tính toán các giá trị số, nhưng các thẻ được trình bày dưới dạng văn bản, vậy làm thế nào chúng có thể được tính toán theo thuật toán? Do đó, bước thứ hai của chúng tôi là chuyển đổi văn bản thành các giá trị số có thể được tính toán—— Véc tơ . Quá trình này được gọi là Nhúng từ . Trước tiên, chúng ta cần đọc một lượng lớn dữ liệu tweet bằng cách sử dụng thuật toán word2vec (một trong những phương pháp nhúng từ) để chuyển từng từ trong văn bản thành một vectơ, sau đó chúng ta có thể thu được ma trận nhúng từ bao gồm tất cả các vectơ chiều cao của các từ, và sau đó ánh xạ từng từ tương ứng với mỗi thẻ mà chúng ta nhận được trong bước đầu tiên thành một vectơ chiều cao thông qua ma trận nhúng từ. Như vậy, chúng ta đã hoàn thành việc chuyển đổi văn bản thành vectơ. Các vectơ chiều cao này được tính toán bằng cách phân tích ngữ cảnh của văn bản, có thể lưu giữ tốt thông tin ngữ nghĩa của từng từ và do đó đảm bảo tính chính xác của sự tương đồng văn bản. Thuật toán word2vec cũng được giải thích chi tiết trong blog của chúng tôi, nếu bạn muốn biết thêm chi tiết bạn có thể đọc nó: 🔍Emoji Niềm tin Phân tích
  • Bước cuối cùng là tính toán sự giống nhau về văn bản giữa các biểu tượng cảm xúc. Thuật toán thường được sử dụng để tính toán độ tương tự của văn bản là VSM (Vector Space Model) . Đây là một trong những mô hình tính toán độ giống nhau được sử dụng rộng rãi nhất, nhưng nó thu được kết quả bằng cách tính toán các từ đồng xuất hiện (các từ xuất hiện trong cả hai văn bản) của hai văn bản, điều này không chính xác khi đối mặt với các văn bản có cùng nghĩa nhưng cách diễn đạt khác nhau. để tránh tình huống này, chúng tôi đã chọn một thuật toán khác—— SCM (Soft Cosine Measure) . Nó có thể đo mức độ giống nhau giữa các từ, vì vậy ngay cả khi hai văn bản không có từ chung, thuật toán này có thể tính toán độ giống nhau của hai văn bản bằng cách đánh giá độ giống nhau của từ. Sau khi chúng tôi sử dụng SCM để đo vectơ, giá trị mà chúng tôi nhận được càng lớn có nghĩa là độ tương đồng văn bản giữa các biểu tượng cảm xúc càng cao và độ giống văn bản càng cao thì mối quan hệ của chúng càng chặt chẽ.

Phần kết luận

Thông qua biểu đồ mối quan hệ, chúng ta có thể hiểu thói quen và sở thích sử dụng biểu tượng cảm xúc của mọi người, đồng thời khám phá xu hướng sử dụng biểu tượng cảm xúc. Bạn có thể ngạc nhiên khi thấy rằng một số biểu tượng cảm xúc mà bạn không liên kết với nhau thực sự có liên quan rất chặt chẽ và đó có thể là một cách sử dụng biểu tượng cảm xúc mới hợp thời trang mà bạn chưa biết! Ngoài ra, nếu bạn có bất kỳ đề xuất nào, hãy cho chúng tôi biết trong phần bình luận!