Mỗi biểu tượng cảm xúc đều đặc biệt. Miễn là bạn phân tích nó một cách đúng đắn, bạn có thể tìm ra nhiều thông tin như ý nghĩa, danh mục, chủ đề liên quan, thậm chí một số cách sử dụng độc đáo của biểu tượng cảm xúc trong nháy mắt👀. Sau khi chúng tôi thực hiện rất nhiều phép tính và phân tích cho từng biểu tượng cảm xúc, cuối cùng chúng tôi nhận được Đám mây thẻ biểu tượng cảm xúc, các từ khóa và cụm từ liên quan đến một biểu tượng cảm xúc cụ thể và thể hiện nó theo một cách trực quan mới lạ.

🔺 Đám mây thẻ của biểu tượng cảm xúc [kỳ lân🦄]

Làm thế nào chúng tôi nhận được thẻ?

Như chúng ta đã biết, Twitter là một dịch vụ mạng xã hội nổi tiếng toàn cầu và mọi người thích đăng các đoạn văn bản có biểu tượng cảm xúc để thể hiện cảm xúc của họ hoặc chỉ để trang trí. Hầu hết các thẻ của chúng tôi là từ các tweet trên khắp thế giới. Chúng tôi phân tích các tweet từ 2018.01 đến 2021.11 và trích xuất các thẻ từ 812 triệu tweet có chứa biểu tượng cảm xúc. Sau đó, chúng tôi sử dụng số liệu thống kê và thuật toán để chọn ra các văn bản có liên quan nhiều đến một biểu tượng cảm xúc cụ thể và phân biệt ngôn ngữ. Qua điều này, chúng ta thậm chí có thể biết cách một biểu tượng cảm xúc được sử dụng ở các quốc gia khác nhau.

Ở đây chúng tôi sử dụng trang web tiếng anh làm ví dụ. 2 biểu tượng cảm xúc này trong trang tiếng Anh của chúng tôi: 😎 (khuôn mặt cười với kính râm) và 🦄 (kỳ lân). Chúng tôi thực hiện trích xuất thẻ cho họ và nhận được các từ như [cool] hoặc [nicki] .

! img_1

! img_2

Ở đây xuất hiện một vấn đề mới❓: Tất nhiên có rất nhiều văn bản liên quan đến biểu tượng cảm xúc, vậy làm thế nào chúng ta chọn thẻ phù hợp nhất và sắp xếp chúng như thế nào?

Trong tình huống này, chúng liên quan đến các thuật toán xa hơn.

Giải thích công nghệ chuyên nghiệp của việc trích xuất thẻ

Có nhiều loại công nghệ trích xuất thẻ với các hiệu ứng khác nhau, chẳng hạn như trích xuất tóm tắt cho các bài báo, và các thuật toán gắn thẻ từ khóa cho các văn bản ngắn. "Trích xuất thẻ biểu tượng cảm xúc trên đám mây-Twitter" của chúng tôi dựa trên thuật toán TF-IDF . Nó được thực hiện với một quy trình được sửa đổi dựa trên các đặc điểm của dữ liệu Twitter, đây là một thuật toán trích xuất nhãn văn bản ngắn không được giám sát.

Để dễ hiểu, sau đây chúng tôi xin tóm tắt quy trình trích xuất thẻ thành 3 bước.

  • Đầu tiên, chúng tôi thực hiện trích xuất biểu tượng cảm xúclàm sạch văn bản cho mỗi tweet với một tháng như một đơn vị, xóa các chủ đề và biệt hiệu như [@xx], [#xx] và xóa URL tweet. Trong quá trình làm sạch văn bản, chúng tôi cũng lọc các từ dừng ở các ngôn ngữ khác nhau (ví dụ: loại bỏ một số hạt phương thức như ah, oh, v.v.), chữ viết tắt, dạng từ, viết hoa và các yếu tố khác, cuối cùng nhận dữ liệu thông tin tần suất từ tương ứng với mỗi biểu tượng cảm xúc .
  • Thứ hai, chúng tôi sử dụng thuật toán biểu diễn văn bản TF-IDF (thuật ngữ tần số nghịch đảo tần số) để tính toán khối lượng văn bản nhãn ban đầu dựa trên kết quả thu được ở bước trước.
  • Công thức tính toán là: TF-IDF = TF * IDF

    TF (Tần suất thuật ngữ) được tính bằng cách chia số lần xuất hiện của một từ tương ứng với một biểu tượng cảm xúc cho tổng số từ tương ứng với biểu tượng cảm xúc. IDF là Tần suất tài liệu nghịch đảo, IDF = log (N / N (w)) , trong khi [N] đại diện cho tổng số biểu tượng cảm xúc, [N (w)] biểu thị số biểu tượng cảm xúc có chứa từ [w].

    🔺Khi một từ xuất hiện trong cả emojiA và emojiB, điều đó có nghĩa là từ đó không đủ đại diện và trọng lượng của từ này nên được giảm bớt. Từ công thức IDF = log (N / N (w)), có thể thấy rằng phạm vi IDF từ 0 đến dương vô cùng giảm khi tăng N (w).

    Khi một thuật ngữ xuất hiện nhiều lần hơn trong một bài báo, điều đó có nghĩa là trọng số của thuật ngữ đó càng lớn. Tuy nhiên, những từ xuất hiện thường xuyên nhất là những từ thể hiện giọng điệu hoặc không có ý nghĩa thực tế, chẳng hạn như [aww], [oh] hoặc [RT]. Nếu chỉ sắp xếp và lọc theo giá trị TF thì khó tránh khỏi việc lọc những từ như vậy. Vì vậy, số tài liệu nghịch đảo IDF được giới thiệu như một ràng buộc, nhằm tính toán một giá trị chính xác hơn để đại diện cho trọng lượng của văn bản nhãn.

    Khi kết thúc bước 2, chúng tôi sẽ lọc các mục xuất hiện trên 15% tổng số biểu tượng cảm xúc.

  • Các đơn vị được tính trong hai bước đầu tiên là dữ liệu hàng tháng và tổng dữ liệu là bốn năm. Ở bước cuối cùng, chúng tôi sẽ thực hiện một vòng tính toán thống kê tổng hợp khác trên tất cả dữ liệu hàng tháng.
  • Chuyển đổi dữ liệu tweet bốn năm được tính toán thành dạng [(sum (tfidf_m) / M) * log (M)] và tính thêm trọng lượng của mỗi mục nhập thẻ. [sum (tfidf_m)] đại diện cho tổng các giá trị TF-IDF của thuật ngữ trong mỗi tháng và [M] biểu thị số tháng mà thuật ngữ đó xuất hiện.

Do đó, đây là phương pháp tính toán gần đúng của dữ liệu thẻ biểu tượng cảm xúc. Sau khi dữ liệu cuối cùng được tổng hợp, chúng tôi cũng sẽ kiểm tra và lọc theo cách thủ công theo ngôn ngữ để có được kết quả thẻ chính xác hơn.


Ngoài ra, các thẻ cũng sẽ sử dụng tên ngắn CLDR và từ khóa CLDR để tham khảo, chúng là văn bản thẻ cơ bản nhất, có nghĩa là bạn sẽ luôn thấy một số từ này trong Đám mây thẻ biểu tượng cảm xúc.

🔺 Khi một biểu tượng cảm xúc được gửi đến Unicode Consortium, cần phải có tên ngắn CLDR và từ khóa CLDR trong đề xuất của nó, vì vậy những từ này phải được cân nhắc lựa chọn thẻ. Thông tin về biểu tượng cảm xúc [unicorn🦄], chúng tôi đặt tên ngắn của nó và một số từ khóa vào đám mây thẻ của nó.

Làm thế nào để sử dụng Đám mây thẻ biểu tượng cảm xúc của chúng tôi?

Đã khá lâu chúng tôi phát hành Đám mây thẻ biểu tượng cảm xúc. Cá nhân tôi tin rằng nó là một công cụ rất vui nhộn và hữu ích để quan sát một biểu tượng cảm xúc cụ thể, đôi khi bạn thậm chí có thể biết nhóm hoặc chủ đề thịnh hành nào thích sử dụng biểu tượng cảm xúc này. Hãy để tôi chỉ cho bạn cách sử dụng Đám mây thẻ biểu tượng cảm xúc của chúng tôi!

Như đã đề cập ở trên, trọng lượng của mỗi văn bản thẻ là khác nhau. Bạn có thể đơn giản đánh giá mối tương quan giữa các thẻ và biểu tượng cảm xúc bằng kích thước của vòng tròn (càng lớn, càng phù hợp). Hoặc bạn có thể đưa chuột vào hình tròn, sẽ có một hình vuông nhỏ có [number, tag text] hiện lên. Trong tình huống này, số càng nhỏ thì thẻ trong vòng kết nối này càng liên quan đến biểu tượng cảm xúc. Bạn cũng có thể nhấp vào các thẻ này để tìm kiếm các biểu tượng cảm xúc khác có liên quan!

Tuy nhiên, chúng tôi sử dụng kỳ lân làm ví dụ. Tag Cloud của biểu tượng cảm xúc [unicorn 🦄 ] giống như bên dưới:

! img_1

Như bạn có thể thấy, 5 thẻ hàng đầu của 🦄[unicorn], [nicki], [unicorns], [plt][barbz] .

Từ [unicorn] là tên viết tắt CLDR của biểu tượng cảm xúc này và phần còn lại của 4 thẻ đều được trích xuất từ twitter. [nicki] và [barbz] có liên quan đến Nicki Minaj và nhóm người hâm mộ của cô ấy , và từ [plt] được dùng để chỉ [Pretty Little Thing] , một nhà bán lẻ thời trang có trụ sở tại Vương quốc Anh hoặc chỉ cụm từ này. 🦄 là một biểu tượng cảm xúc phổ biến trong SNS và là một biểu tượng cảm xúc rất đại diện cho những người hâm mộ Nicki Minaj. Nếu bạn yêu thích Nicki, bạn chắc chắn nên sử dụng biểu tượng cảm xúc này!

! img_2


Nói chung, bằng cách sử dụng Đám mây thẻ biểu tượng cảm xúc của chúng tôi, bạn có thể dễ dàng tìm ra nội dung liên quan của một biểu tượng cảm xúc cụ thể, thậm chí có thể bạn có thể biết thêm về văn hóa đại chúng và tránh bối rối khi không biết ý nghĩa cơ bản và mở rộng của biểu tượng cảm xúc. Đôi khi việc sử dụng một biểu tượng cảm xúc có thể trở thành một hiện tượng xã hội, chẳng hạn như biểu tượng cảm xúc này 🥺 ở Nhật Bản. Là một biểu tượng cảm xúc để thể hiện sự cầu xin, than phiền hoặc đáng yêu, từ 'ぴ え ん 🥺' này đã giành được "Giải thưởng JC&JK Buzzword 2019", "Giải thưởng Gal Buzzword 2019", vị trí thứ nhất của "Giải thưởng Buzzword trên Instagram cho nửa đầu của 2020 "và trở thành biểu tượng cảm xúc xu hướng trên khắp Nhật Bản! Trong trường hợp này, đối với một số người, Emoji Tag Cloud cũng là một công cụ tuyệt vời để tìm hiểu về văn hóa internet, tất cả phụ thuộc vào cách bạn sử dụng nó.

Tất cả những điều này là để khám phá thêm cách sử dụng biểu tượng cảm xúc và hy vọng bạn thấy biểu tượng cảm xúc thú vị và nhiều thông tin. Để cung cấp cho bạn nội dung chính xác liên quan đến biểu tượng cảm xúc, dữ liệu cũng sẽ liên tục cập nhật. Nếu bạn có thêm bất kỳ lời khuyên nào về Emoji Tag Cloud, vui lòng cho chúng tôi biết trong phần bình luận bên dưới👇!


Chức năng Menu

Thể loại

màu da

kiểu tóc

giới tính

Tình cảm

Phiên bản