Fungsi Menu

Kategori

warna kulit

gaya rambut

jantina

Sentimen

Versi

Pada masa kini semakin banyak penggunaan emoji praktikal dan menarik dicipta, contohnya, kategori emoji yang berbeza akan digabungkan bersama untuk menjadi Meme, atau emoji yang kelihatan tidak berkaitan sebenarnya boleh digunakan untuk menerangkan makna yang sama, yang menjadikan emoji secara beransur-ansur mewujudkan hubungan antara mereka. Kami ingin menunjukkan hubungan antara emoji ini secara visual dan membolehkan pengguna memahami dengan lebih mendalam tentang penggunaan emoji, jadi kami menggunakan algoritma pembelajaran mesin untuk mengira hubungan antara emoji dan melukis hasilnya menjadi gambar yang mudah difahami, iaitu Hubungan Emoji graf .

Apakah itu Graf Hubungan Emoji?

Umum mengetahui bahawa emoji biasanya dibentangkan sebagai imej, tetapi adalah mustahil untuk mengetahui hubungan antara emoji dengan imej, kerana penggunaan utama emoji adalah untuk menyampaikan maklumat dan emosi, ia lebih seperti bahasa, jadi ia akan menjadi. lebih tepat untuk meneroka hubungan mereka melalui makna dan penggunaan emoji. Oleh itu, kami memperoleh semua tweet yang mengandungi emoji dari 2018 hingga 2021, berjumlah 812 juta tweet . Memandangkan penggunaan emoji akan berbeza dalam persekitaran bahasa yang berbeza, kami mengelaskan tweet mengikut bahasa, dan kemudian mengira Persamaan Teks antara emoji dalam setiap bahasa mengikut algoritma pembelajaran mesin, untuk mendapatkan Graf Hubungan Emoji yang sepadan untuk setiap bahasa.

Bagaimana untuk memahami Graf Hubungan Emoji?

Ini ialah Graf Hubungan Emoji bagi 👉 untuk bahasa Sepanyol. Kotak merah menunjukkan 9 emoji yang paling hampir dengannya, panjang sinar mewakili tahap perhubungan, semakin pendek sinar, semakin rapat perhubungan. Selain itu, graf juga menunjukkan sebahagian daripada graf perhubungan emoji lain. Dalam kotak hitam ialah graf hubungan 👆 ,dan dalam kotak oren ialah graf hubungan ⤵ .

Hasil yang ditunjukkan dalam graf perhubungan membolehkan kami mempunyai pemahaman yang lebih mendalam tentang penggunaan emoji. Contohnya, kedua-dua emoji 👈 🥺 ini sering digunakan sebagai gabungan dengan 👉 sejak beberapa tahun kebelakangan ini untuk menyatakan rasa terkilan, malu atau merayu, jadi ia muncul dalam graf perhubungan ini:

Kedua-dua emoji ini sering digunakan untuk menunjukkan pautan, yang bermaksud ia mempunyai persamaan dalam penggunaan, jadi ia rapat antara satu sama lain dalam graf perhubungan:

Jika anda mendalami carta perhubungan emoji, anda boleh menyegarkan semula persepsi anda terhadap beberapa emoji.

Bagaimana untuk mengira hubungan antara emoji?

Seterusnya kami akan memberi anda penerangan terperinci tentang proses pengiraan. Ia boleh dibahagikan secara kasar kepada tiga langkah berikut:

  • Pertama, kami menggunakan algoritma TF-IDF untuk mengekstrak teg setiap emoji daripada tweet dan berat yang sepadan dengan setiap teg. Tag merujuk kepada perkataan yang paling berkait rapat dengan emoji, yang setara dengan ciri emoji; dan pemberat merujuk kepada keakraban hubungan antara tag dan emoji, semakin tinggi beratnya, semakin rapat perhubungan itu. Mengenai algoritma dan proses pengiraan mendapatkan teg, kami telah menulis artikel untuk memperkenalkannya secara terperinci, anda boleh mengklik pautan yang betul untuk membacanya: ☁️Awan Teg Emoji: Bantu Anda Untuk Mendapat Lebih Banyak Pengetahuan Mengenai Emoji!
  • Selepas mendapatkan label, masalah baru timbul. Apabila bercakap tentang pengiraan, kita semua tahu bahawa secara amnya hanya nilai berangka yang boleh dikira, tetapi teg dibentangkan sebagai teks, jadi bagaimanakah ia boleh dikira secara algoritma? Oleh itu, langkah kedua kami ialah menukar teks kepada nilai berangka yang boleh dikira—— Vektor . Proses ini dipanggil Word Embedding . Kita perlu terlebih dahulu membaca sejumlah besar data tweet menggunakan algoritma word2vec (salah satu kaedah pembenaman perkataan) untuk mengubah setiap perkataan dalam teks menjadi vektor, kemudian kita boleh mendapatkan matriks pembenaman perkataan yang terdiri daripada semua vektor berdimensi tinggi perkataan, dan kemudian memetakan setiap perkataan yang sepadan dengan setiap teg yang kami perolehi dalam langkah pertama ke dalam vektor dimensi tinggi melalui matriks benam perkataan. Oleh itu, kami telah menyelesaikan penukaran teks-ke-vektor. Vektor berdimensi tinggi ini dikira dengan menganalisis konteks teks, yang boleh mengekalkan maklumat semantik setiap perkataan dan dengan itu memastikan ketepatan persamaan teks. Algoritma word2vec juga diterangkan secara terperinci dalam blog kami, jika anda mahukan butiran lanjut anda boleh membacanya: 🔍Analisis Sentimen Emoji
  • Langkah terakhir ialah mengira persamaan teks antara emoji. Algoritma yang biasa digunakan untuk mengira persamaan teks ialah VSM(Model Ruang Vektor) . Ini adalah salah satu model pengiraan persamaan yang paling banyak digunakan, tetapi ia memperoleh hasil dengan mengira perkataan yang berlaku bersama (perkataan yang terdapat dalam kedua-dua teks) dua teks, yang tidak tepat apabila menghadapi teks dengan makna yang sama tetapi perkataan yang berbeza. untuk mengelakkan situasi ini, kami memilih algoritma lain—— SCM(Soft Cosine Measure) . Ia boleh mengukur persamaan antara perkataan, jadi walaupun dua teks tidak mempunyai perkataan yang sama, algoritma ini boleh mengira persamaan dua teks dengan menilai persamaan perkataan. Selepas kami menggunakan SCM untuk mengukur vektor, semakin besar nilai yang kami peroleh bermakna semakin tinggi persamaan teks antara emoji, dan semakin tinggi persamaan teks, semakin rapat hubungan mereka.

Kesimpulan

Melalui graf perhubungan, kami dapat memahami tabiat dan keutamaan orang ramai menggunakan emoji, serta meneroka arah aliran penggunaan emoji. Anda mungkin terkejut apabila mendapati bahawa sesetengah emoji yang anda tidak akan kaitkan antara satu sama lain sebenarnya sangat berkait rapat, dan itu mungkin penggunaan emoji baharu yang bergaya yang anda belum tahu lagi! Juga, jika anda mempunyai sebarang cadangan, sila beritahu kami dalam komen!