Saat ini semakin banyak penggunaan emoji yang praktis dan menarik dibuat, misalnya, berbagai kategori emoji akan digabungkan menjadi satu Meme, atau emoji yang tampaknya tidak terkait sebenarnya dapat digunakan untuk menggambarkan makna yang sama, yang membuat emoji secara bertahap membuat hubungan antara mereka. Kami ingin menunjukkan hubungan antara emoji ini secara visual dan membuat pengguna memiliki pemahaman yang lebih dalam tentang penggunaan emoji, jadi kami menggunakan algoritme pembelajaran mesin untuk menghitung hubungan antara emoji dan menggambar hasilnya menjadi gambar yang mudah dipahami, yaitu Hubungan Emoji Grafik .
Apa itu Grafik Hubungan Emoji?
Sudah diketahui bahwa emoji biasanya disajikan sebagai gambar, tetapi tidak mungkin untuk mengetahui hubungan antara emoji dengan gambar, karena penggunaan utama emoji adalah untuk menyampaikan informasi dan emosi, mereka lebih seperti bahasa, sehingga akan menjadi lebih akurat untuk mengeksplorasi hubungan mereka melalui makna dan penggunaan emoji. Oleh karena itu, kami memperoleh semua tweet yang berisi emoji dari 2018 hingga 2021, dengan total 812 juta tweet . Mempertimbangkan bahwa penggunaan emoji akan berbeda di lingkungan bahasa yang berbeda, kami mengklasifikasikan tweet berdasarkan bahasa, dan kemudian menghitung Kesamaan Teks antara emoji di setiap bahasa dengan algoritma pembelajaran mesin, sehingga mendapatkan Grafik Hubungan Emoji yang sesuai untuk setiap bahasa.
Bagaimana memahami Grafik Hubungan Emoji?
Ini adalah Emoji Hubungan Grafik 👉 untuk Spanyol. Kotak merah menunjukkan 9 emoji terdekat, panjang sinar mewakili derajat hubungan, semakin pendek sinar, semakin dekat hubungan. Selain itu, grafik juga menunjukkan bagian dari grafik hubungan emoji lainnya. Pada kotak hitam adalah grafik hubungan 👆 , dan di kotak oranye adalah grafik hubungan ⤵ .
Hasil yang tercermin dalam grafik hubungan memungkinkan kita untuk memiliki pemahaman yang lebih kaya tentang penggunaan emoji. Sebagai contoh, dua emoji ini 👈 🥺 sering digunakan sebagai kombinasi dengan 👉 dalam beberapa tahun terakhir untuk mengekspresikan dirugikan, malu atau memohon, sehingga mereka muncul dalam grafik hubungan ini:
Kedua emoji ini sering digunakan untuk menunjukkan tautan, yang berarti mereka memiliki kesamaan dalam penggunaan, sehingga mereka dekat satu sama lain dalam grafik hubungan:
Jika Anda mempelajari bagan hubungan emoji, Anda dapat menyegarkan persepsi Anda tentang beberapa emoji.
Bagaimana cara menghitung hubungan antara emoji?
Selanjutnya kami akan memberikan gambaran rinci tentang proses perhitungannya. Secara kasar dapat dibagi menjadi tiga langkah berikut:
- Pertama, kami menggunakan algoritma TF-IDF untuk mengekstrak tag setiap emoji dari tweet dan bobot yang sesuai untuk setiap tag. Tag merujuk pada kata-kata yang paling dekat hubungannya dengan emoji, yang setara dengan karakteristik emoji; dan bobot mengacu pada kedekatan hubungan antara tag dan emoji, semakin tinggi bobotnya, semakin dekat hubungannya. Tentang algoritme dan proses perhitungan untuk mendapatkan tag, kami telah menulis artikel untuk memperkenalkannya secara rinci, Anda dapat mengklik tautan yang tepat untuk membacanya: ️Emoji Tag Cloud: Bantu Anda Mendapatkan Lebih Banyak Pengetahuan Tentang Emoji!
- Setelah mendapatkan label, masalah baru muncul. Ketika sampai pada perhitungan, kita semua tahu bahwa umumnya hanya nilai numerik yang dapat dihitung, tetapi tag disajikan sebagai teks, jadi bagaimana cara menghitungnya secara algoritmik? Oleh karena itu, langkah kedua kita adalah mengubah teks menjadi nilai numerik yang dapat dihitung—— Vektor . Proses ini disebut Penyematan Kata . Pertama-tama kita perlu membaca sejumlah besar data tweet menggunakan algoritma word2vec (salah satu metode penyisipan kata) untuk mengubah setiap kata dalam teks menjadi vektor, kemudian kita dapat memperoleh matriks penyisipan kata yang terdiri dari semua vektor berdimensi tinggi kata, dan kemudian memetakan setiap kata yang sesuai dengan setiap tag yang kita dapatkan pada langkah pertama ke dalam vektor berdimensi tinggi melalui matriks penyisipan kata. Dengan demikian, kami telah menyelesaikan konversi teks ke vektor. Vektor berdimensi tinggi ini dihitung dengan menganalisis konteks teks, yang dapat dengan baik menjaga informasi semantik dari setiap kata dan dengan demikian memastikan keakuratan kesamaan teks. Algoritma word2vec juga dijelaskan secara detail di blog kami, jika ingin lebih detail bisa membacanya : Emoji Sentiment Analysis
- Langkah terakhir adalah menghitung kemiripan teks antar emoji. Algoritma yang biasa digunakan untuk menghitung kemiripan teks adalah VSM(Vector Space Model) . Ini adalah salah satu model perhitungan kesamaan yang paling banyak digunakan, tetapi memperoleh hasil dengan menghitung kata-kata yang muncul bersama (kata-kata yang muncul di kedua teks) dari dua teks, yang tidak akurat ketika menghadapi teks dengan arti yang sama tetapi susunan kata yang berbeda. untuk menghindari situasi ini, kami memilih algoritma lain—— SCM(Soft Cosine Measure) . Dapat mengukur kemiripan antar kata, sehingga meskipun dua teks tidak memiliki kesamaan kata, algoritma ini dapat menghitung kemiripan dua teks dengan mengevaluasi kemiripan kata. Setelah kita menggunakan SCM untuk mengukur vektor, semakin besar nilai yang kita dapatkan berarti semakin tinggi kesamaan teks antara emoji, dan semakin tinggi kesamaan teks, semakin dekat hubungannya.
Kesimpulan
Melalui grafik hubungan, kita dapat memahami kebiasaan dan preferensi orang dalam menggunakan emoji, dan menjelajahi tren penggunaan emoji. Anda mungkin terkejut menemukan bahwa beberapa emoji yang tidak akan Anda kaitkan satu sama lain sebenarnya terkait sangat erat, dan itu mungkin penggunaan emoji trendi baru yang belum Anda ketahui! Juga, jika Anda memiliki saran, beri tahu kami di komentar!