Emoji penuh emosi. Itu dapat meningkatkan atau menyesuaikan nada dan suasana teks, pada saat yang sama, emosi yang diungkapkan oleh emoji bisa lebih jelas daripada kata-kata saja.

Misalnya emoji ini 👿 (wajah marah dengan tanduk). Itu jelas berbentuk karakter iblis, jadi mungkin ada yang menganggapnya sebagai emoji "buruk", seperti beberapa pikiran jahat di kepala seseorang.

Tapi tetap saja, deskripsi semacam ini sangat abstrak. Oleh karena itu, dapatkah kita memvisualisasikan jenis dan level sentimen yang diungkapkan oleh emoji ini?


Jawabannya adalah "Ya" tentu saja! Kami melakukan Pemrosesan Bahasa Alami (NLP) pada sampel publik tidak kurang dari 50 juta tweet, dan kami menggunakan Analisis Sentimen Teks (juga disebut penambangan opini) untuk mengaitkan sentimen emoji dengan serangkaian nilai dan memvisualisasikannya. Kami menghabiskan banyak waktu, energi, dan daya komputasi untuk membuat analisis sentimen emoji kami lebih ilmiah dan teliti, sehingga semua orang dapat merasakan pesona dan memahami emoji dengan lebih baik.

Grafik visual untuk analisis sentimen emoji

Data seperti nilai sentimen emoji dihitung berdasarkan analisis sentimen teks, yang termasuk dalam statistik dan teori probabilitas. Setelah kami memecahkan masalah algoritme dan daya komputasi, kami menemukan kesulitan baru: bagaimana membuat pengguna memahami data profesional ini?

Sebuah pikiran melintas di benak kita—— Hei! Bagaimana kalau kita memvisualisasikan nilai sentimen emoji dengan beberapa desain keren!

Jawaban: Kami mengonversi data yang dihitung dan dianalisis (kiri) menjadi bagan yang dapat lebih dipahami oleh pengguna (kanan), yang dapat secara lebih intuitif menunjukkan pembagian emosional emoji;

Jadi izinkan saya menjelaskan bagan berikut, yang menggambarkan hasil analisis kecenderungan sentimen emoji dalam komunikasi yang sebenarnya.

: 2 jenis grafik untuk analisis sentimen emoji , di sini kami hanya menganalisis grafik di atas.

Setengah lingkaran busur dalam gambar dibagi menjadi tiga warna, mewakili kecenderungan emosional yang berbeda dari emoji 👿 . Seperti yang bisa kita lihat, proporsi ketiga emosi ini sekitar 4:1:5, hijau dan oranye memiliki proporsi yang sama, yang berarti emoji ini lebih netral (kejutan!!).

  • Kursor abu-abu adalah Confidence Level , sebuah konsep statistik. Posisi dan lebarnya menunjukkan: Expected Value ± Confidence .
  • Nilai yang Diharapkan : Ini adalah rata-rata tertimbang dari variabel acak dispersif dari nilai sentimen emoji, yang digunakan untuk menyatakan probabilitas, c ∈ [−1, 0, +1] .
  • Confidence : Ini adalah set parameter distribusi nilai sentimen emoji, menunjukkan rentang kesalahan yang wajar dalam bentuk interval positif dan negatif. Dan semakin besar jumlah sampel korpus, semakin kecil kesalahannya.

Sederhananya, kursor lebih dekat ke kiri, emosi emoji ini lebih negatif. Sebaliknya, semakin dekat kursor ke kanan, semakin banyak emosi positif yang diungkapkan oleh emoji ini. Dan semakin sempit kursornya, penilaian emosi semakin akurat.


Sekarang, dapatkah Anda memahami bagan analisis sentimen emoji kami?

Apa itu Analisis Sentimen?

Saya yakin Anda telah memahami bagan data analisis sentimen emoji, jadi mari kita bicara tentang apa itu analisis sentimen.

Analisis sentimen disebut juga opinion mining. Secara teknis, analisis sentimen adalah bagian dari penelitian pemrosesan bahasa alami (NLP). Metode analisis sentimen dibagi menjadi dua jenis: Machine learning dan metode berbasis Kamus . Namun dengan berkembangnya teknologi deep learning, penggunaan teknologi ini untuk analisis sentimen menjadi mainstream.

Proses analisis sentimen meliputi pra-pemrosesan data, rekayasa fitur, dan pelatihan model. Secara umum, tahap preprocessing data terutama membagi teks menjadi kata-kata dan menghilangkan stopword dan tanda baca. Namun, analisis sentimen kami mempertahankan tanda baca dan kata henti. Pada tahap rekayasa fitur, kami memilih representasi penyematan kata (Word2Vec) yang diusulkan oleh tim Google pada tahun 2013, yang dibagi menjadi model CBOW (kontinyu bag of words) dan model Skip-gram . Hasil modelnya adalah sebagai berikut:

Di sebelah kiri adalah model CBOW, di sebelah kanan adalah model Skip-gram

CBOW didasarkan pada konteks untuk memprediksi kata target untuk melatih untuk mendapatkan vektor kata. Seperti yang ditunjukkan pada gambar, W(t) diprediksi berdasarkan empat kata W(t-2), W(t-1), W(t+1), W(t+2) ; Dan skip-gram adalah untuk memprediksi kata-kata di sekitarnya sesuai dengan kata target untuk melatih mendapatkan kata vektor. Seperti yang ditunjukkan pada gambar adalah untuk memprediksi W(t-2),W(t-1),W(t+1),W(t+2) menurut W(t) .

Pada tahap prediksi model, kami membagi data menjadi dua bagian: Training set dibagi dengan rasio 5:1 dan test set dan training set diproses secara tidak berurutan.

Penerapan analisis sentimen dalam emoji

Analisis sentimen adalah metode analisis komprehensif yang menggabungkan pembelajaran mendalam dan statistik. Kami telah memperoleh nilai sentimen emoji setelah analisis kompleks dan perhitungan rim data, dan proses analisis sentimen emoji lengkap adalah sebagai berikut:

Proses Analisis Sentimen Emoji

  • Labeli korpus jejaring sosial
  • Pra-pemrosesan data
  • Bagi dataset: Training Set(80%), Testing Set(20%)
  • Gunakan jaringan saraf LSTM untuk membangun model
  • Menurut kinerja model pada set pengujian, sesuaikan hyperparameter untuk meningkatkan kemampuan generalisasi model
  • Lakukan tindakan prapemrosesan data yang sama pada data yang tidak berlabel
  • Gunakan model prediksi sentimen terlatih untuk memprediksi kecenderungan sentimen pada data yang tidak berlabel

Kami melakukan analisis sentimen pada emoji, dan menggunakan teknologi pembelajaran mendalam untuk berlatih mendapatkan pengklasifikasi sentimen teks emoji. Untuk lapisan keluaran pengklasifikasi, kami memilih fungsi sigmoid untuk diaktifkan, dan memproyeksikan hasil lapisan keluaran ke dalam interval 0-1. Semakin dekat teks ke 0, semakin negatif, dan semakin dekat ke 1, semakin positif.

Rumus fungsi sigmoid adalah: F(x)=1/(1+ex)

Kami menggunakan data sampel besar 50 juta tweet yang berisi emoji sebagai korpus analisis, kemudian memasukkan korpus yang perlu dianalisis ke dalam pengklasifikasi sentimen terlatih untuk prediksi sentimen. Terakhir, hasil prediksi sentimen oleh classifier dibagi menjadi tiga jenis: negatif, netral dan positif. Kriteria klasifikasinya adalah:

Bagaimanapun, itu sulit, tapi kami berhasil!!

Penggunaan dan prospek Analisis Sentimen Emoji

Analisis sentimen banyak digunakan dalam bidang pemasaran, periklanan, psikologi, medis, dan bidang lainnya. Kami memutuskan untuk melakukan analisis sentimen emoji adalah untuk membantu orang mendapatkan pemahaman yang lebih dalam tentang emoji dalam interaksi sosial yang sebenarnya, menghilangkan ambiguitas dan kesalahpahaman emoji dengan lebih efektif.

Misalnya, saat Anda mengobrol dengan teman (atau orang yang Anda sukai) secara online, orang lain terkadang mengirimi Anda emoji yang tidak terlalu Anda pahami. Sebenarnya, ada banyak situasi seperti ini, seperti:

  • Apa 🤒 berarti jika seseorang balasan untuk foto saya?
  • Apa artinya ketika seorang gadis mengirim 😊 kepada saya?
  • Jika gebetanku mengirimiku , apakah itu pertanda baik?

Seperti yang kami ketahui, Anda tidak dapat mengetahui makna emoji yang akurat, namun, melalui analisis sentimen kami, Anda mungkin dapat menganalisis emoji ini secara psikologis, seperti "dia mengirimi saya , ini pertanda positif, mungkin saya harus mengajaknya kencan" atau " kenapa pacarku mengirimiku ? Ini agak negatif, apakah dia marah padaku?" , sesuatu seperti ini. Dengan Analisis Sentimen Emoji kami, saya yakin Anda dapat memahami emoji lebih dalam.


Secara keseluruhan, kami telah membayar banyak untuk proyek analisis sentimen emoji ini. Meski sulit, kami tetap ingin membuatnya lebih dalam. Kami sekarang menganalisis emoji dalam bahasa yang berbeda, efek keuntungan emosional emoji pada teks murni, dan beberapa penelitian lanjutan lainnya juga telah dipertimbangkan. Semua ini untuk mengeksplorasi lebih banyak penggunaan emoji, dan semoga emoji Anda menarik dan informatif.