Fungsi Menu

Kategori

warna kulit

gaya rambut

jantina

Sentimen

Versi

Setiap emoji adalah istimewa. Selagi anda menganalisisnya dengan cara yang betul, anda boleh mengetahui banyak maklumat seperti makna, kategori, topik berkaitan, malah beberapa penggunaan unik emoji sepintas lalu👀. Selepas kami melakukan sejumlah besar pengiraan dan analisis untuk setiap emoji, kami akhirnya mendapat Emoji Tag Cloud , kata kunci dan frasa yang berkaitan dengan emoji tertentu dan mewakilinya dalam cara visual yang baharu.

🔺Awan Tag emoji [unicorn🦄]

Bagaimana kita mendapatkan tag?

Seperti yang kita sedia maklum, Twitter ialah perkhidmatan rangkaian sosial yang terkenal di dunia, dan orang ramai suka mengetweet teks dengan emoji untuk meluahkan emosi mereka atau hanya sebagai hiasan. Kebanyakan tag kami adalah daripada tweet di seluruh dunia. Kami menganalisis tweet dari 2018.01 hingga 2021.11 dan mengekstrak teg daripada 812 juta tweet yang mengandungi emoji. Kemudian kami menggunakan statistik dan algoritma untuk memilih teks yang sangat berkaitan dengan emoji tertentu dan membezakan bahasa. Melalui ini, kita juga boleh mengetahui cara emoji digunakan di negara yang berbeza.

Di sini kami menggunakan tapak bahasa inggeris sebagai contoh. 2 emoji ini dalam halaman bahasa Inggeris kami: 😎 (muka tersenyum dengan cermin mata hitam) dan 🦄 (unicorn). Kami melakukan pengekstrakan tag kepada mereka dan mendapatkan perkataan seperti [cool] atau [nicki] .

Di sini menunjukkan masalah baharu❓: Sudah tentu terdapat banyak teks yang berkaitan dengan emoji, kemudian bagaimana kami memilih teg yang paling sesuai dan cara menyusunnya?

Dalam keadaan ini, mereka melibatkan algoritma lanjut.

Penjelasan teknologi profesional tentang pengekstrakan tag

Terdapat banyak jenis teknologi pengekstrakan teg dengan kesan yang berbeza, seperti pengekstrakan abstrak untuk artikel dan algoritma penandaan kata kunci untuk teks pendek. "Emoji Tag Cloud-Twitter Tag Extraction" kami adalah berdasarkan algoritma TF-IDF . Ia dijalankan dengan proses yang diubah suai berdasarkan ciri-ciri data Twitter, yang merupakan algoritma pengekstrakan label teks pendek tanpa pengawasan.

Untuk memudahkan pemahaman, di sini kami meringkaskan prosedur pengekstrakan tag kepada 3 langkah.

  • Mula-mula, kami melakukan pengekstrakan emoji dan pembersihan teks untuk setiap tweet dengan sebulan sebagai satu unit, mengalih keluar topik dan nama panggilan seperti [@xx], [#xx] dan memadamkan URL tweet. Semasa pembersihan teks, kami juga menapis perkataan henti dalam bahasa yang berbeza (contohnya, alih keluar beberapa zarah modal seperti ah, oh, dll.), singkatan, bentuk perkataan, huruf besar dan faktor lain, akhirnya mendapatkan data maklumat kekerapan perkataan yang sepadan dengan setiap emoji .
  • Kedua, kami menggunakan algoritma perwakilan teks TF-IDF (term frequency-inverse document frequency) untuk mengira berat teks label awal berdasarkan hasil yang diperoleh dalam langkah sebelumnya.
  • Formula pengiraan ialah: TF-IDF = TF * IDF

    TF (Kekerapan Jangka) diperoleh dengan membahagikan bilangan kemunculan perkataan yang sepadan dengan emoji dengan jumlah bilangan perkataan yang sepadan dengan emoji. IDF ialah Kekerapan Dokumen Songsang, IDF = log( N / N(w) ) , manakala [N] mewakili jumlah bilangan emoji, [N(w)] mewakili bilangan emoji yang mengandungi perkataan [w].

    🔺Apabila perkataan muncul dalam kedua-dua emojiA dan emojiB, ini bermakna perkataan itu tidak cukup mewakili dan berat perkataan ini harus dikurangkan. Daripada formula IDF = log( N / N(w) ), dapat dilihat bahawa julat IDF antara 0 dan infiniti positif berkurangan dengan pertambahan N(w).

    Apabila istilah muncul lebih banyak kali dalam artikel, ini bermakna berat istilah itu lebih besar. Walau bagaimanapun, perkataan yang paling kerap muncul ialah perkataan yang menyatakan nada atau tidak mempunyai makna sebenar, seperti [aww], [oh] atau [RT]. Sukar untuk mengelakkan penapisan perkataan sedemikian jika hanya menyusun dan menapis mengikut nilai TF. Jadi nombor dokumen songsang IDF diperkenalkan sebagai kekangan, untuk mengira nilai yang lebih tepat untuk mewakili berat teks label.

    Pada penghujung langkah 2, kami akan menapis entri yang muncul lebih daripada 15% daripada jumlah emoji.

  • Unit yang dikira dalam dua langkah pertama ialah data bulanan, dan jumlah data ialah empat tahun. Pada langkah terakhir, kami akan melakukan satu lagi pusingan pengiraan statistik disatukan pada semua data bulanan.
  • Tukar data tweet empat tahun yang dikira ke dalam bentuk [(sum(tfidf_m) / M) * log(M)] , dan seterusnya hitung berat setiap entri teg. [sum(tfidf_m)] mewakili jumlah nilai TF-IDF istilah dalam setiap bulan, dan [M] mewakili bilangan bulan di mana istilah itu muncul.

Ini, kemudian, ialah kaedah pengiraan anggaran data tag emoji. Selepas data akhir diringkaskan, kami juga akan menyemak dan menapis secara manual mengikut bahasa untuk mendapatkan hasil teg yang lebih tepat.


Selain itu, teg juga akan menggunakan nama pendek CLDR dan kata kunci CLDR sebagai rujukan, ia adalah teks teg paling asas, yang bermaksud anda akan sentiasa melihat beberapa perkataan ini dalam Emoji Tag Cloud.

🔺 Apabila emoji diserahkan kepada Unicode Consortium, nama pendek CLDR dan kata kunci CLDR perlu ada dalam cadangannya, jadi perkataan ini mesti mengambil kira pemilihan tag. Maklumat emoji [unicorn🦄], kami meletakkan nama pendeknya dan beberapa kata kunci ke dalam awan tegnya.

Bagaimana untuk menggunakan Awan Tag Emoji kami?

Sudah agak lama kami mengeluarkan Emoji Tag Cloud. Secara peribadi, saya percaya ia adalah alat yang sangat lucu dan berguna untuk memerhati emoji tertentu, kadangkala anda juga boleh mengetahui kumpulan atau topik sohor kini yang lebih suka menggunakan emoji ini. Biar saya tunjukkan cara menggunakan Emoji Tag Cloud kami!

Seperti yang dinyatakan di atas, berat setiap teks teg adalah berbeza. Anda hanya boleh menilai korelasi antara teg dan emoji mengikut saiz bulatan (lebih besar, yang berkaitan). Atau anda boleh meletakkan tetikus anda pada bulatan, akan ada petak kecil dengan [nombor, nama emoji] dipaparkan. Dalam situasi ini, semakin kecil nombor itu, teg dalam kalangan ini lebih berkaitan dengan emoji. Anda juga boleh mengklik tag ini untuk mencari emoji lain yang berkaitan!

Namun, kami menggunakan unicorn sebagai contoh. Awan Tag emoji [unicorn 🦄 ] adalah seperti di bawah:

Seperti yang anda lihat, 5 tag teratas 🦄 ialah [unicorn], [nicki], [unicorns], [plt] dan [barbz] .

Word [unicorn] ialah nama pendek CLDR emoji ini, dan 4 teg selebihnya semuanya diekstrak daripada twitter. [nicki] dan [barbz] berkaitan dengan Nicki Minaj dan kumpulan peminatnya , dan perkataan [plt] merujuk kepada [Pretty Little Thing] , peruncit fesyen yang berpangkalan di UK atau hanya frasa ini. 🦄 ialah emoji popular dalam SNS dan emoji yang sangat mewakili untuk peminat Nicki Minaj. Jika anda suka Nicki, anda pasti harus menggunakan emoji ini!


Secara keseluruhannya, dengan menggunakan Emoji Tag Cloud kami , anda boleh mengetahui kandungan berkaitan emoji tertentu dengan mudah, mungkin anda juga boleh mengetahui lebih lanjut tentang budaya pop dan mengelakkan rasa malu kerana tidak mengetahui makna asas dan lanjutan bagi emoji. Kadangkala penggunaan emoji boleh menjadi fenomena sosial (seperti 🥺 di Jepun). Dalam kes ini, bagi sesetengah orang, Emoji Tag Cloud juga merupakan alat yang hebat untuk mengetahui tentang budaya internet, semuanya bergantung pada cara anda menggunakannya.

Semua ini adalah untuk meneroka lebih banyak penggunaan emoji, dan harap anda mendapati emoji menarik dan bermaklumat. Untuk memberikan anda kandungan berkaitan emoji yang tepat, data tersebut juga akan terus dikemas kini. Jika anda mempunyai sebarang nasihat lanjut tentang Emoji Tag Cloud, sila beritahu kami dalam komen di bawah👇!