Her emoji özeldir. Doğru bir şekilde analiz ettiğiniz sürece, bir emojinin anlamları, kategorisi, ilgili konusu, hatta bazı benzersiz kullanımları gibi birçok bilgiyi bir bakışta öğrenebilirsiniz👀. Her emoji için büyük miktarda hesaplama ve analiz yaptıktan sonra, nihayet Emoji Etiket Bulutu , belirli bir emoji ile ilgili anahtar kelimeler ve kelime öbeklerini alır ve onu yeni bir görsel şekilde temsil ederiz.
🔺Emojinin Etiket Bulutu [tek boynuzlu at🦄]
Etiketleri nasıl alıyoruz?
Hepimizin bildiği gibi Twitter , dünyaca ünlü bir sosyal ağ hizmetidir ve insanlar duygularını ifade etmek için veya sadece dekorasyon olarak emojili metinleri tweetlemeyi severler. Etiketlerimizin çoğu dünyanın her yerinden tweet'lerden geliyor. 2018.01'den 2021.11'e kadar olan tweet'leri analiz ediyoruz ve emoji içeren 812 milyon tweet'ten etiketleri çıkarıyoruz. Ardından, belirli bir emojiyle oldukça alakalı metinleri seçmek ve dili ayırt etmek için istatistikler ve algoritmalar kullanıyoruz. Bu sayede farklı ülkelerde bir emojinin nasıl kullanıldığını bile bilebiliriz.
Burada örnek olarak ingilizce sitesini kullanıyoruz. İngilizce sayfamızdaki bu 2 emoji: 😎 (güneş gözlüklü gülen yüz) ve 🦄 (tek boynuzlu at). Onlara etiket çıkarma işlemi yapıyoruz ve [cool] veya [nicki] gibi kelimeler alıyoruz.
Burada yeni bir problem ortaya çıkıyor❓: Elbette bir emoji ile ilgili birçok metin var, o zaman en uygun etiketi nasıl seçiyoruz ve bunları nasıl düzenleyeceğiz?
Bu durumda, daha fazla algoritma içerirler.
Etiket çıkarmanın profesyonel teknoloji açıklaması
Makaleler için soyut çıkarma ve kısa metinler için anahtar kelime etiketleme algoritmaları gibi farklı efektlere sahip birçok etiket çıkarma teknolojisi vardır. "Emoji Etiket Bulutu-Twitter Etiket Çıkarma" uygulamamız, TF-IDF algoritmasına dayanmaktadır. Denetimsiz bir kısa metin etiket çıkarma algoritması olan Twitter verilerinin özelliklerine göre modifiye edilmiş bir işlemle gerçekleştirilmiştir.
Anlamayı kolaylaştırmak için burada etiket çıkarma prosedürünü 3 adımda özetliyoruz.
- İlk olarak, birim olarak her tweet için emoji çıkarma ve metin temizleme işlemini gerçekleştiriyoruz, [@xx], [#xx] gibi konuları ve rumuzları kaldırıyoruz ve tweet URL'sini siliyoruz. Metin temizleme sırasında, farklı dillerdeki durak kelimelerini de (örneğin, ah, oh vb. gibi bazı modal parçacıkları kaldırın), kısaltmaları, kelime formlarını, büyük harfleri ve diğer faktörleri filtreleriz, son olarak her emojiye karşılık gelen kelime frekans bilgisi verilerini alırız. .
- İkinci olarak, önceki adımda elde edilen sonuçlara dayalı olarak bir ilk etiket metni ağırlığını hesaplamak için TF-IDF (terim frekansı-ters belge frekansı) metin temsil algoritmasını kullanırız.
- İlk iki adımda hesaplanan birimler aylık veriler olup toplam veriler dört yıldır. Son adımda, tüm aylık veriler üzerinde başka bir konsolide istatistiksel hesaplama turu yapacağız.
Hesaplama formülü: TF-IDF = TF * IDF
TF (Terim Frekansı), bir emojiye karşılık gelen bir kelimenin geçtiği yer sayısının emojiye karşılık gelen toplam kelime sayısına bölünmesiyle elde edilir. IDF, Ters Belge Frekansıdır, IDF = log( N / N(w) ) , [N] toplam emoji sayısını, [N(w)], [w] kelimesini içeren emoji sayısını temsil eder.
🔺Hem emojiA hem de emojiB'de bir kelime göründüğünde, kelimenin yeterince temsili olmadığı ve bu kelimenin ağırlığının azaltılması gerektiği anlamına gelir. IDF = log( N / N(w) ) formülünden, N(w)'nin artmasıyla 0 ile pozitif sonsuz arasındaki IDF aralığının azaldığı görülebilir.
Bir terimin bir makalede daha fazla görünmesi, terimin ağırlığının daha fazla olduğu anlamına gelir. Ancak, en sık görünen kelimeler, [aww], [oh] veya [RT] gibi tonu ifade eden veya gerçek anlamı olmayan kelimelerdir. Yalnızca TF değerine göre sıralama ve filtreleme yapılırsa, bu tür sözcüklerin filtrelenmesinden kaçınmak zordur. Bu nedenle, etiket metninin ağırlığını temsil etmek için daha doğru bir değer hesaplamak için IDF ters belge numarası bir kısıtlama olarak sunulur.
2. adımın sonunda, toplam emoji sayısının %15'inden fazla görünen girişleri filtreleyeceğiz.
Hesaplanan dört yıllık tweet verilerini [(sum(tfidf_m) / M) * log(M)] biçimine dönüştürün ve her bir etiket girişinin ağırlığını daha da hesaplayın. [sum(tfidf_m)], terimin her aydaki TF-IDF değerlerinin toplamını, [M] ise terimin göründüğü ay sayısını temsil eder.
Bunlar, emoji etiketi verilerinin yaklaşık hesaplama yöntemidir. Nihai veriler özetlendikten sonra, daha doğru etiket sonuçları almak için dile göre manuel olarak da kontrol edip filtreleyeceğiz.
Ek olarak, etiketler referans için CLDR kısa adını ve CLDR anahtar sözcüklerini de kullanır, bunlar en temel etiket metnidir, bu da bu sözcüklerden bazılarını Emoji Etiket Bulutunda her zaman göreceğiniz anlamına gelir.
🔺 Unicode Konsorsiyumu'na bir emoji gönderildiğinde, teklifinde CLDR kısa adı ve CLDR anahtar kelimeleri olması gerekir, bu nedenle bu kelimeler etiket seçiminde dikkate alınmalıdır. Emoji [unicorn🦄] bilgisi, kısa adını ve bazı anahtar kelimeleri etiket bulutuna koyduk.
Emoji Etiket Bulutumuz nasıl kullanılır?
Emoji Etiket Bulutu'nu piyasaya sürmemizin üzerinden epey zaman geçti. Şahsen, belirli bir emojiyi gözlemlemenin çok eğlenceli ve kullanışlı bir araç olduğuna inanıyorum, bazen hangi grubun veya trend olan konunun bu emojiyi kullanmayı tercih ettiğini bile bilebilirsiniz. Size Emoji Etiket Bulutumuzu nasıl kullanacağınızı göstereyim!
Yukarıda belirtildiği gibi, her bir etiket metninin ağırlığı farklıdır. Etiketler ve emoji arasındaki ilişkiyi daire boyutuna göre kolayca değerlendirebilirsiniz (daha büyük, daha alakalı). Veya farenizi dairenin üzerine getirebilirsiniz, [sayı, etiket metni] görünen küçük bir kare olacaktır. Bu durumda, sayı ne kadar küçükse, bu daire içindeki etiket emoji ile daha alakalıdır. Diğer ilgili emojileri aramak için bu etiketlere de tıklayabilirsiniz!
Yine de örnek olarak tek boynuzlu at kullanıyoruz. emoji [tek boynuzlu at 🦄 ] etiket bulutu aşağıdaki gibidir:
Gördüğünüz gibi, 🦄'nin ilk 5 etiketi [unicorn], [nicki], [unicorns], [plt] ve [barbz] .
Kelime [tek boynuzlu at], bu emojinin CLDR kısa adıdır ve geri kalan 4 etiketin tümü twitter'dan alınmıştır. [nicki] ve [barbz], Nicki Minaj ve hayran grubuyla ilgilidir ve [plt] kelimesi , İngiltere merkezli bir moda perakendecisi olan [Pretty Little Thing] veya sadece bu ifadeyi ifade eder. 🦄, sosyal ağlarda popüler bir emojidir ve Nicki Minaj hayranları için oldukça temsili bir emojidir. Nicki'yi seviyorsan kesinlikle bu emojiyi kullanmalısın!
Sonuç olarak, Emoji Etiket Bulutumuzu kullanarak, belirli bir emojinin ilgili içeriğini kolayca bulabilir, belki de pop kültürü hakkında daha fazla bilgi edinebilir ve bir emojinin temel ve kapsamlı anlamını bilmemenin utancından kaçınabilirsiniz. Bazen bir emojinin kullanılması , Japonya'daki bu emoji 🥺 gibi sosyal bir fenomen haline gelebilir. Yalvarmayı, şikayeti veya sevimliliği ifade eden bir emoji olan bu 'ぴえん🥺' kelimesi, "JC&JK Buzzword Awards 2019", "2019 Gal Buzzword Award" 2.liği, "Instagram Buzzword Award" birinciliği birincilik ödülünü kazandı. 2020" ve Japonya'nın her yerinde bir trend emojisi oldu! Bu durumda, bazı insanlar için Emoji Etiket Bulutu, internet kültürü hakkında bilgi edinmek için harika bir araçtır ve tamamı onu nasıl kullandığınıza bağlıdır.
Tüm bunlar, emojinin daha fazla kullanımını keşfetmek içindir ve emojiyi ilginç ve bilgilendirici bulmanızı umarız. Size doğru emoji ile ilgili içerikler sağlamak için veriler de güncellenmeye devam edecektir. Emoji Etiket Bulutu hakkında daha fazla tavsiyeniz varsa, lütfen aşağıdaki yorumlarda bize bildirin👇!