كل رمز تعبيري مميز. طالما قمت بتحليلها بطريقة صحيحة ، يمكنك معرفة العديد من المعلومات مثل المعاني والفئة والموضوع ذي الصلة وحتى بعض الاستخدامات الفريدة للرموز التعبيرية في لمحة. بعد إجراء قدر كبير من العمليات الحسابية والتحليل لكل رمز تعبيري ، نحصل أخيرًا على Emoji Tag Cloud ، والكلمات الرئيسية والعبارات المتعلقة برموز تعبيرية معينة ، ونقوم بتمثيلها بطريقة مرئية جديدة.

🔺 The Tag Cloud of emoji [يونيكورن🦄]

كيف نحصل على العلامات؟

كما نعلم جميعًا ، Twitter هي خدمة شبكات اجتماعية مشهورة عالميًا ، ويحب الناس كتابة نصوص مع رموز تعبيرية للتعبير عن مشاعرهم أو مجرد زخرفة. معظم علاماتنا من التغريدات في جميع أنحاء العالم. نقوم بتحليل التغريدات من 2018.01 إلى 2021.11 واستخراج العلامات من 812 مليون تغريدة تحتوي على رموز تعبيرية. ثم نستخدم الإحصائيات والخوارزميات لانتقاء النصوص ذات الصلة بإيموجي معين ، وتمييز اللغة. من خلال هذا ، يمكننا حتى معرفة كيفية استخدام رمز تعبيري في بلد مختلف.

هنا نستخدم الموقع الإنجليزي كمثال. هذان الرمزان التعبيريان في صفحتنا الإنجليزية: 😎 (وجه مبتسم بنظارات شمسية) و 🦄 (وحيد القرن). نقوم باستخراج العلامات لهم ونحصل على كلمات مثل [cool] أو [nicki] .

! img_1

! img_2

هنا تظهر مشكلة جديدة❓: بالطبع هناك الكثير من النصوص المتعلقة بالرموز التعبيرية ، فكيف نختار الوسم الأنسب وكيف نرتبها؟

في هذه الحالة ، فإنها تنطوي على مزيد من الخوارزميات.

شرح التقنية الاحترافية لاستخراج العلامة

هناك العديد من أنواع تقنيات استخراج العلامات ذات التأثيرات المختلفة ، مثل الاستخراج المجرد للمقالات ، وخوارزميات تمييز الكلمات الرئيسية للنصوص القصيرة. يعتمد "استخراج علامة Emoji Tag Cloud-Twitter" على خوارزمية TF-IDF . تم تنفيذه بعملية معدلة بناءً على خصائص بيانات Twitter ، وهي عبارة عن خوارزمية لاستخراج تسمية نصية قصيرة غير خاضعة للإشراف.

لتسهيل الفهم ، نلخص هنا إجراء استخراج العلامة في 3 خطوات.

  • أولاً ، نقوم باستخراج الرموز التعبيرية وتنظيف النص لكل تغريدة لمدة شهر كوحدة واحدة ، ونزيل الموضوعات والألقاب مثل [xx] ، [#xx] ، ونحذف عنوان URL للتغريدة. أثناء تنظيف النص ، نقوم أيضًا بتصفية كلمات التوقف بلغات مختلفة (على سبيل المثال ، إزالة بعض الجسيمات النمطية مثل آه ، أوه ، وما إلى ذلك) ، والاختصارات ، ونماذج الكلمات ، والأحرف الكبيرة ، وعوامل أخرى ، وأخيراً نحصل على بيانات معلومات تردد الكلمات المقابلة لكل رمز تعبيري .
  • ثانيًا ، نستخدم خوارزمية تمثيل النص TF-IDF (مصطلح تردد الوثيقة العكسي للتردد) لحساب وزن نص التسمية الأولي بناءً على النتائج التي تم الحصول عليها في الخطوة السابقة.
  • صيغة الحساب هي: TF-IDF = TF * IDF

    يتم الحصول على TF (تردد المصطلح) بقسمة عدد تكرارات الكلمة المقابلة للرمز التعبيري على العدد الإجمالي للكلمات المقابلة للرمز التعبيري. IDF هو تردد المستند العكسي ، IDF = log (N / N (w)) ، بينما يمثل [N] العدد الإجمالي للرموز التعبيرية ، [N (w)] يمثل عدد الرموز التعبيرية التي تحتوي على كلمة [w].

    🔺عند ظهور كلمة في كل من emojiA و emojiB ، فهذا يعني أن الكلمة ليست ممثلة بشكل كافٍ ، ويجب تقليل وزن هذه الكلمة. من الصيغة IDF = log (N / N (w)) ، يمكن ملاحظة أن نطاق IDF بين 0 واللانهاية الموجبة يتناقص مع زيادة N (w).

    عندما يظهر مصطلح مرات أكثر في مقال ، فهذا يعني أن وزن المصطلح أكبر. ومع ذلك ، فإن الكلمات التي تظهر غالبًا هي كلمات تعبر عن نغمة أو ليس لها معنى حقيقي ، مثل [aww] ، [أوه] أو [RT]. من الصعب تجنب تصفية مثل هذه الكلمات إذا تم الفرز والتصفية فقط بواسطة قيمة TF. لذلك يتم تقديم رقم المستند العكسي لجيش الدفاع الإسرائيلي كقيد ، من أجل حساب قيمة أكثر دقة لتمثيل وزن نص التسمية.

    في نهاية الخطوة 2 ، سنقوم بتصفية الإدخالات التي تظهر أكثر من 15٪ من إجمالي عدد الرموز التعبيرية.

  • الوحدات المحسوبة في أول خطوتين هي بيانات شهرية ، وإجمالي البيانات أربع سنوات. في الخطوة الأخيرة ، سنجري جولة أخرى من الحسابات الإحصائية الموحدة على جميع البيانات الشهرية.
  • قم بتحويل بيانات التغريدات المحسوبة لمدة أربع سنوات إلى شكل [(sum (tfidf_m) / M) * log (M)] ، ثم قم بحساب وزن كل إدخال علامة. [sum (tfidf_m)] يمثل مجموع قيم TF-IDF للمصطلح في كل شهر ، ويمثل [M] عدد الأشهر التي يظهر فيها المصطلح.

هذه ، إذن ، هي طريقة الحساب التقريبية لبيانات علامة الرموز التعبيرية. بعد تلخيص البيانات النهائية ، سنقوم أيضًا بالتحقق يدويًا والتصفية وفقًا للغة من أجل الحصول على نتائج أكثر دقة للعلامة.


بالإضافة إلى ذلك ، ستستخدم العلامات أيضًا اسمًا قصيرًا لـ CLDR وكلمات CLDR للرجوع إليها ، وهي أبسط نص للعلامة ، مما يعني أنك سترى دائمًا بعض هذه الكلمات في Emoji Tag Cloud.

🔺 عند إرسال رمز تعبيري إلى Unicode Consortium ، من الضروري أن يكون هناك اسم قصير لـ CLDR وكلمات CLDR في اقتراحه ، لذلك يجب أن تأخذ هذه الكلمات في الاعتبار اختيار العلامة. معلومات emoji [unicorn🦄] ، نضع اسمها المختصر وبعض الكلمات الرئيسية في سحابة الوسم الخاصة بها.

كيفية استخدام Emoji Tag Cloud؟

لقد حان الوقت الذي أطلقنا فيه Emoji Tag Cloud. أنا شخصياً أعتقد أنها أداة مضحكة ومفيدة للغاية لمراقبة رمز تعبيري معين ، وأحيانًا يمكنك معرفة أي مجموعة أو موضوع شائع يفضل استخدام هذا الرمز التعبيري. دعني أوضح لك كيفية استخدام Emoji Tag Cloud!

كما هو مذكور أعلاه ، يختلف وزن كل نص علامة. يمكنك ببساطة الحكم على العلاقة بين العلامات والرموز التعبيرية من خلال حجم الدائرة (الأكبر ، والأكثر صلة). أو يمكنك وضع مؤشر الفأرة على الدائرة ، سيكون هناك مربع صغير به [number، tag text] يظهر. في هذه الحالة ، كلما كان الرقم أصغر ، تكون العلامة الموجودة في هذه الدائرة أكثر صلة بالإيموجي. يمكنك أيضًا النقر فوق هذه العلامات للبحث عن الرموز التعبيرية الأخرى ذات الصلة!

ما زلنا نستخدم يونيكورن كمثال. سحابة العلامات من الرموز التعبيرية [يونيكورن 🦄 ] هي كما يلي:

! img_1

كما ترى ، فإن أفضل 5 علامات لـ 🦄 هي [يونيكورن] و [نيكي] و [أحادي القرن] و [بلت] و [باربز].

Word [unicorn] هو الاسم المختصر لـ CLDR لهذا الرمز التعبيري ، ويتم استخراج جميع العلامات الأربعة المتبقية من Twitter. [nicki] و [barbz] مرتبطان بـ Nicki Minaj ومجموعة المعجبين بها ، وكلمة [plt] تشير إلى [Pretty Little Thing] ، بائع تجزئة للأزياء في المملكة المتحدة أو هذه العبارة فقط. 🦄 هو رمز تعبيري شائع في SNS ، وهو رمز تعبيري تمثيلي للغاية لمحبي Nicki Minaj. إذا كنت تحب Nicki ، فعليك بالتأكيد استخدام هذا الرمز التعبيري!

! img_2


بشكل عام ، باستخدام Emoji Tag Cloud ، يمكنك بسهولة معرفة المحتويات ذات الصلة برمز تعبيري معين ، وربما يمكنك معرفة المزيد عن ثقافة البوب وتجنب الإحراج من عدم معرفة المعنى الأساسي والموسع للرموز التعبيرية. في بعض الأحيان ، يمكن أن يصبح استخدام الرموز التعبيرية ظاهرة اجتماعية ، مثل هذا الرمز التعبيري 🥺 في اليابان. كرمز تعبيري للتعبير عن التسول أو التظلم أو الجمال ، فازت هذه الكلمة 'ぴ え ん 🥺' بجائزة "JC&JK Buzzword Awards 2019" ، "2019 Gal Buzzword Award" المركز الثاني ، المركز الأول في Instagram Buzzword Award للنصف الأول من 2020 "وأصبح رمزًا تعبيريًا للاتجاه في جميع أنحاء اليابان! في هذه الحالة ، بالنسبة لبعض الأشخاص ، تعد Emoji Tag Cloud أيضًا أداة رائعة للتعرف على ثقافة الإنترنت ، وكلها تعتمد على كيفية استخدامها.

كل هذا لاستكشاف المزيد من استخدام الرموز التعبيرية ، ونأمل أن تجد الرموز التعبيرية ممتعة وغنية بالمعلومات. من أجل تزويدك بمحتويات دقيقة متعلقة بالرموز التعبيرية ، ستستمر البيانات أيضًا في التحديث. إذا كان لديك المزيد من النصائح حول Emoji Tag Cloud ، فالرجاء إخبارنا بذلك في التعليقات أدناه👇!


بحث استراحة حديث لا تستخدم الرموز التعبيرية مؤخرًا إموجيفي... نجاح Emojify