هر ایموجی خاصی است. تا زمانی که آن را به روشی درست تجزیه و تحلیل کنید، می توانید در یک نگاه به بسیاری از اطلاعات مانند معانی، دسته بندی، موضوع مرتبط، حتی استفاده منحصر به فرد از یک ایموجی پی ببرید. پس از انجام محاسبات و تجزیه و تحلیل زیادی برای هر ایموجی، در نهایت Emoji Tag Cloud ، کلمات کلیدی و عبارات مربوط به یک ایموجی خاص را دریافت می کنیم و آن را به روشی بصری جدید نشان می دهیم.

🔺ابر برچسب شکلک [تک شاخ🦄]

چگونه برچسب ها را دریافت کنیم؟

همانطور که همه ما می دانیم، توییتر یک سرویس شبکه اجتماعی مشهور جهانی است و مردم دوست دارند متن هایی را با ایموجی برای بیان احساسات خود یا فقط به عنوان تزئین توییت کنند. بیشتر برچسب‌های ما از توییت‌های سراسر جهان است. ما توییت‌های 2018.01 تا 2021.11 را تجزیه و تحلیل می‌کنیم و برچسب‌ها را از 812 میلیون توییت حاوی ایموجی استخراج می‌کنیم. سپس از آمار و الگوریتم‌ها استفاده می‌کنیم تا متن‌هایی را که بسیار مرتبط با یک ایموجی خاص هستند انتخاب کنیم و زبان را متمایز کنیم. از این طریق، ما حتی می توانیم بدانیم که چگونه یک ایموجی در کشورهای مختلف استفاده می شود.

در اینجا ما از سایت انگلیسی به عنوان مثال استفاده می کنیم. این 2 emojis در صفحه انگلیسی ما: 😎 (صورتک خندان با عینک آفتابی) و 🦄 (اسب شاخدار). استخراج برچسب را برای آنها انجام می دهیم و کلماتی مانند [cool] یا [nicki] را دریافت می کنیم .

در اینجا یک مشکل جدید نشان داده می شود: البته متن های زیادی در رابطه با یک ایموجی وجود دارد، سپس چگونه مناسب ترین برچسب را انتخاب می کنیم و چگونه آنها را مرتب می کنیم؟

در این شرایط، آنها الگوریتم های بیشتری را شامل می شوند.

توضیح فناوری حرفه ای استخراج برچسب

انواع مختلفی از فناوری‌های استخراج برچسب با جلوه‌های متفاوت، مانند استخراج انتزاعی برای مقالات و الگوریتم‌های برچسب‌گذاری کلیدواژه برای متون کوتاه وجود دارد. "Emoji Tag Cloud-Twitter Tag Extraction" ما بر اساس الگوریتم TF-IDF است . این با یک فرآیند اصلاح شده بر اساس ویژگی های داده های توییتر، که یک الگوریتم استخراج برچسب متن کوتاه بدون نظارت است، انجام شد.

برای تسهیل درک، در اینجا روند استخراج برچسب را در 3 مرحله خلاصه می کنیم.

  • ابتدا، ما برای هر توییت با یک ماه استخراج ایموجی و پاکسازی متن انجام می‌دهیم، موضوعات و نام‌های مستعار مانند [@xx]، [#xx] را حذف می‌کنیم و URL توییت را حذف می‌کنیم. در حین تمیز کردن متن، ما همچنین کلمات توقف را در زبان‌های مختلف فیلتر می‌کنیم (مثلاً برخی از ذرات مدال مانند ah، oh و غیره را حذف می‌کنیم)، اختصارات، فرم‌های کلمه، حروف بزرگ و سایر عوامل را فیلتر می‌کنیم، در نهایت داده‌های اطلاعات فراوانی کلمه مربوط به هر ایموجی را دریافت می‌کنیم. .
  • دوم، ما از الگوریتم نمایش متن TF-IDF (فرکانس معکوس فرکانس سند) برای محاسبه وزن متن برچسب اولیه بر اساس نتایج به دست آمده در مرحله قبل استفاده می کنیم.
  • فرمول محاسبه این است: TF-IDF = TF * IDF

    TF (Term Frequency) از تقسیم تعداد تکرار یک کلمه مربوط به یک ایموجی بر تعداد کل کلمات مربوط به ایموجی به دست می آید. IDF فرکانس سند معکوس است، IDF = log(N / N(w)) ، در حالی که [N] تعداد کل ایموجی ها را نشان می دهد، [N(w)] نشان دهنده تعداد ایموجی های حاوی کلمه [w] است.

    🔺وقتی کلمه ای هم در emojiA و هم در emojiB ظاهر می شود به این معنی است که کلمه به اندازه کافی معرف نیست و باید از وزن این کلمه کاسته شود. از فرمول IDF = log(N / N(w))، می توان دریافت که محدوده IDF بین 0 و بی نهایت مثبت با افزایش N(w) کاهش می یابد.

    وقتی یک اصطلاح بارها در یک مقاله ظاهر می شود، به این معنی است که وزن آن عبارت بیشتر است. با این حال، کلماتی که اغلب ظاهر می شوند، کلماتی هستند که لحن را بیان می کنند یا معنای واقعی ندارند، مانند [aww]، [oh] یا [RT]. اگر فقط با مقدار TF مرتب سازی و فیلتر شوند، اجتناب از فیلتر کردن چنین کلماتی دشوار است. بنابراین شماره سند معکوس IDF به عنوان یک محدودیت معرفی می شود تا مقدار دقیق تری برای نشان دادن وزن متن برچسب محاسبه شود.

    در پایان مرحله 2، ورودی هایی را که بیش از 15 درصد از تعداد کل ایموجی ها ظاهر می شوند را فیلتر می کنیم.

  • واحدهای محاسبه شده در دو مرحله اول ماهانه و کل داده ها چهار سال است. در مرحله آخر، دور دیگری از محاسبات آماری تلفیقی را بر روی تمام داده های ماهانه انجام خواهیم داد.
  • داده های توییت چهار ساله محاسبه شده را به شکل [(sum(tfidf_m) / M) * log(M)] تبدیل کنید و وزن هر ورودی برچسب را بیشتر محاسبه کنید. [sum(tfidf_m)] نشان‌دهنده مجموع مقادیر TF-IDF عبارت در هر ماه، و [M] نشان‌دهنده تعداد ماه‌هایی است که عبارت در آن ظاهر می‌شود.

بنابراین، اینها روش محاسبه تقریبی داده های برچسب ایموجی است. پس از جمع‌بندی داده‌های نهایی، به‌منظور دریافت نتایج تگ دقیق‌تر، به صورت دستی مطابق با زبان بررسی و فیلتر می‌کنیم.


علاوه بر این، تگ ها همچنین از نام کوتاه CLDR و کلمات کلیدی CLDR برای مرجع استفاده می کنند، آنها ابتدایی ترین متن برچسب هستند، به این معنی که شما همیشه برخی از این کلمات را در Emoji Tag Cloud خواهید دید.

🔺 هنگامی که یک ایموجی به کنسرسیوم یونیکد ارسال می شود، لازم است که نام کوتاه CLDR و کلمات کلیدی CLDR در پروپوزال آن وجود داشته باشد، بنابراین این کلمات باید در انتخاب تگ مورد توجه قرار گیرند. اطلاعات ایموجی [unicorn🦄]، نام کوتاه و تعدادی از کلمات کلیدی آن را در ابر برچسب آن قرار می دهیم.

چگونه از Emoji Tag Cloud خود استفاده کنیم؟

مدت زیادی بود که Emoji Tag Cloud را منتشر کردیم. من شخصاً معتقدم که این یک ابزار بسیار خنده دار و مفید برای مشاهده یک ایموجی خاص است، حتی گاهی اوقات می توانید بدانید که کدام گروه یا موضوع پرطرفدار را به استفاده از این ایموجی ترجیح می دهد. اجازه دهید نحوه استفاده از Emoji Tag Cloud را به شما نشان دهم!

همانطور که در بالا ذکر شد، وزن هر متن برچسب متفاوت است. شما به سادگی می توانید ارتباط بین برچسب ها و ایموجی ها را بر اساس اندازه دایره قضاوت کنید (هرچه بزرگتر، مرتبط تر). یا می توانید موس خود را روی دایره قرار دهید، یک مربع کوچک با [شماره، متن برچسب] نشان داده می شود. در این شرایط، هر چه عدد کوچکتر باشد، برچسب موجود در این دایره بیشتر به ایموجی مربوط می شود. همچنین می توانید برای جستجوی ایموجی های مرتبط روی این برچسب ها کلیک کنید!

با این حال، ما از تک شاخ به عنوان مثال استفاده می کنیم. ابر برچسب ایموجی [تک شاخ 🦄 ] مانند زیر است:

همانطور که می بینید، 5 تگ برتر 🦄 عبارتند از [unicorn]، [nicki]، [unicorns]، [plt] و [barbz] .

Word [unicorn] نام کوتاه CLDR این ایموجی است و بقیه 4 تگ همگی از توییتر استخراج شده اند. [nicki] و [barbz] مربوط به نیکی میناژ و گروه طرفداران او هستند و کلمه [plt] به [چیز کوچک زیبا] ، یک خرده فروش مد مستقر در بریتانیا یا فقط به این عبارت اشاره دارد. 🦄 یک ایموجی محبوب در SNS و یک ایموجی بسیار نماینده برای طرفداران نیکی میناژ است. اگر عاشق نیکی هستید، حتما باید از این ایموجی استفاده کنید!


در مجموع، با استفاده از Emoji Tag Cloud ، می‌توانید به راحتی محتویات مرتبط یک ایموجی خاص را پیدا کنید، شاید حتی بتوانید درباره فرهنگ پاپ بیشتر بدانید و از خجالت ندانستن معنای اصلی و گسترده یک ایموجی جلوگیری کنید. گاهی اوقات استفاده از ایموجی می تواند به یک پدیده اجتماعی تبدیل شود، مانند این ایموجی 🥺 در ژاپن. این کلمه "ぴえん🥺" به عنوان ایموجی برای بیان التماس، گلایه یا دوست داشتنی برنده جوایز "JC&JK Buzzword Awards 2019"، "2019 Gal Buzzword Award" رتبه دوم، مقام اول "جایزه Buzzword اینستاگرام برای نیمه اول" شد. 2020" و تبدیل به یک شکلک ترند در سراسر ژاپن شد! در این مورد، برای برخی از افراد، Emoji Tag Cloud نیز ابزاری عالی برای آشنایی با فرهنگ اینترنت است، همه به نحوه استفاده شما از آن بستگی دارد.

همه اینها برای بررسی استفاده بیشتر از ایموجی است، و امیدواریم که ایموجی ها جالب و آموزنده باشند. به منظور ارائه محتوای دقیق مرتبط با شکلک، داده ها نیز به روز می شوند. اگر توصیه بیشتری در مورد Emoji Tag Cloud دارید، لطفاً در نظرات زیر با ما در میان بگذارید.