هر ایموجی خاصی است. تا زمانی که آن را به روشی درست تجزیه و تحلیل کنید، می توانید در یک نگاه به بسیاری از اطلاعات مانند معانی، دسته بندی، موضوع مرتبط، حتی استفاده منحصر به فرد از یک ایموجی پی ببرید. پس از انجام محاسبات و تجزیه و تحلیل زیادی برای هر ایموجی، در نهایت Emoji Tag Cloud ، کلمات کلیدی و عبارات مربوط به یک ایموجی خاص را دریافت می کنیم و آن را به روشی بصری جدید نشان می دهیم.
🔺ابر برچسب شکلک [تک شاخ🦄]
چگونه برچسب ها را دریافت کنیم؟
همانطور که همه ما می دانیم، توییتر یک سرویس شبکه اجتماعی مشهور جهانی است و مردم دوست دارند متن هایی را با ایموجی برای بیان احساسات خود یا فقط به عنوان تزئین توییت کنند. بیشتر برچسبهای ما از توییتهای سراسر جهان است. ما توییتهای 2018.01 تا 2021.11 را تجزیه و تحلیل میکنیم و برچسبها را از 812 میلیون توییت حاوی ایموجی استخراج میکنیم. سپس از آمار و الگوریتمها استفاده میکنیم تا متنهایی را که بسیار مرتبط با یک ایموجی خاص هستند انتخاب کنیم و زبان را متمایز کنیم. از این طریق، ما حتی می توانیم بدانیم که چگونه یک ایموجی در کشورهای مختلف استفاده می شود.
در اینجا ما از سایت انگلیسی به عنوان مثال استفاده می کنیم. این 2 emojis در صفحه انگلیسی ما: 😎 (صورتک خندان با عینک آفتابی) و 🦄 (اسب شاخدار). استخراج برچسب را برای آنها انجام می دهیم و کلماتی مانند [cool] یا [nicki] را دریافت می کنیم .
در اینجا یک مشکل جدید نشان داده می شود: البته متن های زیادی در رابطه با یک ایموجی وجود دارد، سپس چگونه مناسب ترین برچسب را انتخاب می کنیم و چگونه آنها را مرتب می کنیم؟
در این شرایط، آنها الگوریتم های بیشتری را شامل می شوند.
توضیح فناوری حرفه ای استخراج برچسب
انواع مختلفی از فناوریهای استخراج برچسب با جلوههای متفاوت، مانند استخراج انتزاعی برای مقالات و الگوریتمهای برچسبگذاری کلیدواژه برای متون کوتاه وجود دارد. "Emoji Tag Cloud-Twitter Tag Extraction" ما بر اساس الگوریتم TF-IDF است . این با یک فرآیند اصلاح شده بر اساس ویژگی های داده های توییتر، که یک الگوریتم استخراج برچسب متن کوتاه بدون نظارت است، انجام شد.
برای تسهیل درک، در اینجا روند استخراج برچسب را در 3 مرحله خلاصه می کنیم.
- ابتدا، ما برای هر توییت با یک ماه استخراج ایموجی و پاکسازی متن انجام میدهیم، موضوعات و نامهای مستعار مانند [@xx]، [#xx] را حذف میکنیم و URL توییت را حذف میکنیم. در حین تمیز کردن متن، ما همچنین کلمات توقف را در زبانهای مختلف فیلتر میکنیم (مثلاً برخی از ذرات مدال مانند ah، oh و غیره را حذف میکنیم)، اختصارات، فرمهای کلمه، حروف بزرگ و سایر عوامل را فیلتر میکنیم، در نهایت دادههای اطلاعات فراوانی کلمه مربوط به هر ایموجی را دریافت میکنیم. .
- دوم، ما از الگوریتم نمایش متن TF-IDF (فرکانس معکوس فرکانس سند) برای محاسبه وزن متن برچسب اولیه بر اساس نتایج به دست آمده در مرحله قبل استفاده می کنیم.
- واحدهای محاسبه شده در دو مرحله اول ماهانه و کل داده ها چهار سال است. در مرحله آخر، دور دیگری از محاسبات آماری تلفیقی را بر روی تمام داده های ماهانه انجام خواهیم داد.
فرمول محاسبه این است: TF-IDF = TF * IDF
TF (Term Frequency) از تقسیم تعداد تکرار یک کلمه مربوط به یک ایموجی بر تعداد کل کلمات مربوط به ایموجی به دست می آید. IDF فرکانس سند معکوس است، IDF = log(N / N(w)) ، در حالی که [N] تعداد کل ایموجی ها را نشان می دهد، [N(w)] نشان دهنده تعداد ایموجی های حاوی کلمه [w] است.
🔺وقتی کلمه ای هم در emojiA و هم در emojiB ظاهر می شود به این معنی است که کلمه به اندازه کافی معرف نیست و باید از وزن این کلمه کاسته شود. از فرمول IDF = log(N / N(w))، می توان دریافت که محدوده IDF بین 0 و بی نهایت مثبت با افزایش N(w) کاهش می یابد.
وقتی یک اصطلاح بارها در یک مقاله ظاهر می شود، به این معنی است که وزن آن عبارت بیشتر است. با این حال، کلماتی که اغلب ظاهر می شوند، کلماتی هستند که لحن را بیان می کنند یا معنای واقعی ندارند، مانند [aww]، [oh] یا [RT]. اگر فقط با مقدار TF مرتب سازی و فیلتر شوند، اجتناب از فیلتر کردن چنین کلماتی دشوار است. بنابراین شماره سند معکوس IDF به عنوان یک محدودیت معرفی می شود تا مقدار دقیق تری برای نشان دادن وزن متن برچسب محاسبه شود.
در پایان مرحله 2، ورودی هایی را که بیش از 15 درصد از تعداد کل ایموجی ها ظاهر می شوند را فیلتر می کنیم.
داده های توییت چهار ساله محاسبه شده را به شکل [(sum(tfidf_m) / M) * log(M)] تبدیل کنید و وزن هر ورودی برچسب را بیشتر محاسبه کنید. [sum(tfidf_m)] نشاندهنده مجموع مقادیر TF-IDF عبارت در هر ماه، و [M] نشاندهنده تعداد ماههایی است که عبارت در آن ظاهر میشود.
بنابراین، اینها روش محاسبه تقریبی داده های برچسب ایموجی است. پس از جمعبندی دادههای نهایی، بهمنظور دریافت نتایج تگ دقیقتر، به صورت دستی مطابق با زبان بررسی و فیلتر میکنیم.
علاوه بر این، تگ ها همچنین از نام کوتاه CLDR و کلمات کلیدی CLDR برای مرجع استفاده می کنند، آنها ابتدایی ترین متن برچسب هستند، به این معنی که شما همیشه برخی از این کلمات را در Emoji Tag Cloud خواهید دید.
🔺 هنگامی که یک ایموجی به کنسرسیوم یونیکد ارسال می شود، لازم است که نام کوتاه CLDR و کلمات کلیدی CLDR در پروپوزال آن وجود داشته باشد، بنابراین این کلمات باید در انتخاب تگ مورد توجه قرار گیرند. اطلاعات ایموجی [unicorn🦄]، نام کوتاه و تعدادی از کلمات کلیدی آن را در ابر برچسب آن قرار می دهیم.
چگونه از Emoji Tag Cloud خود استفاده کنیم؟
مدت زیادی بود که Emoji Tag Cloud را منتشر کردیم. من شخصاً معتقدم که این یک ابزار بسیار خنده دار و مفید برای مشاهده یک ایموجی خاص است، حتی گاهی اوقات می توانید بدانید که کدام گروه یا موضوع پرطرفدار را به استفاده از این ایموجی ترجیح می دهد. اجازه دهید نحوه استفاده از Emoji Tag Cloud را به شما نشان دهم!
همانطور که در بالا ذکر شد، وزن هر متن برچسب متفاوت است. شما به سادگی می توانید ارتباط بین برچسب ها و ایموجی ها را بر اساس اندازه دایره قضاوت کنید (هرچه بزرگتر، مرتبط تر). یا می توانید موس خود را روی دایره قرار دهید، یک مربع کوچک با [شماره، متن برچسب] نشان داده می شود. در این شرایط، هر چه عدد کوچکتر باشد، برچسب موجود در این دایره بیشتر به ایموجی مربوط می شود. همچنین می توانید برای جستجوی ایموجی های مرتبط روی این برچسب ها کلیک کنید!
با این حال، ما از تک شاخ به عنوان مثال استفاده می کنیم. ابر برچسب ایموجی [تک شاخ 🦄 ] مانند زیر است:
همانطور که می بینید، 5 تگ برتر 🦄 عبارتند از [unicorn]، [nicki]، [unicorns]، [plt] و [barbz] .
Word [unicorn] نام کوتاه CLDR این ایموجی است و بقیه 4 تگ همگی از توییتر استخراج شده اند. [nicki] و [barbz] مربوط به نیکی میناژ و گروه طرفداران او هستند و کلمه [plt] به [چیز کوچک زیبا] ، یک خرده فروش مد مستقر در بریتانیا یا فقط به این عبارت اشاره دارد. 🦄 یک ایموجی محبوب در SNS و یک ایموجی بسیار نماینده برای طرفداران نیکی میناژ است. اگر عاشق نیکی هستید، حتما باید از این ایموجی استفاده کنید!
در مجموع، با استفاده از Emoji Tag Cloud ، میتوانید به راحتی محتویات مرتبط یک ایموجی خاص را پیدا کنید، شاید حتی بتوانید درباره فرهنگ پاپ بیشتر بدانید و از خجالت ندانستن معنای اصلی و گسترده یک ایموجی جلوگیری کنید. گاهی اوقات استفاده از ایموجی می تواند به یک پدیده اجتماعی تبدیل شود، مانند این ایموجی 🥺 در ژاپن. این کلمه "ぴえん🥺" به عنوان ایموجی برای بیان التماس، گلایه یا دوست داشتنی برنده جوایز "JC&JK Buzzword Awards 2019"، "2019 Gal Buzzword Award" رتبه دوم، مقام اول "جایزه Buzzword اینستاگرام برای نیمه اول" شد. 2020" و تبدیل به یک شکلک ترند در سراسر ژاپن شد! در این مورد، برای برخی از افراد، Emoji Tag Cloud نیز ابزاری عالی برای آشنایی با فرهنگ اینترنت است، همه به نحوه استفاده شما از آن بستگی دارد.
همه اینها برای بررسی استفاده بیشتر از ایموجی است، و امیدواریم که ایموجی ها جالب و آموزنده باشند. به منظور ارائه محتوای دقیق مرتبط با شکلک، داده ها نیز به روز می شوند. اگر توصیه بیشتری در مورد Emoji Tag Cloud دارید، لطفاً در نظرات زیر با ما در میان بگذارید.