প্রতিটি ইমোজি বিশেষ। যতক্ষণ না আপনি এটিকে সঠিকভাবে বিশ্লেষণ করেন, ততক্ষণ আপনি অনেক তথ্য যেমন অর্থ, বিভাগ, সম্পর্কিত বিষয়, এমনকি এক নজরে একটি ইমোজির কিছু অনন্য ব্যবহার জানতে পারবেন👀। আমরা প্রতিটি ইমোজিতে প্রচুর পরিমাণে গণনা এবং বিশ্লেষণ করার পরে, আমরা অবশেষে ইমোজি ট্যাগ ক্লাউড , একটি নির্দিষ্ট ইমোজির সাথে সম্পর্কিত কীওয়ার্ড এবং বাক্যাংশগুলি পাই এবং এটিকে একটি অভিনব দৃশ্যের উপায়ে উপস্থাপন করি।

🔺ইমোজির ট্যাগ ক্লাউড [ইউনিকর্ন🦄]

কিভাবে আমরা ট্যাগ পেতে?

আমরা সবাই জানি, টুইটার হল একটি বিশ্বব্যাপী বিখ্যাত সামাজিক নেটওয়ার্কিং পরিষেবা, এবং লোকেরা তাদের আবেগ প্রকাশ করতে বা সাজানোর জন্য ইমোজি সহ পাঠ্য টুইট করতে পছন্দ করে। আমাদের বেশিরভাগ ট্যাগ সারা বিশ্বের টুইট থেকে। আমরা 2018.01 থেকে 2021.11 পর্যন্ত টুইটগুলি বিশ্লেষণ করি এবং 812 মিলিয়ন টুইটগুলি থেকে ট্যাগগুলি বের করি যাতে ইমোজি রয়েছে৷ তারপরে আমরা পরিসংখ্যান এবং অ্যালগরিদম ব্যবহার করি একটি নির্দিষ্ট ইমোজির সাথে অত্যন্ত প্রাসঙ্গিক পাঠ্যগুলি বেছে নিতে এবং ভাষাটিকে আলাদা করতে৷ এর মাধ্যমে, আমরা এমনকি জানতে পারি কিভাবে একটি ইমোজি বিভিন্ন দেশে ব্যবহার করা হয়।

এখানে আমরা উদাহরণ হিসেবে ইংরেজি সাইট ব্যবহার করি। আমাদের ইংরেজি পৃষ্ঠায় এই 2টি ইমোজি: 😎 (সানগ্লাস সহ হাসিমুখ) এবং 🦄 (ইউনিকর্ন)। আমরা তাদের কাছে ট্যাগ নিষ্কাশন করি এবং [কুল] বা [নিকি] এর মতো শব্দ পাই।

এখানে একটি নতুন সমস্যা দেখা যাচ্ছে❓: অবশ্যই একটি ইমোজি সম্পর্কিত প্রচুর টেক্সট আছে, তাহলে আমরা কীভাবে সবচেয়ে উপযুক্ত ট্যাগ বেছে নেব এবং কীভাবে সেগুলি সাজাতে পারি?

এই পরিস্থিতিতে, তারা আরও অ্যালগরিদম জড়িত।

ট্যাগ নিষ্কাশন পেশাদার প্রযুক্তি ব্যাখ্যা

বিভিন্ন ধরণের ট্যাগ এক্সট্রাকশন প্রযুক্তি রয়েছে যার বিভিন্ন প্রভাব রয়েছে, যেমন নিবন্ধগুলির জন্য বিমূর্ত নিষ্কাশন এবং ছোট পাঠ্যের জন্য কীওয়ার্ড ট্যাগিং অ্যালগরিদম। আমাদের "ইমোজি ট্যাগ ক্লাউড-টুইটার ট্যাগ এক্সট্রাকশন" টিএফ-আইডিএফ অ্যালগরিদমের উপর ভিত্তি করে। এটি টুইটার ডেটার বৈশিষ্ট্যের উপর ভিত্তি করে একটি সংশোধিত প্রক্রিয়ার সাথে সম্পাদিত হয়েছে, যা একটি তত্ত্বাবধানহীন সংক্ষিপ্ত টেক্সট লেবেল নিষ্কাশন অ্যালগরিদম।

বোঝার সুবিধার্থে, এখানে আমরা 3টি ধাপে ট্যাগ বের করার পদ্ধতির সংক্ষিপ্ত বিবরণ দিচ্ছি।

  • প্রথমত, আমরা প্রতিটি টুইটের জন্য একটি ইউনিট হিসাবে এক মাসের সাথে ইমোজি নিষ্কাশন এবং পাঠ্য পরিষ্কার করি , [@xx], [#xx] এর মতো বিষয় এবং ডাকনাম সরিয়ে ফেলি এবং টুইট URL মুছে ফেলি। পাঠ্য পরিষ্কার করার সময়, আমরা বিভিন্ন ভাষায় স্টপ শব্দগুলিও ফিল্টার করি (উদাহরণস্বরূপ, আহ, ওহ, ইত্যাদির মতো কিছু মডেল কণাগুলি সরিয়ে ফেলি), সংক্ষিপ্ত রূপ, শব্দের ফর্ম, ক্যাপিটালাইজেশন এবং অন্যান্য কারণগুলি, অবশেষে প্রতিটি ইমোজির সাথে সম্পর্কিত শব্দ ফ্রিকোয়েন্সি তথ্য ডেটা পাই। .
  • দ্বিতীয়ত, আমরা পূর্ববর্তী ধাপে প্রাপ্ত ফলাফলের উপর ভিত্তি করে একটি প্রাথমিক লেবেল পাঠ্য ওজন গণনা করতে TF-IDF (টার্ম ফ্রিকোয়েন্সি-ইনভার্স ডকুমেন্ট ফ্রিকোয়েন্সি) টেক্সট রিপ্রেজেন্টেশন অ্যালগরিদম ব্যবহার করি।
  • গণনার সূত্র হল: TF-IDF = TF * IDF

    TF (টার্ম ফ্রিকোয়েন্সি) একটি ইমোজির সাথে সংশ্লিষ্ট শব্দের সংঘটনের সংখ্যাকে ইমোজির সাথে সংশ্লিষ্ট শব্দের মোট সংখ্যা দ্বারা ভাগ করে পাওয়া যায়। IDF হল ইনভার্স ডকুমেন্ট ফ্রিকোয়েন্সি, IDF = log( N / N(w) ) , যেখানে [N] ইমোজির মোট সংখ্যার প্রতিনিধিত্ব করে, [N(w)] [w] শব্দটি ধারণকারী ইমোজির সংখ্যাকে প্রতিনিধিত্ব করে।

    🔺যখন একটি শব্দ emojiA এবং emojiB উভয় ক্ষেত্রেই দেখা যায়, এর অর্থ হল শব্দটি যথেষ্ট প্রতিনিধিত্বশীল নয় এবং এই শব্দটির ওজন কমাতে হবে। সূত্র IDF = log( N / N(w) ), এটি দেখা যায় যে 0 এবং ধনাত্মক অসীমের মধ্যে IDF এর পরিসর N(w) বৃদ্ধির সাথে হ্রাস পায়।

    যখন একটি নিবন্ধে একটি শব্দ বেশি বার প্রদর্শিত হয়, তখন এর অর্থ হল শব্দটির ওজন বেশি। যাইহোক, যে শব্দগুলি প্রায়শই দেখা যায় সেগুলি এমন শব্দ যা স্বর প্রকাশ করে বা কোন প্রকৃত অর্থ নেই, যেমন [aww], [oh] বা [RT]। এই ধরনের শব্দের ফিল্টারিং এড়ানো কঠিন যদি শুধুমাত্র TF মান অনুসারে সাজানো এবং ফিল্টার করা হয়। তাই IDF ইনভার্স ডকুমেন্ট নম্বর একটি সীমাবদ্ধতা হিসাবে প্রবর্তিত হয়, যাতে লেবেল পাঠ্যের ওজন প্রতিনিধিত্ব করার জন্য আরও সঠিক মান গণনা করা হয়।

    ধাপ 2 এর শেষে, আমরা ইমোজির মোট সংখ্যার 15% এর বেশি প্রদর্শিত এন্ট্রিগুলিকে ফিল্টার করব।

  • প্রথম দুটি ধাপে গণনা করা একক হল মাসিক ডেটা, এবং মোট ডেটা হল চার বছরের। শেষ ধাপে, আমরা সমস্ত মাসিক ডেটার উপর একত্রিত পরিসংখ্যানগত গণনার আরেকটি রাউন্ড সঞ্চালন করব।
  • গণনা করা চার বছরের টুইট ডেটাকে [(sum(tfidf_m) / M) * log(M)] আকারে রূপান্তর করুন, এবং আরও প্রতিটি ট্যাগ এন্ট্রির ওজন গণনা করুন। [sum(tfidf_m)] প্রতি মাসে টার্মের TF-IDF মানের যোগফলকে প্রতিনিধিত্ব করে এবং [M] সেই মাসের সংখ্যার প্রতিনিধিত্ব করে যেখানে শব্দটি উপস্থিত হয়।

এগুলি হল ইমোজি ট্যাগ ডেটার আনুমানিক গণনা পদ্ধতি৷ চূড়ান্ত ডেটা সংক্ষিপ্ত করার পরে, আমরা আরও সঠিক ট্যাগ ফলাফল পেতে ভাষা অনুযায়ী ম্যানুয়ালি পরীক্ষা করব এবং ফিল্টার করব।


এছাড়াও, ট্যাগগুলি রেফারেন্সের জন্য CLDR সংক্ষিপ্ত নাম এবং CLDR কীওয়ার্ডগুলিও ব্যবহার করবে, তারা সবচেয়ে মৌলিক ট্যাগ টেক্সট, যার মানে আপনি সবসময় ইমোজি ট্যাগ ক্লাউডে এই শব্দগুলির মধ্যে কিছু দেখতে পাবেন।

🔺 যখন একটি ইমোজি ইউনিকোড কনসোর্টিয়ামে জমা দেওয়া হয়, তখন তার প্রস্তাবে CLDR সংক্ষিপ্ত নাম এবং CLDR কীওয়ার্ডগুলি থাকা প্রয়োজন, তাই এই শব্দগুলিকে অবশ্যই ট্যাগ নির্বাচন বিবেচনায় নিতে হবে। ইমোজি [unicorn🦄] এর তথ্য, আমরা এর সংক্ষিপ্ত নাম এবং কিছু কীওয়ার্ড এর ট্যাগ ক্লাউডে রাখি।

কিভাবে আমাদের ইমোজি ট্যাগ ক্লাউড ব্যবহার করবেন?

আমরা ইমোজি ট্যাগ ক্লাউড প্রকাশ করেছি অনেক সময় হয়েছে। ব্যক্তিগতভাবে, আমি বিশ্বাস করি এটি একটি নির্দিষ্ট ইমোজি পর্যবেক্ষণ করার জন্য একটি খুব মজার এবং দরকারী টুল, কখনও কখনও আপনি এমনকি কোন গ্রুপ বা প্রবণতা বিষয় এই ইমোজি ব্যবহার করতে পছন্দ করে তা জানতে পারেন। আমাদের ইমোজি ট্যাগ ক্লাউড কীভাবে ব্যবহার করবেন তা দেখান!

উপরে উল্লিখিত হিসাবে, প্রতিটি ট্যাগ পাঠ্যের ওজন ভিন্ন। আপনি বৃত্তের আকার (যত বড়, তত বেশি প্রাসঙ্গিক) দ্বারা ট্যাগ এবং ইমোজির মধ্যে পারস্পরিক সম্পর্ক বিচার করতে পারেন। অথবা আপনি বৃত্তে আপনার মাউস লাগাতে পারেন, সেখানে একটি ছোট বর্গক্ষেত্র থাকবে যেখানে [সংখ্যা, ট্যাগ টেক্সট] প্রদর্শিত হবে। এই পরিস্থিতিতে, সংখ্যাটি যত ছোট হবে, এই বৃত্তের ট্যাগটি ইমোজির সাথে বেশি প্রাসঙ্গিক। আপনি অন্যান্য সম্পর্কিত ইমোজি অনুসন্ধান করতে এই ট্যাগগুলিতে ক্লিক করতে পারেন!

তবুও, আমরা উদাহরণ হিসাবে ইউনিকর্ন ব্যবহার করি। ইমোজির ট্যাগ ক্লাউড [ইউনিকর্ন 🦄 ] নিচের মত:

আপনি দেখতে পাচ্ছেন, 🦄 এর শীর্ষ ৫টি ট্যাগ হল [ইউনিকর্ন], [নিকি], [ইউনিকর্ন], [plt] এবং [barbz]

শব্দ [ইউনিকর্ন] হল এই ইমোজির CLDR সংক্ষিপ্ত নাম, এবং বাকি 4টি ট্যাগ সবই টুইটার থেকে নেওয়া হয়েছে। [nicki] এবং [barbz] নিকি মিনাজ এবং তার ফ্যান গ্রুপের সাথে সম্পর্কিত, এবং [plt] শব্দটি [Pretty Little Thing] , একটি যুক্তরাজ্য-ভিত্তিক ফ্যাশন খুচরা বিক্রেতা বা শুধু এই শব্দগুচ্ছকে নির্দেশ করে। 🦄 হল SNS-এর একটি জনপ্রিয় ইমোজি এবং নিকি মিনাজের অনুরাগীদের জন্য একটি খুব প্রতিনিধিত্বমূলক ইমোজি৷ আপনি যদি নিকিকে ভালোবাসেন, আপনার অবশ্যই এই ইমোজি ব্যবহার করা উচিত!


সব মিলিয়ে, আমাদের ইমোজি ট্যাগ ক্লাউড ব্যবহার করে, আপনি সহজেই একটি নির্দিষ্ট ইমোজির সম্পর্কিত বিষয়বস্তু খুঁজে পেতে পারেন, হয়ত আপনি পপ সংস্কৃতি সম্পর্কে আরও জানতে পারেন এবং একটি ইমোজির মৌলিক এবং বর্ধিত অর্থ না জানার বিব্রতকর অবস্থা এড়াতে পারেন। কখনও কখনও একটি ইমোজির ব্যবহার একটি সামাজিক ঘটনা হয়ে উঠতে পারে, যেমন জাপানে এই ইমোজি 🥺৷ ভিক্ষা, অভিযোগ বা ভালবাসা প্রকাশ করার জন্য একটি ইমোজি হিসাবে, এই শব্দটি 'ぴえん🥺' জিতেছে "JC&JK Buzzword Awards 2019'", "2019 Gal Buzzword Award" ২য় স্থান, "Instagram Buzzword Award এর প্রথমার্ধের প্রথম স্থান" 2020" এবং পুরো জাপান জুড়ে একটি ট্রেন্ড ইমোজি হয়ে উঠেছে! এই ক্ষেত্রে, কিছু লোকের জন্য, ইমোজি ট্যাগ ক্লাউড ইন্টারনেট সংস্কৃতি সম্পর্কে জানার জন্য একটি দুর্দান্ত সরঞ্জাম, আপনি এটি কীভাবে ব্যবহার করেন তার উপর নির্ভর করে।

এগুলি সবই ইমোজির আরও ব্যবহার অন্বেষণ করার জন্য, এবং আশা করি আপনি ইমোজিগুলি আকর্ষণীয় এবং তথ্যপূর্ণ খুঁজে পাবেন৷ আপনাকে সঠিক ইমোজি-সম্পর্কিত বিষয়বস্তু প্রদান করার জন্য, ডেটাও আপডেট হতে থাকবে। ইমোজি ট্যাগ ক্লাউড সম্পর্কে আপনার যদি আরও কোনও পরামর্শ থাকে তবে দয়া করে নীচের মন্তব্যে আমাদের জানান👇!