আজকাল আরও বেশি ব্যবহারিক এবং আকর্ষণীয় ইমোজি ব্যবহার তৈরি করা হয়েছে, উদাহরণস্বরূপ, ইমোজিগুলির বিভিন্ন বিভাগকে একত্রিত করে একটি মেমে পরিণত করা হবে, বা আপাতদৃষ্টিতে সম্পর্কহীন ইমোজিগুলি একই অর্থ বর্ণনা করতে ব্যবহার করা যেতে পারে, যা ইমোজিগুলির মধ্যে ধীরে ধীরে একটি সংযোগ তৈরি করে। তাদের আমরা ইমোজির মধ্যে এই সম্পর্কটিকে দৃশ্যত দেখাতে চাই এবং ব্যবহারকারীদের ইমোজি ব্যবহারের গভীরতর বোঝার সুযোগ দিতে চাই, তাই আমরা ইমোজির মধ্যে সম্পর্ক গণনা করতে এবং ফলাফলটিকে সহজে বোঝার মতো ছবিতে আঁকতে মেশিন লার্নিং অ্যালগরিদম ব্যবহার করি, যা ইমোজি সম্পর্ক। গ্রাফ

ইমোজি রিলেশনশিপ গ্রাফ কি?

এটি সুপরিচিত যে ইমোজিগুলি সাধারণত চিত্র হিসাবে উপস্থাপন করা হয়, তবে চিত্রগুলির সাথে ইমোজির মধ্যে সম্পর্কটি বের করা অসম্ভব, কারণ ইমোজির প্রধান ব্যবহার হল তথ্য এবং আবেগ প্রকাশ করা, এগুলি আরও একটি ভাষার মতো, তাই এটি হবে ইমোজির অর্থ এবং ব্যবহারের মাধ্যমে তাদের সম্পর্ক অন্বেষণ করতে আরও সঠিক। অতএব, আমরা 2018 থেকে 2021 পর্যন্ত ইমোজি সম্বলিত সমস্ত টুইট পেয়েছি, মোট 812 মিলিয়ন টুইট । বিভিন্ন ভাষার পরিবেশে ইমোজির ব্যবহার ভিন্ন হবে তা বিবেচনা করে, আমরা ভাষা অনুসারে টুইটগুলিকে শ্রেণীবদ্ধ করেছি, এবং তারপর মেশিন লার্নিং অ্যালগরিদম দ্বারা প্রতিটি ভাষার ইমোজির মধ্যে পাঠ্যের সাদৃশ্য গণনা করেছি, যাতে প্রতিটি ভাষার জন্য সংশ্লিষ্ট ইমোজি সম্পর্ক গ্রাফ পেতে পারি৷

ইমোজি রিলেশনশিপ গ্রাফ কিভাবে বুঝবেন?

এটি স্প্যানিশ এর জন্য 👉 এর ইমোজি সম্পর্ক গ্রাফ। লাল বাক্সটি 9টি নিকটতম ইমোজি দেখায়, রশ্মির দৈর্ঘ্য সম্পর্কের মাত্রাকে প্রতিনিধিত্ব করে, রশ্মি যত ছোট হবে, সম্পর্ক তত ঘনিষ্ঠ হবে। এছাড়াও, গ্রাফটি অন্যান্য ইমোজির সম্পর্ক গ্রাফের একটি অংশও দেখায়। ব্ল্যাক বক্সে রয়েছে 👆 এর সম্পর্ক গ্রাফ এবং কমলা বাক্সে রয়েছে এর সম্পর্ক গ্রাফ।

সম্পর্ক গ্রাফে প্রতিফলিত ফলাফল আমাদের ইমোজির ব্যবহার সম্পর্কে আরও সমৃদ্ধ বোঝার অনুমতি দেয়। উদাহরণ হিসেবে বলা যায়, এই দুটি ইমোজির 👈 🥺 সঙ্গে প্রায়শই সংমিশ্রণ হিসাবে ব্যবহৃত হয় 👉 সংক্ষুব্ধ সাম্প্রতিক বছরগুলোতে করতে এক্সপ্রেস, লাজুক বা প্রতিবাদী, তাই তারা এই সম্পর্ক গ্রাফ প্রদর্শিত:

এই দুটি ইমোজি প্রায়শই লিঙ্কগুলি নির্দেশ করতে ব্যবহৃত হয়, যার অর্থ তাদের ব্যবহারে মিল রয়েছে, তাই তারা সম্পর্ক গ্রাফে একে অপরের কাছাকাছি:

আপনি যদি ইমোজি সম্পর্কের চার্টে প্রবেশ করেন তবে আপনি কিছু ইমোজি সম্পর্কে আপনার উপলব্ধি রিফ্রেশ করতে পারেন।

কিভাবে ইমোজি মধ্যে সম্পর্ক গণনা?

পরবর্তীতে আমরা আপনাকে গণনা প্রক্রিয়ার একটি বিশদ বিবরণ দেব। এটিকে মোটামুটিভাবে নিম্নলিখিত তিনটি ধাপে ভাগ করা যায়:

  • প্রথমত, আমরা TF-IDF অ্যালগরিদম ব্যবহার করি টুইট থেকে প্রতিটি ইমোজির ট্যাগ এবং প্রতিটি ট্যাগের সাথে সম্পর্কিত ওজন বের করতে। ট্যাগগুলি সেই শব্দগুলিকে বোঝায় যেগুলি ইমোজির সাথে সবচেয়ে ঘনিষ্ঠভাবে সম্পর্কিত, যা একটি ইমোজির বৈশিষ্ট্যের সমতুল্য; এবং ওজন ট্যাগ এবং ইমোজির মধ্যে সম্পর্কের ঘনিষ্ঠতাকে বোঝায়, ওজন যত বেশি হবে, সম্পর্ক তত ঘনিষ্ঠ হবে। ট্যাগ পাওয়ার অ্যালগরিদম এবং গণনা প্রক্রিয়া সম্পর্কে, আমরা এটিকে বিস্তারিতভাবে উপস্থাপন করার জন্য একটি নিবন্ধ লিখেছি, আপনি এটি পড়তে ডান লিঙ্কে ক্লিক করতে পারেন: ☁️ইমোজি ট্যাগ ক্লাউড: ইমোজি সম্পর্কে আরও জ্ঞান পেতে আপনাকে সাহায্য করুন!
  • লেবেল পাওয়ার পরে, একটি নতুন সমস্যা দেখা দেয়। যখন এটি গণনার ক্ষেত্রে আসে, আমরা সবাই জানি যে সাধারণত শুধুমাত্র সংখ্যাসূচক মানগুলি গণনা করা যেতে পারে, কিন্তু ট্যাগগুলি পাঠ্য হিসাবে উপস্থাপন করা হয়, তাহলে কীভাবে সেগুলি অ্যালগরিদমিকভাবে গণনা করা যায়? অতএব, আমাদের দ্বিতীয় ধাপ হল টেক্সটটিকে সংখ্যাসূচক মানগুলিতে রূপান্তর করা যা গণনা করা যেতে পারে—— ভেক্টর । এই প্রক্রিয়াটিকে ওয়ার্ড এমবেডিং বলা হয়। পাঠ্যের প্রতিটি শব্দকে একটি ভেক্টরে রূপান্তর করতে আমাদের প্রথমে word2vec অ্যালগরিদম (শব্দ এম্বেড করার পদ্ধতিগুলির মধ্যে একটি) ব্যবহার করে প্রচুর পরিমাণে টুইট ডেটা পড়তে হবে, তারপর আমরা সমস্ত উচ্চ-মাত্রিক ভেক্টর সমন্বিত একটি শব্দ এমবেডিং ম্যাট্রিক্স পেতে পারি। শব্দের, এবং পরবর্তীতে প্রতিটি ট্যাগের সাথে সম্পর্কিত প্রতিটি শব্দকে ম্যাপ করুন আমরা প্রথম ধাপে এম্বেডিং ম্যাট্রিক্স শব্দের মাধ্যমে একটি উচ্চ-মাত্রিক ভেক্টরে পেয়েছি। এইভাবে, আমরা পাঠ্য থেকে ভেক্টর রূপান্তর সম্পন্ন করেছি। এই উচ্চ-মাত্রিক ভেক্টরগুলি পাঠ্যের প্রসঙ্গ বিশ্লেষণ করে গণনা করা হয়, যা প্রতিটি শব্দের শব্দার্থিক তথ্যকে ভালভাবে সংরক্ষণ করতে পারে এবং এইভাবে পাঠ্যের মিলের যথার্থতা নিশ্চিত করতে পারে। word2vec অ্যালগরিদমটি আমাদের ব্লগে বিশদভাবে ব্যাখ্যা করা হয়েছে, আপনি যদি আরও বিশদ জানতে চান তবে আপনি এটি পড়তে পারেন: 🔍ইমোজি সেন্টিমেন্ট বিশ্লেষণ
  • শেষ ধাপ হল ইমোজির মধ্যে টেক্সট সাদৃশ্য গণনা করা। টেক্সট সাদৃশ্য গণনা করতে সাধারণত যে অ্যালগরিদম ব্যবহার করা হয় তা হল VSM(ভেক্টর স্পেস মডেল) । এটি বহুল ব্যবহৃত সাদৃশ্য গণনার মডেলগুলির মধ্যে একটি, তবে এটি দুটি পাঠ্যের সহ-ঘটমান শব্দগুলি (উভয় পাঠ্যে উপস্থিত শব্দগুলি) গণনা করে ফলাফল অর্জন করে, যা একই অর্থের সাথে পাঠ্যের মুখোমুখি হওয়ার সময় সঠিক নয় কিন্তু ভিন্ন শব্দের। এই পরিস্থিতি এড়াতে, আমরা অন্য একটি অ্যালগরিদম বেছে নিয়েছি—- SCM(সফট কোসাইন মেজার) । এটি শব্দের মধ্যে সাদৃশ্য পরিমাপ করতে পারে, তাই দুটি পাঠ্যের মধ্যে শব্দের মিল না থাকলেও, এই অ্যালগরিদম শব্দের মিল মূল্যায়ন করে দুটি পাঠ্যের মিল গণনা করতে পারে। আমরা ভেক্টর পরিমাপ করার জন্য SCM ব্যবহার করার পরে, আমরা যত বড় মান পাব তার মানে ইমোজিগুলির মধ্যে পাঠ্যের মিল তত বেশি এবং পাঠ্যের মিল তত বেশি, তাদের সম্পর্ক তত বেশি।

উপসংহার

সম্পর্কের গ্রাফের মাধ্যমে, আমরা ইমোজি ব্যবহারের মানুষের অভ্যাস এবং পছন্দগুলি বুঝতে পারি এবং ইমোজি ব্যবহারের প্রবণতা অন্বেষণ করতে পারি। আপনি অবাক হতে পারেন যে কিছু ইমোজি যা আপনি একে অপরের সাথে যুক্ত করবেন না আসলে খুব ঘনিষ্ঠভাবে সম্পর্কিত, এবং এটি ইমোজির একটি নতুন ট্রেন্ডি ব্যবহার হতে পারে যা আপনি এখনও জানেন না! এছাড়াও, যদি আপনার কোন পরামর্শ থাকে, অনুগ্রহ করে আমাদের মন্তব্যে বলুন!