आजकल अधिक से अधिक व्यावहारिक और दिलचस्प इमोजी उपयोग बनाए जाते हैं, उदाहरण के लिए, इमोजी की विभिन्न श्रेणियों को एक साथ मिलाकर एक मेम बन जाएगा, या प्रतीत होता है कि असंबंधित इमोजी का वास्तव में उसी अर्थ का वर्णन करने के लिए उपयोग किया जा सकता है, जो इमोजी को धीरे-धीरे एक संबंध बनाता है। उन्हें। हम इमोजी के बीच इस संबंध को नेत्रहीन रूप से दिखाना चाहते हैं और उपयोगकर्ताओं को इमोजी के उपयोग की गहरी समझ है, इसलिए हम इमोजी के बीच संबंधों की गणना करने के लिए मशीन लर्निंग एल्गोरिदम का उपयोग करते हैं और परिणाम को आसानी से समझने वाली तस्वीर में बनाते हैं, जो कि इमोजी संबंध है ग्राफ ।
इमोजी रिलेशनशिप ग्राफ क्या है?
यह सर्वविदित है कि इमोजी को आमतौर पर छवियों के रूप में प्रस्तुत किया जाता है, लेकिन छवियों के साथ इमोजी के बीच संबंध का पता लगाना असंभव है, क्योंकि इमोजी का मुख्य उपयोग जानकारी और भावनाओं को व्यक्त करना है, वे एक भाषा की तरह अधिक हैं, इसलिए यह होगा इमोजी के अर्थ और उपयोग के माध्यम से उनके संबंधों का पता लगाने के लिए अधिक सटीक। इसलिए, हमें 2018 से 2021 तक इमोजी वाले सभी ट्वीट प्राप्त हुए, कुल 812 मिलियन ट्वीट। यह देखते हुए कि विभिन्न भाषा परिवेशों में इमोजी का उपयोग अलग-अलग होगा, हमने ट्वीट्स को भाषा के आधार पर वर्गीकृत किया, और फिर मशीन लर्निंग एल्गोरिदम द्वारा प्रत्येक भाषा में इमोजी के बीच टेक्स्ट समानता की गणना की, ताकि प्रत्येक भाषा के लिए संबंधित इमोजी रिलेशनशिप ग्राफ प्राप्त किया जा सके।
इमोजी रिलेशनशिप ग्राफ को कैसे समझें?
यह स्पेनिश के लिए 👉 का इमोजी संबंध ग्राफ़ है। लाल बॉक्स 9 निकटतम इमोजी दिखाता है, किरण की लंबाई रिश्ते की डिग्री का प्रतिनिधित्व करती है, किरण जितनी छोटी होगी, संबंध उतना ही करीब होगा। इसके अलावा, ग्राफ अन्य इमोजी के संबंध ग्राफ का एक हिस्सा भी दिखाता है। ब्लैक बॉक्स में संबंध ग्राफ है 👆 , और नारंगी बॉक्स में के रिश्ते ग्राफ है ⤵ ।
रिलेशनशिप ग्राफ में परिलक्षित परिणाम हमें इमोजी के उपयोग की एक समृद्ध समझ रखने की अनुमति देते हैं। उदाहरण के लिए, इन दो emojis 👈 🥺 अक्सर साथ संयोजन के रूप में उपयोग किया जाता है 👉 व्यथित हाल के वर्षों में करने के लिए एक्सप्रेस, शर्म या सिफ़ारिश, इसलिए वे इस संबंध ग्राफ में दिखाई देते हैं:
इन दो इमोजी का उपयोग अक्सर लिंक को इंगित करने के लिए किया जाता है, जिसका अर्थ है कि उनके उपयोग में समानताएं हैं, इसलिए वे संबंध ग्राफ में एक दूसरे के करीब हैं:
यदि आप इमोजी रिलेशनशिप चार्ट में तल्लीन हैं, तो आप कुछ इमोजी के बारे में अपनी धारणा को ताज़ा कर सकते हैं।
इमोजी के बीच संबंध की गणना कैसे करें?
आगे हम आपको गणना प्रक्रिया का विस्तृत विवरण देंगे। इसे मोटे तौर पर निम्नलिखित तीन चरणों में विभाजित किया जा सकता है:
- सबसे पहले, हम ट्वीट से प्रत्येक इमोजी के टैग और प्रत्येक टैग के अनुरूप वजन निकालने के लिए TF-IDF एल्गोरिथ्म का उपयोग करते हैं। टैग उन शब्दों को संदर्भित करता है जो इमोजी से सबसे अधिक निकटता से संबंधित हैं, जो इमोजी की विशेषताओं के बराबर हैं; और वज़न टैग और इमोजी के बीच संबंध की निकटता को संदर्भित करता है, वजन जितना अधिक होगा, संबंध उतना ही करीब होगा। टैग प्राप्त करने के एल्गोरिदम और गणना प्रक्रिया के बारे में, हमने इसे विस्तार से पेश करने के लिए एक लेख लिखा है, आप इसे पढ़ने के लिए सही लिंक पर क्लिक कर सकते हैं: ️इमोजी टैग क्लाउड: इमोजी का अधिक ज्ञान प्राप्त करने में आपकी सहायता करें!
- लेबल मिलने के बाद एक नई समस्या खड़ी हो जाती है। जब गणनाओं की बात आती है, तो हम सभी जानते हैं कि आम तौर पर केवल संख्यात्मक मानों की गणना की जा सकती है, लेकिन टैग टेक्स्ट के रूप में प्रस्तुत किए जाते हैं, तो उनकी गणना एल्गोरिदमिक रूप से कैसे की जा सकती है? इसलिए, हमारा दूसरा चरण टेक्स्ट को संख्यात्मक मानों में परिवर्तित करना है जिनकी गणना की जा सकती है—— वेक्टर । इस प्रक्रिया को वर्ड एंबेडिंग कहा जाता है। टेक्स्ट में प्रत्येक शब्द को वेक्टर में बदलने के लिए हमें पहले वर्ड2vec एल्गोरिदम (शब्द एम्बेडिंग के तरीकों में से एक) का उपयोग करके बड़ी मात्रा में ट्वीट डेटा पढ़ने की जरूरत है, फिर हम सभी उच्च-आयामी वैक्टरों से युक्त एक शब्द एम्बेडिंग मैट्रिक्स प्राप्त कर सकते हैं शब्दों का, और बाद में शब्द एम्बेडिंग मैट्रिक्स के माध्यम से एक उच्च-आयामी वेक्टर में पहले चरण में प्राप्त प्रत्येक टैग के अनुरूप प्रत्येक शब्द को मैप करें। इस प्रकार, हमने टेक्स्ट-टू-वेक्टर रूपांतरण पूरा कर लिया है। इन उच्च-आयामी वैक्टर की गणना पाठ के संदर्भ का विश्लेषण करके की जाती है, जो प्रत्येक शब्द की शब्दार्थ जानकारी को अच्छी तरह से संरक्षित कर सकती है और इस प्रकार पाठ की समानता की सटीकता सुनिश्चित करती है। Word2vec एल्गोरिदम को भी हमारे ब्लॉग में विस्तार से समझाया गया है, यदि आप अधिक विवरण चाहते हैं तो आप इसे पढ़ सकते हैं: Emoji Sentiment Analysis
- इमोजी के बीच टेक्स्ट समानता की गणना करने के लिए अंतिम चरण है। पाठ समानता की गणना के लिए आमतौर पर इस्तेमाल किया जाने वाला एल्गोरिदम वीएसएम (वेक्टर स्पेस मॉडल) है । यह सबसे व्यापक रूप से उपयोग किए जाने वाले समानता गणना मॉडल में से एक है, लेकिन यह दो ग्रंथों के सह-आने वाले शब्दों (दोनों ग्रंथों में दिखाई देने वाले शब्द) की गणना करके परिणाम प्राप्त करता है, जो एक ही अर्थ के साथ ग्रंथों का सामना करते समय सटीक नहीं है लेकिन अलग-अलग शब्द हैं। इस स्थिति से बचने के लिए, हमने एक और एल्गोरिथम चुना- SCM(Soft Cosine Measure) । यह शब्दों के बीच समानता को माप सकता है, इसलिए भले ही दो ग्रंथों में शब्द समान न हों, यह एल्गोरिथ्म शब्द समानता का मूल्यांकन करके दो ग्रंथों की समानता की गणना कर सकता है। जब हम वेक्टर को मापने के लिए SCM का उपयोग करते हैं, तो हमें जितना बड़ा मान मिलता है, उसका अर्थ इमोजी के बीच टेक्स्ट की समानता उतनी ही अधिक होती है, और टेक्स्ट की समानता जितनी अधिक होती है, उनका संबंध उतना ही करीब होता है।
निष्कर्ष
रिलेशनशिप ग्राफ के माध्यम से, हम लोगों की आदतों और इमोजी का उपयोग करने की प्राथमिकताओं को समझ सकते हैं, और इमोजी के उपयोग की प्रवृत्ति का पता लगा सकते हैं। आपको यह जानकर आश्चर्य हो सकता है कि कुछ इमोजी जिन्हें आप एक-दूसरे के साथ नहीं जोड़ेंगे, वास्तव में बहुत निकट से संबंधित हैं, और यह इमोजी का एक नया ट्रेंडी उपयोग हो सकता है जिसे आप अभी तक नहीं जानते हैं! साथ ही अगर आपका कोई सुझाव है तो हमें कमेंट में जरूर बताएं!