समारोह सूची

श्रेणियाँ

त्वचा का रंग

बाल शैली

लिंग

वाक्य

संस्करण

हर इमोजी खास होता है। जब तक आप इसका सही तरीके से विश्लेषण करते हैं, आप एक नज़र में अर्थ, श्रेणी, संबंधित विषय, यहां तक कि इमोजी के कुछ अनूठे उपयोग जैसी कई जानकारी प्राप्त कर सकते हैं। प्रत्येक इमोजी के लिए बड़ी मात्रा में गणना और विश्लेषण करने के बाद, हम अंत में इमोजी टैग क्लाउड , कीवर्ड और एक विशिष्ट इमोजी से संबंधित वाक्यांश प्राप्त करते हैं, और इसे एक नवीनता दृश्य तरीके से प्रस्तुत करते हैं।

इमोजी का टैग क्लाउड [यूनिकॉर्न🦄]

हमें टैग कैसे मिलते हैं?

जैसा कि हम सभी जानते हैं, ट्विटर एक वैश्विक प्रसिद्ध सोशल नेटवर्किंग सेवा है, और लोग अपनी भावनाओं को व्यक्त करने के लिए या सिर्फ सजावट के रूप में इमोजी के साथ टेक्स्ट ट्वीट करना पसंद करते हैं। हमारे अधिकांश टैग दुनिया भर के ट्वीट्स से हैं। हम 2018.01 से 2021.11 तक के ट्वीट्स का विश्लेषण करते हैं और इमोजी वाले 812 मिलियन ट्वीट्स से टैग निकालते हैं। फिर हम उन टेक्स्ट को चुनने के लिए सांख्यिकी और एल्गोरिदम का उपयोग करते हैं जो एक विशिष्ट इमोजी के लिए अत्यधिक प्रासंगिक हैं, और भाषा को अलग करते हैं। इसके माध्यम से हम यह भी जान सकते हैं कि विभिन्न देशों में इमोजी का उपयोग कैसे किया जाता है।

यहां हम उदाहरण के रूप में अंग्रेजी साइट का उपयोग करते हैं। हमारे अंग्रेज़ी पृष्ठ में इन 2 emojis: 😎 (धूप का चश्मा के साथ मुस्कुराता हुआ चेहरा) और 🦄 (गेंडा)। हम उनके लिए टैग निष्कर्षण करते हैं और [कूल] या [निकी] जैसे शब्द प्राप्त करते हैं।

यहां एक नई समस्या दिखाई दे रही है❓: बेशक इमोजी से संबंधित बहुत सारे टेक्स्ट हैं, फिर हम सबसे उपयुक्त टैग कैसे चुनते हैं, और उन्हें कैसे व्यवस्थित करें?

इस स्थिति में, वे आगे के एल्गोरिदम शामिल करते हैं।

टैग निष्कर्षण की पेशेवर तकनीकी व्याख्या

विभिन्न प्रभावों के साथ कई प्रकार की टैग निष्कर्षण प्रौद्योगिकियां हैं, जैसे लेखों के लिए सार निष्कर्षण, और लघु ग्रंथों के लिए कीवर्ड टैगिंग एल्गोरिदम। हमारा "इमोजी टैग क्लाउड-ट्विटर टैग एक्सट्रैक्शन" TF-IDF एल्गोरिथम पर आधारित है। यह ट्विटर डेटा की विशेषताओं के आधार पर एक संशोधित प्रक्रिया के साथ किया गया, जो एक असुरक्षित लघु पाठ लेबल निष्कर्षण एल्गोरिथ्म है।

समझने की सुविधा के लिए, यहां हम टैग निकालने की प्रक्रिया को 3 चरणों में सारांशित करते हैं।

  • सबसे पहले, हम प्रत्येक ट्वीट के लिए एक इकाई के रूप में एक महीने के साथ इमोजी निष्कर्षण और टेक्स्ट क्लीनिंग करते हैं, [@xx], [#xx] जैसे विषयों और उपनामों को हटाते हैं, और ट्वीट URL को हटाते हैं। टेक्स्ट की सफाई के दौरान, हम अलग-अलग भाषाओं में स्टॉप शब्दों को भी फ़िल्टर करते हैं (उदाहरण के लिए, कुछ मोडल कणों जैसे आह, ओह, आदि को हटा दें), संक्षिप्ताक्षर, शब्द रूप, कैपिटलाइज़ेशन और अन्य कारक, अंत में प्रत्येक इमोजी से संबंधित शब्द आवृत्ति जानकारी डेटा प्राप्त करते हैं। .
  • दूसरा, हम पिछले चरण में प्राप्त परिणामों के आधार पर प्रारंभिक लेबल टेक्स्ट वजन की गणना करने के लिए TF-IDF (टर्म फ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी) टेक्स्ट प्रतिनिधित्व एल्गोरिथ्म का उपयोग करते हैं।
  • गणना सूत्र है: TF-IDF = TF * IDF

    TF (टर्म फ़्रीक्वेंसी) इमोजी से संबंधित किसी शब्द के आने की संख्या को इमोजी से संबंधित शब्दों की कुल संख्या से विभाजित करके प्राप्त किया जाता है। आईडीएफ उलटा दस्तावेज़ आवृत्ति है, आईडीएफ = लॉग (एन / एन (डब्ल्यू)) , जबकि [एन] इमोजी की कुल संख्या का प्रतिनिधित्व करता है, [एन (डब्ल्यू)] शब्द [डब्ल्यू] वाले इमोजी की संख्या का प्रतिनिधित्व करता है।

    जब इमोजीए और इमोजीबी दोनों में एक शब्द दिखाई देता है, तो इसका मतलब है कि शब्द पर्याप्त प्रतिनिधि नहीं है, और इस शब्द का वजन कम किया जाना चाहिए। सूत्र आईडीएफ = लॉग (एन / एन (डब्ल्यू)) से, यह देखा जा सकता है कि 0 और सकारात्मक अनंत के बीच आईडीएफ की सीमा एन (डब्ल्यू) की वृद्धि के साथ घट जाती है।

    जब कोई पद किसी लेख में अधिक बार आता है, तो इसका अर्थ है कि उस पद का भार अधिक है। हालाँकि, जो शब्द सबसे अधिक बार प्रकट होते हैं वे ऐसे शब्द हैं जो स्वर व्यक्त करते हैं या जिनका कोई वास्तविक अर्थ नहीं है, जैसे [aww], [oh] या [RT]। केवल TF मान के आधार पर छांटने और छानने पर ऐसे शब्दों को छानने से बचना मुश्किल है। इसलिए IDF उलटा दस्तावेज़ संख्या को एक बाधा के रूप में पेश किया जाता है, ताकि लेबल टेक्स्ट के वजन का प्रतिनिधित्व करने के लिए अधिक सटीक मान की गणना की जा सके।

    चरण 2 के अंत में, हम उन प्रविष्टियों को फ़िल्टर करेंगे जो इमोजी की कुल संख्या के 15% से अधिक दिखाई देती हैं।

  • पहले दो चरणों में गणना की गई इकाइयाँ मासिक डेटा हैं, और कुल डेटा चार वर्ष है। अंतिम चरण में, हम सभी मासिक डेटा पर समेकित सांख्यिकीय गणना का एक और दौर करेंगे।
  • परिकलित चार साल के ट्वीट डेटा को [(sum(tfidf_m) / M) * log(M)] के रूप में बदलें, और आगे प्रत्येक टैग प्रविष्टि के वजन की गणना करें। [sum(tfidf_m)] प्रत्येक माह में शब्द के TF-IDF मानों के योग का प्रतिनिधित्व करता है, और [M] उन महीनों की संख्या को दर्शाता है जिनमें शब्द प्रकट होता है।

यह तब इमोजी टैग डेटा की अनुमानित गणना पद्धति है। अंतिम डेटा के सारांश के बाद, हम अधिक सटीक टैग परिणाम प्राप्त करने के लिए भाषा के अनुसार मैन्युअल रूप से जांच और फ़िल्टर भी करेंगे।


इसके अलावा, टैग संदर्भ के लिए सीएलडीआर संक्षिप्त नाम और सीएलडीआर कीवर्ड का भी उपयोग करेंगे, वे सबसे बुनियादी टैग टेक्स्ट हैं, जिसका अर्थ है कि आप इमोजी टैग क्लाउड में इनमें से कुछ शब्द हमेशा देखेंगे।

जब यूनिकोड कंसोर्टियम को इमोजी सबमिट किया जाता है, तो उसके प्रस्ताव में सीएलडीआर संक्षिप्त नाम और सीएलडीआर कीवर्ड होना आवश्यक है, इसलिए इन शब्दों को टैग चुनने पर विचार करना चाहिए। इमोजी [यूनिकॉर्न🦄] की जानकारी के लिए, हमने इसका संक्षिप्त नाम और कुछ कीवर्ड इसके टैग क्लाउड में डाल दिए हैं।

हमारे इमोजी टैग क्लाउड का उपयोग कैसे करें?

हमें इमोजी टैग क्लाउड जारी करते हुए काफी समय हो गया है। व्यक्तिगत रूप से, मेरा मानना है कि यह एक विशिष्ट इमोजी को देखने के लिए एक बहुत ही मज़ेदार और उपयोगी टूल है, कभी-कभी आप यह भी जान सकते हैं कि कौन सा समूह या ट्रेंडिंग विषय इस इमोजी का उपयोग करना पसंद करते हैं। आइए मैं आपको दिखाता हूं कि हमारे इमोजी टैग क्लाउड का उपयोग कैसे किया जाता है!

जैसा कि ऊपर बताया गया है, प्रत्येक टैग टेक्स्ट का वजन अलग होता है। आप केवल वृत्त के आकार (जितना बड़ा, उतना ही प्रासंगिक) के आधार पर टैग और इमोजी के बीच संबंध का न्याय कर सकते हैं। या आप अपने माउस को सर्कल पर रख सकते हैं, [नंबर, टैग टेक्स्ट] शो के साथ एक छोटा वर्ग होगा। इस स्थिति में, संख्या जितनी छोटी होती है, इस सर्कल में टैग इमोजी के लिए अधिक प्रासंगिक होता है। अन्य संबंधित इमोजी खोजने के लिए आप इन टैग्स पर भी क्लिक कर सकते हैं!

फिर भी, हम उदाहरण के रूप में यूनिकॉर्न का उपयोग करते हैं। इमोजी का टैग क्लाउड [गेंडा 🦄 ] नीचे जैसा है:

जैसा कि आप देख सकते हैं, के शीर्ष 5 टैग [यूनिकॉर्न], [निकी ], [यूनिकॉर्न्स], [पीएलटी] और [बार्ब्ज़] हैं

वर्ड [यूनिकॉर्न] इस इमोजी का सीएलडीआर संक्षिप्त नाम है, और बाकी 4 टैग ट्विटर से निकाले गए हैं। [निकी] और [बार्बज़] निकी मिनाज और उसके प्रशंसक समूह से संबंधित हैं, और शब्द [पीएलटी] यूके स्थित फैशन रिटेलर [प्रिटी लिटिल थिंग] या सिर्फ इस वाक्यांश को संदर्भित करता है। 🦄 एसएनएस में एक लोकप्रिय इमोजी है, और निकी मिनाज के प्रशंसकों के लिए एक बहुत ही प्रतिनिधि इमोजी है। यदि आप निकी से प्यार करते हैं, तो आपको निश्चित रूप से इस इमोजी का उपयोग करना चाहिए!


कुल मिलाकर, हमारे इमोजी टैग क्लाउड का उपयोग करके, आप आसानी से किसी विशिष्ट इमोजी की संबंधित सामग्री का पता लगा सकते हैं, हो सकता है कि आप पॉप संस्कृति के बारे में अधिक जान सकें और इमोजी के मूल और विस्तारित अर्थ को न जानने की शर्मिंदगी से बच सकें। कभी-कभी एक इमोजी का उपयोग करते हुए इस तरह के इस इमोजी कहा एक सामाजिक घटना, बन सकता है 🥺 जापान में। भीख, शिकायत या प्रेम व्यक्त करने के लिए इमोजी के रूप में, इस शब्द 'ぴえん🥺' ने "जेसी एंड जेके बज़वर्ड अवार्ड्स 2019'", "2019 गैल बज़वर्ड अवार्ड" को दूसरा स्थान, "इंस्टाग्राम बज़वर्ड अवार्ड फॉर फर्स्ट हाफ" का पहला स्थान प्राप्त किया। 2020" और पूरे जापान में एक ट्रेंड इमोजी बन गया! इस मामले में, कुछ लोगों के लिए, इमोजी टैग क्लाउड भी इंटरनेट संस्कृति के बारे में जानने के लिए एक महान उपकरण है, यह सब इस बात पर निर्भर करता है कि आप इसका उपयोग कैसे करते हैं।

ये सभी इमोजी के अधिक उपयोग का पता लगाने के लिए हैं, और आशा करते हैं कि इमोजी दिलचस्प और जानकारीपूर्ण हैं। आपको इमोजी से संबंधित सटीक सामग्री प्रदान करने के लिए, डेटा भी अपडेट होता रहेगा। यदि आपके पास इमोजी टैग क्लाउड के बारे में कोई और सलाह है, तो कृपया हमें नीचे टिप्पणी में बताएं👇!