အီမိုဂျီတိုင်းသည် အထူးဖြစ်သည်။ မှန်ကန်သောနည်းလမ်းဖြင့် ခွဲခြမ်းစိတ်ဖြာသရွေ့၊ အဓိပ္ပါယ်များ၊ အမျိုးအစား၊ ဆက်စပ်အကြောင်းအရာများ၊ အီမိုဂျီတစ်ခု၏ ထူးခြားသောအသုံးပြုမှုအချို့ကို တစ်ချက်ကြည့်ခြင်း 👀 ကဲ့သို့သော အချက်အလက်များစွာကို သင်ရှာဖွေနိုင်ပါသည်။ အီမိုဂျီတိုင်းအတွက် တွက်ချက်မှုနှင့် ခွဲခြမ်းစိတ်ဖြာမှုများစွာကို လုပ်ဆောင်ပြီးနောက်၊ ကျွန်ုပ်တို့သည် နောက်ဆုံးတွင် Emoji Tag Cloud ၊ သီးခြား အီမိုဂျီတစ်ခုနှင့် သက်ဆိုင်သည့် သော့ချက်စာလုံးများနှင့် စကားစုများကို ရရှိပြီး ၎င်းကို ဆန်းသစ်သောအမြင်ဖြင့် ကိုယ်စားပြုပါသည်။
🔺 အီမိုဂျီ၏ Tag တိမ်တိုက် [unicorn🦄]
Tag တွေကို ဘယ်လိုရနိုင်လဲ။
အားလုံးသိကြသည့်အတိုင်း Twitter သည် ကမ္ဘာလုံးဆိုင်ရာ ကျော်ကြားသော လူမှုကွန်ရက်ဝန်ဆောင်မှုတစ်ခုဖြစ်ပြီး လူများသည် ၎င်းတို့၏ခံစားချက်များကိုဖော်ပြရန် သို့မဟုတ် အလှဆင်ခြင်းအဖြစ် emojis များဖြင့် စာသား tweet များကို နှစ်သက်ကြသည်။ ကျွန်ုပ်တို့၏ tag အများစုသည် ကမ္ဘာတစ်ဝှမ်းရှိ tweets များမှဖြစ်သည်။ ကျွန်ုပ်တို့သည် 2018.01 မှ 2021.11 ရက်နေ့အထိ tweets များကိုခွဲခြမ်းစိတ်ဖြာပြီး emojis များပါရှိသော tweets ပေါင်း 812 သန်းမှ tags များကိုထုတ်ယူပါ။ ထို့နောက် ကျွန်ုပ်တို့သည် တိကျသော အီမိုဂျီတစ်ခုနှင့် အလွန်သက်ဆိုင်သည့် စာသားများကို ရွေးထုတ်ကာ ဘာသာစကားကို ခွဲခြားရန် ကိန်းဂဏန်းများနှင့် အယ်လဂိုရီသမ်များကို အသုံးပြုပါသည်။ ယင်းမှတစ်ဆင့် နိုင်ငံအသီးသီးတွင် အီမိုဂျီတစ်ခုကို မည်သို့အသုံးပြုကြောင်း ကျွန်ုပ်တို့ပင် သိရှိနိုင်ပါသည်။
ဤနေရာတွင် ကျွန်ုပ်တို့သည် အင်္ဂလိပ်ဆိုက်ကို နမူနာအဖြစ် အသုံးပြုပါသည်။ ဤရွေ့ကား 2 ကျွန်တော်တို့ရဲ့အင်္ဂလိပ်စာမျက်နှာအတွက်ရုပ်ပြောင်: 😎 (နေကာမျက်မှန်နှင့်အတူမျက်နှာပြုံးနေ) နှင့် 🦄 (ကြံ့) ။ ၎င်းတို့ကို tag ထုတ်ယူပြီး [cool] သို့မဟုတ် [nicki] ကဲ့သို့သော စကားလုံးများကို ရယူပါသည်။
ဤတွင် ပြဿနာအသစ်တစ်ခု ပေါ်လာသည် ❓ - အီမိုဂျီတစ်ခုနှင့် သက်ဆိုင်သည့် စာသားများစွာ ရှိသည်၊ ထို့နောက် အသင့်တော်ဆုံး တံဆိပ်ကို ကျွန်ုပ်တို့ မည်သို့ရွေးချယ်သည်၊ ၎င်းတို့ကို မည်သို့စီစဉ်ရမည်နည်း။
ဤအခြေအနေတွင်၊ ၎င်းတို့သည် နောက်ထပ် algorithms များပါ၀င်သည်။
tag ထုတ်ယူခြင်းဆိုင်ရာ ပရော်ဖက်ရှင်နယ်နည်းပညာ၏ ရှင်းလင်းချက်
ဆောင်းပါးများအတွက် စိတ္တဇထုတ်ယူခြင်း၊ နှင့် စာတိုများ အတွက် အဓိကစကားလုံးတဂ်လုပ်ခြင်း အယ်လဂိုရီသမ်များကဲ့သို့သော ကွဲပြားသောအကျိုးသက်ရောက်မှုများပါရှိသော တဂ်ထုတ်ယူခြင်းနည်းပညာ အမျိုးအစားများစွာရှိပါသည်။ ကျွန်ုပ်တို့၏ "Emoji Tag Cloud-Twitter Tag Extraction" သည် TF-IDF algorithm ပေါ်တွင် အခြေခံထားသည်။ ကြီးကြပ်မှုမရှိသော တိုတောင်းသော စာသားတံဆိပ်ထုတ်ယူခြင်းဆိုင်ရာ အယ်လဂိုရီသမ်ဖြစ်သည့် Twitter ဒေတာ၏ ဝိသေသလက္ခဏာများပေါ်အခြေခံ၍ ပြုပြင်ထားသော လုပ်ငန်းစဉ်ဖြင့် ဆောင်ရွက်သည်။
နားလည်မှုလွယ်ကူစေရန်အတွက်၊ ဤနေရာတွင် tag ထုတ်ယူခြင်းလုပ်ငန်းစဉ်ကို အဆင့် 3 ဆင့်အဖြစ် အကျဉ်းချုပ်ဖော်ပြပါသည်။
- ပထမဦးစွာ၊ ကျွန်ုပ်တို့သည် တွစ်တာတစ်ခုစီအတွက် တစ်လလျှင် ယူနစ်တစ်ခုဖြင့် အီမိုဂျီထုတ်ယူခြင်း နှင့် စာသားရှင်းလင်း ခြင်းကို လုပ်ဆောင်ပြီး၊ [@xx]၊ [#xx] ကဲ့သို့သော အကြောင်းအရာများနှင့် အမည်ဝှက်များကို ဖယ်ရှားကာ tweet URL ကို ဖျက်ပါ။ စာသားရှင်းလင်းနေစဉ်တွင်၊ ကျွန်ုပ်တို့သည် မတူညီသောဘာသာစကားဖြင့် ရပ်တန့်ထားသောစကားလုံးများကို စစ်ထုတ်သည် (ဥပမာ၊ ah၊ oh အစရှိသည်တို့ကဲ့သို့ modal အမှုန်အချို့ကို ဖယ်ရှားခြင်း)၊ အတိုကောက်များ၊ စကားလုံးပုံစံများ၊ စာလုံးအကြီးအသေးများနှင့် အခြားအချက်များအား နောက်ဆုံးတွင် အီမိုဂျီတစ်ခုစီနှင့်သက်ဆိုင်သည့် စကားလုံးကြိမ်နှုန်းအချက်အလက်ဒေတာကို ရရှိမည်ဖြစ်သည်။ .
- ဒုတိယ၊ ကျွန်ုပ်တို့သည် ယခင်အဆင့်မှရရှိသောရလဒ်များအပေါ်အခြေခံ၍ ကနဦးတံဆိပ်စာသားအလေးချိန်ကိုတွက်ချက်ရန် TF-IDF (ဝေါဟာရအကြိမ်ရေ-ပြောင်းပြန်စာရွက်စာတမ်းအကြိမ်ရေ) စာသားကိုယ်စားပြုမှု အယ်လဂိုရီသမ်ကို အသုံးပြုပါသည်။
- ပထမအဆင့်နှစ်ဆင့်တွင် တွက်ချက်ယူနစ်များသည် လစဉ်ဒေတာဖြစ်ပြီး စုစုပေါင်းဒေတာသည် လေးနှစ်ဖြစ်သည်။ နောက်ဆုံးအဆင့်တွင်၊ လစဉ်ဒေတာအားလုံးအတွက် ပေါင်းစည်းထားသော ကိန်းဂဏန်းတွက်ချက်မှုများကို နောက်ထပ်ပြုလုပ်ပါမည်။
တွက်ချက်ပုံသေနည်းမှာ- TF-IDF = TF * IDF
TF (Term Frequency) ကို အီမိုဂျီနှင့် သက်ဆိုင်သည့် စကားလုံးတစ်လုံး၏ ဖြစ်ပေါ်မှု အရေအတွက်ကို အီမိုဂျီနှင့် သက်ဆိုင်သည့် စုစုပေါင်း စကားလုံးအရေအတွက်ဖြင့် ပိုင်းခြားခြင်းဖြင့် ရရှိသည်။ IDF သည် Inverse Document Frequency၊ IDF = log( N / N(w) ) ၊ [N] သည် အီမိုဂျီများ၏ စုစုပေါင်းအရေအတွက်ကို ကိုယ်စားပြုသော်လည်း [N(w)] သည် စကားလုံး [w] ပါရှိသော emoji အရေအတွက်ကို ကိုယ်စားပြုသည်။
🔺 စကားလုံးတစ်လုံးသည် emojiA နှင့် emojiB နှစ်ခုလုံးတွင် ပေါ်လာသောအခါ၊ ၎င်းသည် စကားလုံးလုံလောက်စွာ ကိုယ်စားပြုခြင်းမရှိကြောင်းနှင့် ဤစကားလုံး၏အလေးချိန်ကို လျှော့ချသင့်သည်။ ဖော်မြူလာ IDF = log( N / N(w) ) မှ 0 နှင့် positive infinity အကြား IDF ၏ အကွာအဝေးသည် N(w) တိုးလာသည်နှင့်အမျှ လျော့နည်းသွားသည်ကို တွေ့နိုင်ပါသည်။
ဝေါဟာရတစ်ခုသည် ဆောင်းပါးတစ်ခုတွင် အကြိမ်ရေပိုများလာသောအခါ၊ ဝေါဟာရ၏အလေးချိန်သည် ပိုကြီးလာသည်ဟု ဆိုလိုသည်။ သို့သော်၊ မကြာခဏပေါ်လာသောစကားလုံးများသည် [aww]၊ [oh] သို့မဟုတ် [RT] ကဲ့သို့သော အသံနေအသံထားကိုဖော်ပြသော သို့မဟုတ် အမှန်တကယ်အဓိပ္ပါယ်မရှိသောစကားလုံးများဖြစ်သည်။ TF တန်ဖိုးဖြင့် စီစစ်ပြီး စစ်ထုတ်မှသာ ထိုကဲ့သို့သော စကားလုံးများကို စစ်ထုတ်ခြင်းကို ရှောင်ရှားရန် ခက်ခဲသည်။ ထို့ကြောင့် အညွှန်းစာသား၏အလေးချိန်ကိုကိုယ်စားပြုရန် ပိုမိုတိကျသောတန်ဖိုးကို တွက်ချက်ရန်အတွက် IDF ပြောင်းပြန်စာရွက်စာတမ်းနံပါတ်ကို ကန့်သတ်ချက်တစ်ခုအဖြစ် မိတ်ဆက်ပေးသည်။
အဆင့် 2 ၏အဆုံးတွင်၊ စုစုပေါင်း Emoji အရေအတွက်၏ 15% ထက်ပို၍ပေါ်လာသည့်အရာများကို စစ်ထုတ်ပါမည်။
တွက်ချက်ထားသော လေးနှစ်ကြာ tweet ဒေတာကို [(sum(tfidf_m) / M) * log(M)] ပုံစံသို့ ပြောင်းပြီး tag တစ်ခုစီ၏ အလေးချိန်ကို ထပ်မံတွက်ချက်ပါ။ [sum(tfidf_m)] သည် လတိုင်းရှိ ဝေါဟာရ၏ TF-IDF တန်ဖိုးများ၏ ပေါင်းလဒ်များကို ကိုယ်စားပြုပြီး [M] သည် ဝေါဟာရပေါ်လာသည့်လများကို ကိုယ်စားပြုသည်။
ထို့ကြောင့် ၎င်းတို့သည် အီမိုဂျီတက်ဂ်ဒေတာ၏ အနီးစပ်ဆုံး တွက်ချက်နည်းဖြစ်သည်။ နောက်ဆုံးဒေတာကို အကျဉ်းချုံ့ပြီးပါက ပိုမိုတိကျသော တဂ်ရလဒ်များရရှိရန်အတွက် ဘာသာစကားအလိုက် ကိုယ်တိုင်စစ်ဆေးပြီး စစ်ထုတ်ပါမည်။
ထို့အပြင်၊ တဂ်များသည် ကိုးကားရန်အတွက် CLDR အမည်အတိုနှင့် CLDR သော့ချက်စာလုံးများကိုလည်း အသုံးပြုမည်ဖြစ်ပြီး ၎င်းတို့သည် အခြေခံအကျဆုံးသော tag စာသားဖြစ်သည်၊ ဆိုလိုသည်မှာ ဤစကားလုံးအချို့ကို Emoji Tag Cloud တွင် အမြဲတွေ့မြင်ရမည်ဖြစ်သည်။
🔺 Emoji တစ်ခုကို Unicode Consortium သို့ တင်သွင်းသောအခါ၊ ၎င်း၏အဆိုပြုချက်တွင် CLDR အမည်အတိုနှင့် CLDR သော့ချက်စာလုံးများ ပါရှိရန် လိုအပ်သောကြောင့် အဆိုပါစကားလုံးများကို tag ရွေးချယ်ရာတွင် ထည့်သွင်းစဉ်းစားရမည်ဖြစ်သည်။ အီမိုဂျီ [unicorn🦄] ၏အချက်အလက်များ၊ ကျွန်ုပ်တို့သည် ၎င်း၏အမည်အတိုနှင့် သော့ချက်စာလုံးအချို့ကို ၎င်း၏ tag cloud တွင် ထည့်သွင်းထားသည်။
ကျွန်ုပ်တို့၏ Emoji Tag Cloud ကို မည်သို့အသုံးပြုရမည်နည်း။
Emoji Tag Cloud ကို ထုတ်လွှတ်လိုက်တာ တော်တော်ကြာပါပြီ။ ပုဂ္ဂိုလ်ရေးအရ၊ ၎င်းသည် တိကျသော အီမိုဂျီတစ်ခုကို စောင့်ကြည့်ရန် အလွန်ရယ်စရာကောင်းပြီး အသုံးဝင်သောကိရိယာတစ်ခုဖြစ်သည်ဟု ကျွန်ုပ်ယုံကြည်သည်၊ တစ်ခါတစ်ရံတွင် မည်သည့်အဖွဲ့ သို့မဟုတ် ခေတ်စားနေသောအကြောင်းအရာကို ဤ emoji ကိုအသုံးပြုရန် ပိုနှစ်သက်သည်ကိုပင် သင်သိနိုင်သည်။ ကျွန်ုပ်တို့၏ Emoji Tag Cloud ကို အသုံးပြုပုံကို ကျွန်ုပ်ပြပါရစေ။
အထက်တွင်ဖော်ပြခဲ့သည့်အတိုင်း tag စာသားတစ်ခုစီ၏အလေးချိန်သည် မတူညီပါ။ စက်ဝိုင်းအရွယ်အစားဖြင့် တဂ်များနှင့် အီမိုဂျီတို့၏ ဆက်စပ်မှုကို ရိုးရိုးရှင်းရှင်း ဆုံးဖြတ်နိုင်သည် (ပိုကြီး၊ ပိုသက်ဆိုင်သည်)။ သို့မဟုတ် စက်ဝိုင်းပေါ်တွင် သင့်မောက်စ်ကို တင်နိုင်သည်၊ [နံပါတ်၊ tag စာသား] ပေါ်လာသည့် စတုရန်းလေးတစ်ခု ရှိလိမ့်မည်။ ဤအခြေအနေတွင်၊ အရေအတွက်နည်းလေ၊ ဤစက်ဝိုင်းရှိ tag သည် အီမိုဂျီနှင့် ပိုသက်ဆိုင်ပါသည်။ အခြားဆက်စပ် အီမိုဂျီများကို ရှာဖွေရန် ဤတဂ်များကို နှိပ်နိုင်သည်။
သို့တိုင်၊ ကျွန်ုပ်တို့သည် ဥပမာအနေဖြင့် ယူနီကွန်ကို အသုံးပြုသည်။ Emoji ၏ Tag တိမ်တိုက် [unicorn 🦄 ] သည် အောက်ပါအတိုင်းဖြစ်သည်-
သင်တွေ့မြင်ရသည့်အတိုင်း 🦄 ၏ထိပ်တန်း tag 5 ခုမှာ [unicorn]၊ [nicki]၊ [unicorns]၊ [plt] နှင့် [barbz] များ ဖြစ်သည်။
Word [unicorn] သည် ဤအီမိုဂျီ၏ CLDR အမည်အတိုဖြစ်ပြီး ကျန်သော tag 4 ခုအားလုံးကို twitter မှ ထုတ်နုတ်ထားသည်။ [nicki] နှင့် [barbz] တို့သည် Nicki Minaj နှင့် သူမ၏ ပရိသတ်အဖွဲ့နှင့် ဆက်စပ်နေပြီး စကားလုံး [plt] သည် ဗြိတိန်အခြေစိုက် ဖက်ရှင်လက်လီရောင်းချသူ သို့မဟုတ် [Pretty Little Thing] ကို ရည်ညွှန်းသည်။ 🦄 သည် SNS တွင် ရေပန်းစားသော အီမိုဂျီတစ်ခုဖြစ်ပြီး Nicki Minaj ပရိသတ်များအတွက် အလွန်ကိုယ်စားပြုသည့် အီမိုဂျီဖြစ်သည်။ Nicki ကို ချစ်တယ်ဆိုရင် ဒီ emoji ကို သေချာပေါက် သုံးသင့်ပါတယ်။
ကျွန်ုပ်တို့၏ Emoji Tag Cloud ကို အသုံးပြုခြင်းဖြင့်၊ တိကျသော အီမိုဂျီတစ်ခု၏ ဆက်စပ်အကြောင်းအရာများကို အလွယ်တကူ ရှာဖွေတွေ့ရှိနိုင်သည်၊ ပေါ့ပ်ယဉ်ကျေးမှုအကြောင်း ပိုမိုသိရှိနိုင်ပြီး Emoji ၏ အခြေခံနှင့် ကျယ်ပြန့်သောအဓိပ္ပာယ်ကို မသိခြင်းကြောင့် ရှက်ရွံ့မှုကို ရှောင်ရှားနိုင်မည်ဖြစ်သည်။ တစ်ခါတစ်ရံတွင် အီမိုဂျီအသုံးပြုခြင်းသည် ဂျပန်နိုင်ငံရှိ ဤ emoji 🥺 ကဲ့သို့သော လူမှုရေးဆိုင်ရာ ဖြစ်စဉ်တစ်ခု ဖြစ်လာနိုင်သည်။ တောင်းစားမှု၊ နာကျည်းမှု သို့မဟုတ် ချစ်စဖွယ်ဖော်ပြရန် အီမိုဂျီတစ်ခုအနေဖြင့် ဤစကားလုံး 'ぴえん🥺' သည် "JC&JK Buzzword Awards 2019'", "2019 Gal Buzzword Award" ဒုတိယနေရာ၊ "Instagram Buzzword Award ပထမနှစ်ဝက်အတွက် ပထမနေရာ" ကို ရရှိခဲ့သည်။ 2020" သည် ဂျပန်နိုင်ငံတစ်ဝှမ်းရှိ ခေတ်ရေစီးကြောင်း အီမိုဂျီတစ်ခု ဖြစ်လာခဲ့သည်။ ဤကိစ္စတွင်၊ အချို့သောလူများအတွက်၊ Emoji Tag Cloud သည် အင်တာနက်ယဉ်ကျေးမှုအကြောင်း သိရန် ကောင်းမွန်သောကိရိယာတစ်ခုဖြစ်ပြီး သင်အသုံးပြုပုံပေါ်တွင်မူတည်သည်။
၎င်းတို့အားလုံးသည် အီမိုဂျီအသုံးပြုမှုကို ပိုမိုရှာဖွေရန်ဖြစ်ပြီး အီမိုဂျီများသည် စိတ်ဝင်စားစရာကောင်းပြီး သတင်းအချက်အလက်များကို သင်တွေ့ရှိမည်ဟု မျှော်လင့်ပါသည်။ သင့်အား တိကျသော အီမိုဂျီဆိုင်ရာ အကြောင်းအရာများကို ပေးဆောင်ရန်အတွက်၊ ဒေတာကိုလည်း ဆက်လက် မွမ်းမံနေမည်ဖြစ်ပါသည်။ Emoji Tag Cloud နှင့်ပတ်သက်သော နောက်ထပ်အကြံဉာဏ်များရှိပါက၊ အောက်ပါမှတ်ချက်များတွင် ကျွန်ုပ်တို့အား အသိပေးပါ။