თითოეული emoji განსაკუთრებულია. სანამ მას სწორად აანალიზებთ, შეგიძლიათ გაიგოთ ბევრი ინფორმაცია, როგორიცაა მნიშვნელობა, კატეგორია, დაკავშირებული თემა, თუნდაც ერთი შეხედვით emoji-ს უნიკალური გამოყენება. მას შემდეგ, რაც ჩვენ ვასრულებთ დიდი რაოდენობის გამოთვლას და ანალიზს ყველა emoji-ზე, ჩვენ საბოლოოდ ვიღებთ Emoji Tag Cloud-ს , კონკრეტულ emoji-სთან დაკავშირებულ საკვანძო სიტყვებს და ფრაზებს და წარმოვადგენთ მას სიახლის ვიზუალურად.

🔺ემოჯის ტეგების ღრუბელი [unicorn🦄]

როგორ ვიღებთ ტეგებს?

როგორც ყველამ ვიცით, Twitter არის გლობალურად ცნობილი სოციალური ქსელის სერვისი და ადამიანებს უყვართ ემოციების გამოხატვის ან უბრალოდ დეკორაციისთვის ტექსტების ტვიტერში ემოციების გამოსახატავად. ჩვენი ტეგების უმეტესობა არის ტვიტერებიდან მთელ მსოფლიოში. ჩვენ ვაანალიზებთ ტვიტერებს 2018.01-დან 2021.11 წლამდე და ვიღებთ ტეგებს 812 მილიონი ტვიტიდან, რომლებიც შეიცავს emojis-ს. შემდეგ ჩვენ ვიყენებთ სტატისტიკას და ალგორითმებს, რათა გამოვყოთ ტექსტები, რომლებიც ძალიან შეესაბამება კონკრეტულ ემოციებს და განვასხვავოთ ენა. ამის საშუალებით ჩვენ შეგვიძლია ვიცოდეთ, თუ როგორ გამოიყენება emoji სხვადასხვა ქვეყანაში.

აქ ჩვენ ვიყენებთ ინგლისურ საიტს, როგორც მაგალითი. ეს 2 emoji ჩვენს ინგლისურ გვერდზე: 😎 (ღიმილიანი სახე მზის სათვალეებით) და 🦄 (unicorn). ჩვენ ვასრულებთ ტეგის ამოღებას და ვიღებთ სიტყვებს, როგორიცაა [cool] ან [nicki] .

აქ გამოჩნდება ახალი პრობლემა❓: რა თქმა უნდა, არსებობს უამრავი ტექსტი, რომელიც დაკავშირებულია emoji-სთან, შემდეგ როგორ ავირჩიოთ ყველაზე შესაფერისი ტეგი და როგორ მოვაწყოთ ისინი?

ამ სიტუაციაში, ისინი მოიცავს შემდგომ ალგორითმებს.

ტეგის მოპოვების პროფესიონალური ტექნოლოგიური ახსნა

არსებობს მრავალი სახის ტეგების მოპოვების ტექნოლოგია სხვადასხვა ეფექტებით, როგორიცაა სტატიების აბსტრაქტული ამოღება და მოკლე ტექსტებისთვის საკვანძო სიტყვების მონიშვნის ალგორითმები. ჩვენი "Emoji Tag Cloud-Twitter Tag Extraction" დაფუძნებულია TF-IDF ალგორითმზე . იგი განხორციელდა შეცვლილი პროცესით, რომელიც დაფუძნებულია Twitter-ის მონაცემების მახასიათებლებზე, რაც წარმოადგენს მოკლე ტექსტის ეტიკეტის ამოღების უკონტროლო ალგორითმს.

გაგების გასაადვილებლად, აქ ვაჯამებთ ტეგის ამოღების პროცედურას 3 ეტაპად.

  • პირველ რიგში, ჩვენ ვასრულებთ emoji-ს ამოღებას და ტექსტის გაწმენდას თითოეული ტვიტისთვის ერთი თვის განმავლობაში, ვშლით თემებს და მეტსახელებს, როგორიცაა [@xx], [#xx] და ვშლით ტვიტის URL-ს. ტექსტის გაწმენდის დროს, ჩვენ ასევე ვფილტრავთ გაჩერებულ სიტყვებს სხვადასხვა ენაზე (მაგალითად, ამოიღეთ ზოგიერთი მოდალური ნაწილაკი, როგორიცაა ah, oh და ა.შ.), აბრევიატურებს, სიტყვების ფორმებს, კაპიტალიზაციას და სხვა ფაქტორებს, ბოლოს ვიღებთ სიტყვათა სიხშირის საინფორმაციო მონაცემებს თითოეული emoji-ს შესაბამისი. .
  • მეორე, ჩვენ ვიყენებთ TF-IDF (ტერმინი სიხშირე-შებრუნებული დოკუმენტის სიხშირე) ტექსტის წარმოდგენის ალგორითმს, რათა გამოვთვალოთ საწყისი ლეიბლის ტექსტის წონა წინა საფეხურზე მიღებულ შედეგებზე დაყრდნობით.
  • გაანგარიშების ფორმულა არის: TF-IDF = TF * IDF

    TF (ტერმინის სიხშირე) მიიღება emoji-ს შესაბამისი სიტყვის გაჩენის რაოდენობის გაყოფით ემოციის შესაბამისი სიტყვების საერთო რაოდენობაზე. IDF არის ინვერსიული დოკუმენტის სიხშირე, IDF = log( N / N(w) ) , ხოლო [N] წარმოადგენს ემოციების მთლიან რაოდენობას, [N(w)] წარმოადგენს ემოციების რაოდენობას, რომლებიც შეიცავს სიტყვას [w].

    🔺როცა სიტყვა ჩნდება როგორც emojiA-ში, ასევე emojiB-ში, ეს ნიშნავს, რომ სიტყვა არ არის საკმარისად წარმომადგენლობითი და ამ სიტყვის წონა უნდა შემცირდეს. IDF = log( N / N(w) ფორმულიდან ჩანს, რომ IDF-ის დიაპაზონი 0-სა და დადებით უსასრულობას შორის მცირდება N(w) მატებასთან ერთად.

    როდესაც ტერმინი მეტჯერ ჩნდება სტატიაში, ეს ნიშნავს, რომ ტერმინის წონა უფრო დიდია. თუმცა, სიტყვები, რომლებიც ყველაზე ხშირად ჩნდება, არის სიტყვები, რომლებიც გამოხატავენ ტონს ან არ აქვთ რეალური მნიშვნელობა, როგორიცაა [aww], [oh] ან [RT]. ასეთი სიტყვების ფილტრაციის თავიდან აცილება ძნელია მხოლოდ TF მნიშვნელობის მიხედვით დახარისხება და გაფილტვრა. ასე რომ, IDF საპირისპირო დოკუმენტის ნომერი შემოტანილია როგორც შეზღუდვა, რათა გამოვთვალოთ უფრო ზუსტი მნიშვნელობა ეტიკეტის ტექსტის წონის გამოსათვლელად.

    ნაბიჯი 2 დასასრულს, ჩვენ გავფილტრავთ ჩანაწერებს, რომლებიც გამოჩნდება ემოციების მთლიანი რაოდენობის 15%-ზე მეტი.

  • პირველ ორ საფეხურზე გამოთვლილი ერთეულები არის თვიური მონაცემები, ხოლო მთლიანი მონაცემები ოთხი წელია. ბოლო ეტაპზე ჩვენ შევასრულებთ კონსოლიდირებული სტატისტიკური გამოთვლების მორიგ რაუნდს ყველა თვიურ მონაცემზე.
  • გადააკეთეთ გამოთვლილი ოთხი წლის ტვიტის მონაცემები [(sum(tfidf_m) / M) * log(M)] სახით და შემდგომ გამოთვალეთ თითოეული ტეგის ჩანაწერის წონა. [sum(tfidf_m)] წარმოადგენს ტერმინის TF-IDF მნიშვნელობების ჯამს ყოველ თვეში და [M] წარმოადგენს თვეების რაოდენობას, რომლებშიც ტერმინი გამოჩნდება.

ამრიგად, ეს არის emoji ტეგის მონაცემების სავარაუდო გაანგარიშების მეთოდი. საბოლოო მონაცემების შეჯამების შემდეგ, ჩვენ ასევე ხელით შევამოწმებთ და გავფილტრავთ ენის მიხედვით, რათა მივიღოთ ტეგის უფრო ზუსტი შედეგები.


გარდა ამისა, ტეგები ასევე გამოიყენებენ CLDR მოკლე სახელს და CLDR საკვანძო სიტყვებს მითითებისთვის, ისინი წარმოადგენს თეგის ყველაზე ძირითად ტექსტს, რაც ნიშნავს, რომ თქვენ ყოველთვის იხილავთ ამ სიტყვებს Emoji Tag Cloud-ში.

🔺 როდესაც emoji წარედგინება Unicode Consortium-ს, აუცილებელია მის წინადადებაში იყოს CLDR მოკლე სახელი და CLDR საკვანძო სიტყვები, ამიტომ ეს სიტყვები უნდა იყოს გათვალისწინებული ტეგის არჩევისას. emoji-ს [unicorn🦄] ინფორმაციას, მის მოკლე სახელს და რამდენიმე საკვანძო სიტყვას ჩავსვამთ მის ტეგ ღრუბელში.

როგორ გამოვიყენოთ ჩვენი Emoji Tag Cloud?

საკმაოდ დიდი დრო გავიდა Emoji Tag Cloud. პირადად მე მჯერა, რომ ეს არის ძალიან სასაცილო და სასარგებლო ინსტრუმენტი კონკრეტული emoji-ზე დასაკვირვებლად, ზოგჯერ შეგიძლიათ ისიც კი იცოდეთ, რომელ ჯგუფს ან ტრენდულ თემას ამჯობინებს ამ emoji-ს გამოყენება. ნება მომეცით გაჩვენოთ, თუ როგორ გამოიყენოთ ჩვენი Emoji Tag Cloud!

როგორც ზემოთ აღინიშნა, თითოეული ტეგის ტექსტის წონა განსხვავებულია. თქვენ შეგიძლიათ უბრალოდ შეაფასოთ ტეგებსა და ემოციებს შორის კორელაცია წრის ზომით (რაც უფრო დიდია, მით უფრო აქტუალური). ან შეგიძლიათ დააყენოთ მაუსი წრეზე, გამოჩნდება პატარა კვადრატი [number, tag text]. ამ სიტუაციაში, რაც უფრო მცირეა რიცხვი, ამ წრეში არსებული ტეგი უფრო შესაბამისია emoji-სთვის. თქვენ ასევე შეგიძლიათ დააწკაპუნოთ ამ ტეგებზე, რათა მოძებნოთ სხვა დაკავშირებული emojis!

მიუხედავად ამისა, ჩვენ ვიყენებთ unicorn როგორც მაგალითი. emoji-ის ტეგ ღრუბელი [unicorn 🦄 ] მსგავსია ქვემოთ:

როგორც ხედავთ, 🦄- ის ტოპ 5 ტეგია [unicorn], [nicki], [unicorns], [plt] და [barbz] .

სიტყვა [unicorn] არის ამ emoji-ს CLDR მოკლე სახელი, ხოლო დანარჩენი 4 ტეგი ყველა ამოღებულია Twitter-დან. [nicki] და [barbz] დაკავშირებულია ნიკი მინაჟთან და მის ფანთა ჯგუფთან და სიტყვა [plt] ეხება [Pretty Little Thing] , დიდ ბრიტანეთში დაფუძნებულ მოდის საცალო ვაჭრობას ან უბრალოდ ამ ფრაზას. 🦄 არის პოპულარული emoji SNS-ში და ძალიან წარმომადგენლობითი emoji ნიკი მინაჟის ფანებისთვის. თუ გიყვართ ნიკი, აუცილებლად უნდა გამოიყენოთ ეს emoji!


მთლიანობაში, ჩვენი Emoji Tag Cloud-ის გამოყენებით , თქვენ შეგიძლიათ მარტივად გაიგოთ კონკრეტული emoji-ს დაკავშირებული შინაარსი, შესაძლოა, მეტი იცოდეთ პოპ კულტურის შესახებ და თავიდან აიცილოთ სირცხვილი emoji-ის ძირითადი და გაფართოებული მნიშვნელობის არ ცოდნის გამო. ზოგჯერ emoji-ის გამოყენება შეიძლება გახდეს სოციალური ფენომენი, როგორიცაა ეს emoji 🥺 იაპონიაში. როგორც ემოჯი მათხოვრების, წყენის ან სიყვარულის გამოსახატავად, ამ სიტყვამ „ぴえん2020" და გახდა ტრენდული emoji მთელ იაპონიაში! ამ შემთხვევაში, ზოგიერთი ადამიანისთვის Emoji Tag Cloud ასევე შესანიშნავი ინსტრუმენტია ინტერნეტ კულტურის შესახებ გასაცნობად, ყველაფერი დამოკიდებულია იმაზე, თუ როგორ იყენებთ მას.

ეს ყველაფერი მიზნად ისახავს emoji-ს მეტი გამოყენების შესწავლას და იმედი მაქვს, რომ ემოციები საინტერესო და ინფორმატიულია. იმისათვის, რომ მოგაწოდოთ ზუსტი emoji-სთან დაკავშირებული კონტენტი, მონაცემები ასევე განახლდება. თუ თქვენ გაქვთ რაიმე დამატებითი რჩევა Emoji Tag Cloud-ის შესახებ, გთხოვთ შეგვატყობინოთ ქვემოთ მოცემულ კომენტარებში👇!


ფუნქცია მენიუ

emoji კატეგორიები

emoji კანის ფერი

emoji თმის სტილი

emoji სქესი

emoji გრძნობა

emoji ვერსია