Κάθε emoji είναι ξεχωριστό. Εφόσον το αναλύσετε με σωστό τρόπο, μπορείτε να μάθετε πολλές πληροφορίες όπως έννοιες, κατηγορία, σχετικό θέμα, ακόμη και κάποια μοναδική χρήση ενός emoji με μια ματιά👀. Αφού πραγματοποιήσουμε μεγάλους υπολογισμούς και αναλύσεις σε κάθε emoji, τελικά λαμβάνουμε το Emoji Tag Cloud , λέξεις-κλειδιά και φράσεις που σχετίζονται με ένα συγκεκριμένο emoji και το αναπαριστάνουμε με έναν καινοτόμο οπτικό τρόπο.

🔺The Tag Cloud of emoji [μονόκερος🦄]

Πώς παίρνουμε ετικέτες;

Όπως όλοι γνωρίζουμε, το Twitter είναι μια παγκόσμια διάσημη υπηρεσία κοινωνικής δικτύωσης και στους ανθρώπους αρέσει να tweet κείμενα με emojis για να εκφράσουν τα συναισθήματά τους ή απλώς ως διακόσμηση. Οι περισσότερες από τις ετικέτες μας προέρχονται από tweets σε όλο τον κόσμο. Αναλύουμε tweets από το 2018.01 έως το 2021.11 και εξάγουμε τις ετικέτες από 812 εκατομμύρια tweets που περιέχουν emojis. Στη συνέχεια χρησιμοποιούμε στατιστικά στοιχεία και αλγόριθμους για να διαλέξουμε τα κείμενα που είναι πολύ σχετικά με ένα συγκεκριμένο emoji και να διακρίνουμε τη γλώσσα. Μέσα από αυτό, μπορούμε ακόμη και να γνωρίζουμε πώς χρησιμοποιείται ένα emoji σε διαφορετική χώρα.

Εδώ χρησιμοποιούμε την αγγλική τοποθεσία ως παράδειγμα. Αυτά τα 2 emoji στην αγγλική σελίδα μας: 😎 (χαμογελαστό πρόσωπο με γυαλιά ηλίου) και 🦄 (μονόκερος). Εκτελούμε εξαγωγή ετικετών σε αυτούς και παίρνουμε λέξεις όπως [cool] ή [nicki] .

Εδώ εμφανίζεται ένα νέο πρόβλημα❓: Φυσικά υπάρχουν πολλά κείμενα που σχετίζονται με ένα emoji, μετά πώς επιλέγουμε την πιο κατάλληλη ετικέτα και πώς να τα τακτοποιήσουμε;

Σε αυτήν την περίπτωση, περιλαμβάνουν περαιτέρω αλγόριθμους.

Η επαγγελματική τεχνολογική εξήγηση της εξαγωγής ετικετών

Υπάρχουν πολλοί τύποι τεχνολογιών εξαγωγής ετικετών με διαφορετικά εφέ, όπως αφηρημένη εξαγωγή για άρθρα και αλγόριθμοι προσθήκης ετικετών λέξεων-κλειδιών για σύντομα κείμενα. Το "Emoji Tag Cloud-Twitter Tag Extraction" βασίζεται στον αλγόριθμο TF-IDF . Πραγματοποιήθηκε με μια τροποποιημένη διαδικασία που βασίζεται στα χαρακτηριστικά των δεδομένων Twitter, η οποία είναι ένας αλγόριθμος εξαγωγής σύντομων ετικετών κειμένου χωρίς επίβλεψη.

Για να διευκολυνθεί η κατανόηση, εδώ συνοψίζουμε τη διαδικασία εξαγωγής ετικετών σε 3 βήματα.

  • Αρχικά, εκτελούμε εξαγωγή emoji και καθαρισμό κειμένου για κάθε tweet με ένα μήνα ως ενότητα, αφαιρούμε θέματα και ψευδώνυμα όπως [@xx], [#xx] και διαγράφουμε τη διεύθυνση URL του tweet. Κατά τη διάρκεια του καθαρισμού του κειμένου, φιλτράρουμε επίσης λέξεις διακοπής σε διαφορετικές γλώσσες (για παράδειγμα, αφαιρούμε ορισμένα μόρια όπως ah, oh, κ.λπ.), συντομογραφίες, μορφές λέξεων, χρήση κεφαλαίων και άλλους παράγοντες, τέλος λαμβάνουμε δεδομένα πληροφοριών συχνότητας λέξεων που αντιστοιχούν σε κάθε emoji .
  • Δεύτερον, χρησιμοποιούμε τον αλγόριθμο αναπαράστασης κειμένου TF-IDF (όρος συχνότητα-αντίστροφη συχνότητα εγγράφου) για να υπολογίσουμε ένα αρχικό βάρος κειμένου ετικέτας με βάση τα αποτελέσματα που ελήφθησαν στο προηγούμενο βήμα.
  • Ο τύπος υπολογισμού είναι: TF-IDF = TF * IDF

    Το TF (Term Frequency) προκύπτει διαιρώντας τον αριθμό των εμφανίσεων μιας λέξης που αντιστοιχεί σε ένα emoji με τον συνολικό αριθμό των λέξεων που αντιστοιχούν στο emoji. Το IDF είναι η αντίστροφη συχνότητα εγγράφου, IDF = log( N / N(w) ) , ενώ το [N] αντιπροσωπεύει τον συνολικό αριθμό emoji, το [N(w)] αντιπροσωπεύει τον αριθμό των emoji που περιέχουν τη λέξη [w].

    🔺Όταν μια λέξη εμφανίζεται τόσο στο emojiA όσο και στο emojiB, σημαίνει ότι η λέξη δεν είναι αρκετά αντιπροσωπευτική και το βάρος αυτής της λέξης θα πρέπει να μειωθεί. Από τον τύπο IDF = log( N / N(w) ), μπορεί να φανεί ότι το εύρος του IDF μεταξύ 0 και θετικού άπειρου μειώνεται με την αύξηση του N(w).

    Όταν ένας όρος εμφανίζεται περισσότερες φορές σε ένα άρθρο, σημαίνει ότι το βάρος του όρου είναι μεγαλύτερο. Ωστόσο, οι λέξεις που εμφανίζονται πιο συχνά είναι λέξεις που εκφράζουν τόνο ή δεν έχουν πραγματικό νόημα, όπως [aww], [oh] ή [RT]. Είναι δύσκολο να αποφευχθεί το φιλτράρισμα τέτοιων λέξεων μόνο με ταξινόμηση και φιλτράρισμα με βάση την τιμή TF. Έτσι, ο αντίστροφος αριθμός εγγράφου IDF εισάγεται ως περιορισμός, προκειμένου να υπολογιστεί μια πιο ακριβής τιμή που να αντιπροσωπεύει το βάρος του κειμένου της ετικέτας.

    Στο τέλος του βήματος 2, θα φιλτράρουμε τις εγγραφές που εμφανίζονται περισσότερο από το 15% του συνολικού αριθμού emoji.

  • Οι μονάδες που υπολογίζονται στα δύο πρώτα βήματα είναι μηνιαία δεδομένα και τα συνολικά δεδομένα είναι τέσσερα χρόνια. Στο τελευταίο βήμα, θα εκτελέσουμε έναν άλλο γύρο συγκεντρωτικών στατιστικών υπολογισμών για όλα τα μηνιαία δεδομένα.
  • Μετατρέψτε τα υπολογισμένα δεδομένα τετραετίας tweet στη μορφή [(sum(tfidf_m) / M) * log(M)] και υπολογίστε περαιτέρω το βάρος κάθε καταχώρισης ετικέτας. Το [sum(tfidf_m)] αντιπροσωπεύει το άθροισμα των τιμών TF-IDF του όρου σε κάθε μήνα και το [M] αντιπροσωπεύει τον αριθμό των μηνών στους οποίους εμφανίζεται ο όρος.

Αυτές, λοιπόν, είναι η κατά προσέγγιση μέθοδος υπολογισμού των δεδομένων ετικετών emoji. Αφού συνοψιστούν τα τελικά δεδομένα, θα ελέγξουμε και θα φιλτράρουμε χειροκίνητα ανάλογα με τη γλώσσα, προκειμένου να έχουμε πιο ακριβή αποτελέσματα ετικετών.


Επιπλέον, οι ετικέτες θα χρησιμοποιούν επίσης σύντομο όνομα CLDR και λέξεις-κλειδιά CLDR για αναφορά, είναι το πιο βασικό κείμενο ετικετών, πράγμα που σημαίνει ότι θα βλέπετε πάντα μερικές από αυτές τις λέξεις στο Emoji Tag Cloud.

🔺 Όταν ένα emoji υποβάλλεται στην Κοινοπραξία Unicode, είναι απαραίτητο να υπάρχει σύντομο όνομα CLDR και λέξεις-κλειδιά CLDR στην πρότασή του, επομένως αυτές οι λέξεις πρέπει να λαμβάνουν υπόψη την επιλογή ετικετών. Οι πληροφορίες του emoji [μονόκερος🦄], βάζουμε το σύντομο όνομά του και μερικές λέξεις-κλειδιά στο σύννεφο ετικετών του.

Πώς να χρησιμοποιήσετε το Emoji Tag Cloud;

Ήταν καιρός να κυκλοφορήσουμε το Emoji Tag Cloud. Προσωπικά, πιστεύω ότι είναι ένα πολύ αστείο και χρήσιμο εργαλείο για την παρατήρηση ενός συγκεκριμένου emoji, μερικές φορές μπορείς ακόμη και να ξέρεις ποια ομάδα ή ποιο δημοφιλές θέμα προτιμά να χρησιμοποιεί αυτό το emoji. Επιτρέψτε μου να σας δείξω πώς να χρησιμοποιείτε το Emoji Tag Cloud!

Όπως αναφέρθηκε παραπάνω, το βάρος κάθε κειμένου ετικέτας είναι διαφορετικό. Μπορείτε απλά να κρίνετε τη συσχέτιση μεταξύ ετικετών και emoji από το μέγεθος του κύκλου (όσο μεγαλύτερος, τόσο πιο σχετικός). Ή μπορείτε να βάλετε το ποντίκι σας στον κύκλο, θα εμφανιστεί ένα μικρό τετράγωνο με [αριθμός, κείμενο ετικέτας]. Σε αυτήν την περίπτωση, όσο μικρότερος είναι ο αριθμός, η ετικέτα σε αυτόν τον κύκλο είναι πιο σχετική με το emoji. Μπορείτε επίσης να κάνετε κλικ σε αυτές τις ετικέτες για να αναζητήσετε άλλα σχετικά emoji!

Ωστόσο, χρησιμοποιούμε τον μονόκερο ως παράδειγμα. το Tag Cloud του emoji [μονόκερος 🦄 ] είναι όπως παρακάτω:

Όπως μπορείτε να δείτε, οι κορυφαίες 5 ετικέτες του 🦄 είναι [unicorn], [nicki], [unicorns], [plt] και [barbz] .

Το Word [unicorn] είναι το σύντομο όνομα CLDR αυτού του emoji και οι υπόλοιπες 4 ετικέτες εξάγονται όλες από το twitter. Οι [nicki] και [barbz] σχετίζονται με τη Nicki Minaj και την ομάδα θαυμαστών της και η λέξη [plt] αναφέρεται στο [Pretty Little Thing] , ένα κατάστημα λιανικής μόδας με έδρα το Ηνωμένο Βασίλειο ή απλώς σε αυτήν τη φράση. 🦄 είναι ένα δημοφιλές emoji στο SNS και ένα πολύ αντιπροσωπευτικό emoji για τους θαυμαστές της Nicki Minaj. Αν αγαπάτε τη Nicki, σίγουρα πρέπει να χρησιμοποιήσετε αυτό το emoji!


Συνολικά, χρησιμοποιώντας το Emoji Tag Cloud , μπορείτε εύκολα να μάθετε τα σχετικά περιεχόμενα ενός συγκεκριμένου emoji, ίσως μπορείτε ακόμη και να μάθετε περισσότερα για την ποπ κουλτούρα και να αποφύγετε την αμηχανία να μην γνωρίζετε τη βασική και εκτεταμένη σημασία ενός emoji. Μερικές φορές η χρήση ενός emoji μπορεί να γίνει κοινωνικό φαινόμενο, όπως αυτό το emoji 🥺 στην Ιαπωνία. Ως emoji για να εκφράσει ικεσία, παράπονο ή γοητεία, αυτή η λέξη "ぴえん🥺" κέρδισε τα "JC&JK Buzzword Awards 2019", "2019 Gal Buzzword Award" 2η θέση, την πρώτη θέση του "Instagram Buzzword Award για το πρώτο εξάμηνο του 2020" και έγινε trend emoji σε όλη την Ιαπωνία! Σε αυτήν την περίπτωση, για μερικούς ανθρώπους, το Emoji Tag Cloud είναι επίσης ένα εξαιρετικό εργαλείο για να γνωρίσετε την κουλτούρα του Διαδικτύου, όλα εξαρτώνται από τον τρόπο που τη χρησιμοποιείτε.

Όλα αυτά είναι για να εξερευνήσετε περισσότερη χρήση των emoji και ελπίζουμε να βρείτε τα emoji ενδιαφέροντα και κατατοπιστικά. Προκειμένου να σας παρέχουμε ακριβές περιεχόμενο που σχετίζεται με emoji, τα δεδομένα θα ενημερώνονται επίσης. Εάν έχετε περισσότερες συμβουλές σχετικά με το Emoji Tag Cloud, ενημερώστε μας στα παρακάτω σχόλια👇!