Elke emoji is speciaal. Zolang je het op de juiste manier analyseert, kun je in één oogopslag veel informatie vinden, zoals betekenissen, categorie, gerelateerd onderwerp, zelfs een uniek gebruik van een emoji👀. Nadat we een groot aantal berekeningen en analyses hebben uitgevoerd voor elke emoji, krijgen we eindelijk Emoji Tag Cloud , trefwoorden en woordgroepen die verband houden met een specifieke emoji, en deze op een nieuwe visuele manier weergeven.

🔺De Tag Cloud van emoji [eenhoorn🦄]

Hoe komen we aan tags?

Zoals we allemaal weten, is Twitter een wereldwijd bekende sociale netwerkservice en mensen tweeten graag teksten met emoji's om hun emoties te uiten of gewoon als decoratie. De meeste van onze tags zijn afkomstig van tweets over de hele wereld. We analyseren tweets van 2018.01 tot 2021.11 en extraheren de tags uit 812 miljoen tweets die emoji's bevatten. Vervolgens selecteren we met behulp van statistieken en algoritmen de teksten die zeer relevant zijn voor een specifieke emoji, en onderscheiden we de taal. Hierdoor kunnen we zelfs weten hoe een emoji in verschillende landen wordt gebruikt.

Hier gebruiken we de Engelse site als voorbeeld. Deze 2 emoji's op onze engelse pagina: 😎 (lachend gezicht met zonnebril) en 🦄 (eenhoorn). We voeren tag-extractie voor ze uit en krijgen woorden als [cool] of [nicki] .

Hier komt een nieuw probleem naar voren❓: natuurlijk zijn er veel teksten die verband houden met een emoji, hoe kiezen we dan de meest geschikte tag en hoe rangschikken we ze?

In deze situatie betrekken ze verdere algoritmen.

De professionele technologische uitleg van tag-extractie

Er zijn veel soorten tag-extractietechnologieën met verschillende effecten, zoals abstracte extractie voor artikelen en algoritmen voor het taggen van trefwoorden voor korte teksten. Onze "Emoji Tag Cloud-Twitter Tag Extraction" is gebaseerd op het TF-IDF-algoritme . Het is uitgevoerd met een aangepast proces op basis van de kenmerken van de Twitter-gegevens, een niet-gecontroleerd extractiealgoritme voor korte tekstlabels.

Om het begrip te vergemakkelijken, vatten we hier de procedure voor het extraheren van tags samen in 3 stappen.

  • Eerst voeren we emoji extractie en tekst reiniging voor elke tweet met een maand als een eenheid, verwijderen onderwerpen en bijnamen als [@xx], [#XX], en de tweet URL te verwijderen. Tijdens het opschonen van de tekst filteren we ook stopwoorden in verschillende talen (verwijder bijvoorbeeld enkele modale deeltjes zoals ah, oh, enz.), Afkortingen, woordvormen, hoofdletters en andere factoren, en krijgen uiteindelijk informatie over de woordfrequentie die overeenkomt met elke emoji .
  • Ten tweede gebruiken we het TF-IDF (term frequency-inverse document frequency) tekstrepresentatie-algoritme om een initieel labeltekstgewicht te berekenen op basis van de resultaten die in de vorige stap zijn verkregen.
  • De berekeningsformule is: TF-IDF = TF * IDF

    TF (Term Frequency) wordt verkregen door het aantal keren dat een woord dat overeenkomt met een emoji te delen door het totale aantal woorden dat overeenkomt met de emoji. IDF is Inverse Document Frequency, IDF = log(N / N(w)) , terwijl [N] het totale aantal emoji's vertegenwoordigt, [N(w)] het aantal emoji's met het woord [w] vertegenwoordigt.

    🔺Als een woord zowel in emojiA als emojiB voorkomt, betekent dit dat het woord niet representatief genoeg is en dat het gewicht van dit woord moet worden verminderd. Uit de formule IDF = log( N / N(w) ), blijkt dat het bereik van IDF tussen 0 en positief oneindig afneemt met de toename van N(w).

    Wanneer een term vaker voorkomt in een artikel, betekent dit dat het gewicht van de term groter is. De woorden die echter het vaakst voorkomen, zijn woorden die toon uitdrukken of geen werkelijke betekenis hebben, zoals [aww], [oh] of [RT]. Het is moeilijk om het filteren van dergelijke woorden te vermijden, alleen al door te sorteren en te filteren op de TF-waarde. Dus het inverse documentnummer van de IDF wordt geïntroduceerd als een beperking, om een nauwkeuriger waarde te berekenen om het gewicht van de labeltekst weer te geven.

    Aan het einde van stap 2 filteren we de items die meer dan 15% van het totale aantal emoji's bevatten.

  • De eenheden die in de eerste twee stappen worden berekend, zijn maandelijkse gegevens en de totale gegevens zijn vier jaar. Bij de laatste stap zullen we nog een ronde van geconsolideerde statistische berekeningen uitvoeren op alle maandelijkse gegevens.
  • Zet de berekende tweetgegevens van vier jaar om in de vorm van [(sum(tfidf_m) / M) * log(M)] en bereken verder het gewicht van elke tagvermelding. [sum(tfidf_m)] staat voor de som van de TF-IDF-waarden van de looptijd in elke maand, en [M] staat voor het aantal maanden waarin de looptijd voorkomt.

Dit is dan de geschatte berekeningsmethode van emoji-taggegevens. Nadat de definitieve gegevens zijn samengevat, zullen we ook handmatig controleren en filteren op de taal om nauwkeurigere tagresultaten te krijgen.


Bovendien gebruiken de tags ook de korte CLDR-naam en CLDR-trefwoorden ter referentie. Dit is de meest elementaire tagtekst, wat betekent dat u enkele van deze woorden altijd in de Emoji Tag Cloud zult zien.

🔺 Wanneer een emoji wordt ingediend bij Unicode Consortium, is het noodzakelijk om een korte CLDR-naam en CLDR-sleutelwoorden in het voorstel te hebben, dus bij het kiezen van deze woorden moet rekening worden gehouden met de tagkeuze. De informatie van emoji [eenhoorn🦄], we hebben de korte naam en enkele trefwoorden in de tag cloud geplaatst.

Hoe gebruik je onze Emoji Tag Cloud?

Het is lang geleden dat we de Emoji Tag Cloud hebben uitgebracht. Persoonlijk vind ik het een erg grappig en handig hulpmiddel om een specifieke emoji te observeren, soms kun je zelfs weten welke groep of trending topic deze emoji het liefst gebruikt. Ik zal je laten zien hoe je onze Emoji Tag Cloud kunt gebruiken!

Zoals hierboven vermeld, is het gewicht van elke tagtekst anders. Je kunt de correlatie tussen tags en emoji eenvoudig beoordelen aan de hand van de grootte van de cirkel (hoe groter, hoe relevanter). Of u kunt uw muis op de cirkel plaatsen, er verschijnt een klein vierkantje met [nummer, tagtekst]. In deze situatie, hoe kleiner het getal, de tag in deze cirkel is relevanter voor de emoji. Je kunt ook op deze tags klikken om andere gerelateerde emoji's te zoeken!

Toch gebruiken we eenhoorn als voorbeeld. de Tag Cloud van emoji [eenhoorn 🦄 ] ziet er als volgt uit:

Zoals je kunt zien, zijn de Top 5 tags van 🦄 [unicorn], [nicki], [unicorns], [plt] en [barbz] .

Woord [eenhoorn] is de korte CLDR-naam van deze emoji, en de rest van de 4 tags zijn allemaal geëxtraheerd uit Twitter. [nicki] en [barbz] zijn verwant aan Nicki Minaj en haar fangroep, en woord [plt] verwijst naar [Pretty Little Thing] , een in het Verenigd Koninkrijk gevestigde moderetailer of alleen deze zin. 🦄 is een populaire emoji in SNS en een zeer representatieve emoji voor Nicki Minaj-fans. Als je van Nicki houdt, moet je deze emoji zeker gebruiken!


Al met al, door onze Emoji Tag Cloud te gebruiken , kun je gemakkelijk de gerelateerde inhoud van een specifieke emoji vinden, misschien kun je zelfs meer weten over de popcultuur en voorkomen dat je je schaamt omdat je de basis- en uitgebreide betekenis van een emoji niet kent. Soms kan het gebruik van een emoji een sociaal fenomeen worden, zoals deze emoji 🥺 in Japan. Als emoji om bedelen, grieven of lieflijkheid uit te drukken, won dit woord 'ぴえん🥺' de "JC&JK Buzzword Awards 2019'", "2019 Gal Buzzword Award" 2e plaats, de eerste plaats van "Instagram Buzzword Award voor de eerste helft van 2020" en werd een trend-emoji in heel Japan! In dit geval is Emoji Tag Cloud voor sommige mensen ook een geweldig hulpmiddel om meer te weten te komen over internetcultuur, allemaal afhankelijk van hoe je het gebruikt.

Dit alles is bedoeld om meer gebruik van emoji te ontdekken, en ik hoop dat je emoji interessant en informatief vindt. Om u nauwkeurige emoji-gerelateerde inhoud te bieden, worden de gegevens ook steeds bijgewerkt. Als je nog meer advies hebt over Emoji Tag Cloud, laat het ons dan weten in de reacties hieronder👇!


Zoeken recent Recente Geen recent gebruik emoji Emojify... Emojify-succes