Toimia Valikko

Luokat

ihonväri

hiusten-style

sukupuoli

Tunnelma

Versio

Jokainen emoji on erityinen. Kunhan analysoit sen oikein, saat yhdellä silmäyksellä selville monia tietoja, kuten merkitykset, kategoriat, aiheeseen liittyvät aiheet, jopa ainutlaatuisen emojin käytön👀. Kun olemme suorittaneet suuren määrän laskelmia ja analyyseja jokaiselle emojille, saamme vihdoin Emoji Tag Cloudin , tiettyyn emojiin liittyvät avainsanat ja lauseet, ja esitämme sen visuaalisesti uudella tavalla.

🔺Emojien tunnistepilvi [yksisarvinen🦄]

Kuinka saamme tunnisteita?

Kuten me kaikki tiedämme, Twitter on maailmanlaajuisesti kuuluisa sosiaalinen verkostoituminen palvelu, ja ihmiset haluavat twiitata tekstejä hymiöillä ilmaistakseen tunteitaan tai vain koristeena. Suurin osa tunnisteistamme on peräisin twiiteistä ympäri maailmaa. Analysoimme twiittejä 2018.01–2021.11 ja poimimme tunnisteet 812 miljoonasta emojia sisältävästä twiitistä. Sitten käytämme tilastoja ja algoritmeja poimimaan tekstit, jotka ovat erittäin tärkeitä tietylle emojille, ja erottaaksemme kielen. Tämän avulla voimme jopa tietää, kuinka emojia käytetään eri maissa.

Tässä käytämme englanninkielistä sivustoa esimerkkinä. Nämä 2 emojia englanninkielisellä sivullamme: 😎 (hymyilevä kasvot aurinkolaseilla) ja 🦄 (yksisarvinen). Poimimme heille tunnisteet ja saamme sanoja, kuten [cool] tai [nicki] .

Tässä näkyy uusi ongelma❓: Tietysti emojiin liittyy paljon tekstejä, miten sitten valitaan sopivin tagi ja miten ne järjestetään?

Tässä tilanteessa ne sisältävät lisäalgoritmeja.

Ammattimainen tekninen selitys tunnisteen poistamiseen

On olemassa monenlaisia tunnisteiden poimintatekniikoita, joilla on erilaisia tehosteita, kuten abstrakti poiminta artikkeleille ja avainsanakoodausalgoritmit lyhyille teksteille. "Emoji Tag Cloud-Twitter Tag Extraction" perustuu TF-IDF-algoritmiin . Se suoritettiin muunnetulla prosessilla, joka perustui Twitter-tietojen ominaisuuksiin, joka on valvomaton lyhyttekstietikettien poimintaalgoritmi.

Ymmärtämisen helpottamiseksi teemme tässä yhteenvedon tunnisteen purkamisesta kolmeen vaiheeseen.

  • Ensin teemme emoji louhinta ja tekstin puhdistus jokaisen twiittiisi kuukaudessa yksikkönä, poistaa aiheita ja lempinimiä kuten [@xx], [#xx], ja poista titityy URL-osoite. Tekstin puhdistuksen aikana suodatamme myös eri kielten lopetussanat (esimerkiksi poistamme joitain modaalihiukkasia, kuten ah, oh jne.), lyhenteitä, sanamuotoja, isoja kirjaimia ja muita tekijöitä, lopuksi saamme kutakin emojia vastaavat sanan tiheystiedot. .
  • Toiseksi käytämme TF-IDF-tekstin esitysalgoritmia (termifrekvenssi-käänteinen asiakirjataajuus) laskeaksemme alkuperäisen tarran tekstin painon edellisessä vaiheessa saatujen tulosten perusteella.
  • Laskentakaava on: TF-IDF = TF * IDF

    TF (Term Frequency) saadaan jakamalla hymiötä vastaavan sanan esiintymisten määrä hymiötä vastaavien sanojen kokonaismäärällä. IDF on käänteinen asiakirjataajuus, IDF = log( N / N(w) ) , kun taas [N] edustaa hymiöiden kokonaismäärää, [N(w)] edustaa sanan [w] sisältävien emojien määrää.

    🔺Kun sana esiintyy sekä emojiA:ssa että emojiB:ssä, se tarkoittaa, että sana ei ole tarpeeksi edustava ja tämän sanan painoa tulisi vähentää. Kaavasta IDF = log( N / N(w) ), voidaan nähdä, että IDF:n alue 0:n ja positiivisen äärettömän välillä pienenee N(w) kasvaessa.

    Kun termi esiintyy artikkelissa useammin, se tarkoittaa, että termin paino on suurempi. Useimmiten esiintyvät sanat ovat kuitenkin sanoja, jotka ilmaisevat sävyä tai joilla ei ole varsinaista merkitystä, kuten [aww], [oh] tai [RT]. Tällaisten sanojen suodatusta on vaikea välttää, jos vain lajitellaan ja suodatetaan TF-arvon mukaan. Joten IDF:n käänteinen asiakirjanumero otetaan käyttöön rajoitteena, jotta voidaan laskea tarkempi arvo edustamaan tarratekstin painoa.

    Vaiheen 2 lopussa suodatamme merkinnät, jotka ovat yli 15 % emojien kokonaismäärästä.

  • Ensimmäisessä kahdessa vaiheessa lasketut yksiköt ovat kuukausitietoja ja kokonaistieto on neljä vuotta. Viimeisessä vaiheessa teemme toisen kierroksen konsolidoidut tilastolaskelmat kaikille kuukausitiedoille.
  • Muunna lasketut neljän vuoden twiittitiedot muotoon [(sum(tfidf_m) / M) * log(M)] ja laske kunkin tagimerkinnän paino. [sum(tfidf_m)] edustaa termin TF-IDF-arvojen summaa kussakin kuukaudessa, ja [M] edustaa niiden kuukausien lukumäärää, jolloin termi esiintyy.

Tämä on siis emoji-tunnistetietojen likimääräinen laskentamenetelmä. Kun lopulliset tiedot on tiivistetty, tarkistamme ja suodatamme myös manuaalisesti kielen mukaan saadaksemme tarkempia tunnistetuloksia.


Lisäksi tagit käyttävät viitteenä myös CLDR-lyhytnimeä ja CLDR-avainsanoja, jotka ovat alkeellisinta tagitekstiä, mikä tarkoittaa, että näet aina osan näistä sanoista Emoji Tag Cloudissa.

🔺 Kun emoji lähetetään Unicode Consortiumille, sen ehdotuksessa on oltava CLDR-lyhytnimi ja CLDR-avainsanat, joten näiden sanojen tulee huomioida tunnisteen valinta. Emojin [unicorn🦄] tiedot, laitamme sen lyhyen nimen ja osan avainsanoja sen tunnistepilveen.

Kuinka käyttää Emoji Tag Cloud -palveluamme?

Siitä on melko kauan, että julkaisimme Emoji Tag Cloudin. Henkilökohtaisesti uskon, että se on erittäin hauska ja hyödyllinen työkalu tietyn emojin tarkkailuun, joskus voit jopa tietää, mikä ryhmä tai trendaava aihe mieluummin käyttää tätä emojia. Anna minun näyttää sinulle, kuinka käytät Emoji Tag Cloud -palveluamme!

Kuten edellä mainittiin, kunkin tunnistetekstin paino on erilainen. Voit yksinkertaisesti arvioida tunnisteiden ja emojien välisen korrelaation ympyrän koon perusteella (mitä suurempi, sitä suurempi). Tai voit laittaa hiiren ympyrän päälle, näkyviin tulee pieni neliö, jossa on [numero, emojin nimi]. Tässä tilanteessa mitä pienempi numero on, tässä ympyrässä oleva tagi on osuvampi emojiin. Voit myös napsauttaa näitä tageja etsiäksesi muita aiheeseen liittyviä hymiöitä!

Silti käytämme yksisarvisia esimerkkinä. emojin tunnistepilvi [yksisarvinen 🦄] on seuraavanlainen:

Kuten näet, 5 suosituinta tunnistetta 🦄 ovat [unicorn], [nicki], [unicorns], [plt] ja [barbz] .

Sana [yksisarvinen] on tämän emojin CLDR-lyhytnimi, ja loput 4 tunnistetta on kaikki poimittu Twitteristä. [nicki] ja [barbz] liittyvät Nicki Minajiin ja hänen faniryhmäänsä , ja sana [plt] viittaa [Pretty Little Thingiin] , Iso-Britanniassa toimivaan muotikauppiaaseen tai vain tähän lauseeseen. 🦄 on suosittu emoji SNS:ssä ja erittäin edustava emoji Nicki Minaj-faneille. Jos rakastat Nickiä, sinun tulee ehdottomasti käyttää tätä emojia!


Kaiken kaikkiaan käyttämällä Emoji Tag Cloud -palvelua saat helposti selville tiettyyn emojiin liittyvän sisällön, ehkä voit jopa tietää enemmän popkulttuurista ja välttää hämmennystä, kun et tiedä emojin perusmerkitystä ja laajempaa merkitystä. Joskus emojin käytöstä voi tulla sosiaalinen ilmiö (kuten 🥺 Japanissa). Tässä tapauksessa joillekin ihmisille Emoji Tag Cloud on myös loistava työkalu saada tietoa Internet-kulttuurista, kaikki riippuu siitä, kuinka käytät sitä.

Kaikki nämä auttavat tutkimaan emojien käyttöä, ja toivon, että emojit ovat mielenkiintoisia ja informatiivisia. Jotta voimme tarjota sinulle tarkan emojiin liittyvän sisällön, tiedot myös päivittyvät jatkuvasti. Jos sinulla on lisää neuvoja Emoji Tag Cloudista, kerro siitä meille alla olevissa kommenteissa👇!