Nykyään luodaan yhä enemmän käytännöllisiä ja kiinnostavia emoji-käyttötapoja, esimerkiksi eri emojiluokat yhdistetään yhteen meemiksi tai näennäisesti toisiinsa liittymättömällä emojilla voidaan itse asiassa kuvata samaa merkitystä, mikä saa emojit vähitellen luomaan yhteyden niitä. Haluamme näyttää tämän emojien välisen suhteen visuaalisesti ja antaa käyttäjille syvemmän ymmärryksen emojien käytöstä, joten käytämme koneoppimisalgoritmeja laskeaksemme emojien välisen suhteen ja piirtääksemme tuloksen helposti ymmärrettäväksi kuvaksi, joka on Emoji Relationship. Kaavio .

Mikä on Emoji-suhdekaavio?

On tunnettua, että emojit esitetään yleensä kuvina, mutta emojien ja kuvien välistä suhdetta on mahdotonta selvittää, koska emojien pääasiallinen käyttötarkoitus on välittää tietoa ja tunteita, ne ovat enemmän kuin kieli, joten se tulee olemaan tarkempia tutkia heidän suhdettaan emojien merkityksen ja käytön kautta. Siksi saimme kaikki emojia sisältävät twiitit vuosina 2018–2021, yhteensä 812 miljoonaa twiittiä . Ottaen huomioon, että emojien käyttö on erilaista eri kieliympäristöissä, luokittelimme twiitit kielten mukaan ja laskemme sitten kunkin kielen emojien välisen tekstin samankaltaisuuden koneoppimisalgoritmilla saadaksemme vastaavan Emojin suhdekaavion jokaiselle kielelle.

Kuinka ymmärtää Emoji-suhdekaavio?

Tämä on espanjan emojin suhdekaavio 👉. Punainen laatikko näyttää 9 lähintä emojia, säteen pituus edustaa suhteen astetta, mitä lyhyempi säde, sitä läheisempi suhde. Lisäksi kaaviossa näkyy myös osa muiden emojien suhdekaaviosta. Mustassa laatikossa on suhdekaavio 👆 , ja oranssissa ruudussa on suhdekaavio .

Suhdekaaviossa näkyvät tulokset antavat meille mahdollisuuden ymmärtää paremmin emojien käyttöä. Esimerkiksi näitä kahta hymiötä👈 🥺 on käytetty usein yhdistelmänä 👉 kanssa viime vuosina ilmaisemaan paheksuntaa, ujoutta tai anomista, joten ne näkyvät tässä suhdekaaviossa:

Näitä kahta hymiötä käytetään usein osoittamaan linkkejä, mikä tarkoittaa, että niillä on yhtäläisyyksiä käytössä, joten ne ovat lähellä toisiaan suhdekaaviossa:

Jos perehdyt emoji-suhdekaavioon, voit päivittää käsityksesi joistakin hymiöistä.

Kuinka laskea emojien välinen suhde?

Seuraavaksi annamme sinulle yksityiskohtaisen kuvauksen laskentaprosessista. Se voidaan karkeasti jakaa kolmeen seuraavaan vaiheeseen:

  • Ensin käytämme TF-IDF-algoritmia poimimaan kunkin emojin tagit twiiteistä ja kunkin tagin painon. Tunnisteet viittaavat sanoihin, jotka liittyvät läheisimmin emojiin ja jotka vastaavat emojin ominaisuuksia; ja painot viittaavat tunnisteiden ja emojin välisen suhteen läheisyyteen, mitä suurempi paino, sitä tiiviimpi suhde. Tagien hankinnan algoritmista ja laskentaprosessista olemme kirjoittaneet artikkelin, jossa esittelemme sen yksityiskohtaisesti, voit lukea sen napsauttamalla oikeaa linkkiä: ☁️Emoji Tag Cloud: Auta sinua saamaan enemmän tietoa emojista!
  • Tarrojen hankinnan jälkeen syntyy uusi ongelma. Mitä tulee laskelmiin, me kaikki tiedämme, että yleensä vain numeerisia arvoja voidaan laskea, mutta tunnisteet esitetään tekstinä, joten miten ne voidaan laskea algoritmisesti? Siksi toinen vaiheemme on muuntaa teksti numeroarvoiksi, jotka voidaan laskea—— Vector . Tätä prosessia kutsutaan Word Embeddingiksi . Meidän on ensin luettava suuri määrä twiittidataa käyttämällä word2vec-algoritmia (yksi sanan upotusmenetelmistä), jotta jokainen tekstin sana muunnetaan vektoriksi, sitten saadaan sanan upotusmatriisi, joka koostuu kaikista korkeadimensionaalisista vektoreista. sanoista ja kartoittaa myöhemmin jokainen ensimmäisessä vaiheessa saamaamme tunnistetta vastaava sana korkeaulotteiseksi vektoriksi sanan upotusmatriisin kautta. Olemme siis saaneet tekstistä vektoriksi muuntamisen valmiiksi. Nämä suuriulotteiset vektorit lasketaan analysoimalla tekstin kontekstia, mikä voi hyvin säilyttää kunkin sanan semanttisen tiedon ja varmistaa siten tekstin samankaltaisuuden tarkkuuden. Word2vec-algoritmi on myös selitetty yksityiskohtaisesti blogissamme, jos haluat lisätietoja, voit lukea sen: 🔍Emoji Sentiment Analysis
  • Viimeinen vaihe on laskea tekstin samankaltaisuus emojien välillä. Tekstin samankaltaisuuden laskemiseen yleisesti käytetty algoritmi on VSM (Vector Space Model) . Tämä on yksi yleisimmin käytetyistä samankaltaisuuden laskentamalleista, mutta se saa tuloksia laskemalla kahden tekstin samanaikaisesti esiintyviä sanoja (sanoja, jotka esiintyvät molemmissa teksteissä), mikä ei ole tarkka, kun kohtaa tekstit, joilla on sama merkitys mutta eri sanamuoto. Tämän tilanteen välttämiseksi valitsimme toisen algoritmin -- SCM (Soft Cosine Measure) . Se voi mitata sanojen samankaltaisuuden, joten vaikka kahdella tekstillä ei olisi yhteisiä sanoja, tämä algoritmi voi laskea kahden tekstin samankaltaisuuden arvioimalla sanan samankaltaisuuden. Kun käytämme SCM:ää vektorin mittaamiseen, mitä suurempi arvo saamme, sitä suurempi tekstin samankaltaisuus emojien välillä on, ja mitä suurempi tekstin samankaltaisuus, sitä läheisempi niiden suhde.

Johtopäätös

Suhdekaavion avulla voimme ymmärtää ihmisten tapoja ja mieltymyksiä käyttää emojia sekä tutkia emojien käyttötrendejä. Saatat yllättyä huomatessasi, että jotkin emojit, joita et yhdistäisi toisiinsa, liittyvät itse asiassa hyvin läheisesti toisiinsa, ja tämä voi olla uusi trendikäs hymiöiden käyttötapa, jota et ole vielä tuntenut! Lisäksi, jos sinulla on ehdotuksia, kerro meille kommentissa!


Etsi viimeaikaiset Viimeaikaiset Ei viime aikoina käytetty emoji Emojifioida... Emojifioi menestys