Funkció Menü

Kategóriák

bőrszín

frizurája

nem

Érzés

Változat

Manapság egyre praktikusabb és érdekesebb emoji-felhasználás jön létre, például az emojik különböző kategóriáit kombinálják majd egy mémmé, vagy a látszólag egymáshoz nem kapcsolódó emojik is használhatók ugyanazon jelentés leírására, amitől az emoji fokozatosan kapcsolatot teremt őket. Szeretnénk vizuálisan bemutatni az emojik közötti kapcsolatot, és lehetővé tenni a felhasználók számára, hogy mélyebben megértsék az emoji-használatot, ezért gépi tanulási algoritmusokat használunk az emojik közötti kapcsolat kiszámításához, és az eredményt egy könnyen érthető képbe rajzoljuk, ami az Emoji kapcsolat. Grafikon .

Mi az az Emoji kapcsolati grafikon?

Köztudott, hogy az emojikat általában képként jelenítik meg, de lehetetlen kitalálni az emoji és a kép kapcsolatát, mivel az emojik fő felhasználási módja az információk és érzelmek közvetítése, inkább nyelvhez hasonlítanak, így lesz pontosabb kapcsolatuk felfedezéséhez az emoji jelentésén és használatán keresztül. Ezért 2018 és 2021 között megkaptuk az összes emojit tartalmazó tweetet, összesen 812 millió tweetet . Figyelembe véve, hogy a hangulatjelek használata eltérő lesz a különböző nyelvi környezetekben, a tweeteket nyelv szerint osztályoztuk, majd gépi tanulási algoritmussal kiszámítottuk az emojik közötti Szöveghasonlóságot minden nyelven, hogy megkapjuk a megfelelő hangulatjel-kapcsolati grafikont minden nyelvhez.

Hogyan lehet megérteni az Emoji kapcsolati grafikont?

Ez a👉 emoji kapcsolati grafikonja spanyolul. A piros doboz a hozzá legközelebb eső 9 emojit mutatja, a sugár hossza a kapcsolat mértékét jelzi, minél rövidebb a sugár, annál szorosabb a kapcsolat. Ezenkívül a grafikon más hangulatjelek kapcsolati diagramjának egy részét is mutatja. A fekete dobozban a 👆, a narancssárga mezőben pedig a kapcsolati grafikonja látható.

A kapcsolati grafikonon megjelenő eredmények lehetővé teszik számunkra, hogy jobban megértsük az emojik használatát. Például ezt a két hangulatjelet 👈 🥺 az elmúlt években gyakran használták a 👉 kombinációjaként a sértett, félénk vagy könyörgő kifejezés kifejezésére, ezért jelennek meg ezen a kapcsolati diagramon:

Ezt a két hangulatjelet gyakran használják hivatkozások jelzésére, ami azt jelenti, hogy használatukban hasonlóak, így közel állnak egymáshoz a kapcsolati grafikonon:

Ha belemélyed a hangulatjelek kapcsolati táblázatába, felfrissítheti néhány hangulatjelről alkotott képét.

Hogyan lehet kiszámítani a hangulatjelek közötti kapcsolatot?

A továbbiakban részletes leírást adunk a számítási folyamatról. Nagyjából a következő három lépésre osztható:

  • Először is, a TF-IDF algoritmust használjuk, hogy kivonjuk az egyes hangulatjelek címkéit a tweetekből, és az egyes címkéknek megfelelő súlyt. A címkék azokra a szavakra utalnak, amelyek a legszorosabb kapcsolatban állnak az emojikkal, és amelyek egyenértékűek az emoji jellemzőivel; a súlyok pedig a címkék és az emoji közötti kapcsolat szorosságára utalnak, minél nagyobb a súly, annál szorosabb a kapcsolat. A címkék beszerzésének algoritmusáról és számítási folyamatáról írtunk egy cikket annak részletes bemutatására, a jobb oldali linkre kattintva elolvashatod: ☁️Emoji Tag Cloud: Segíts, hogy jobban megismerd az Emoji-t!
  • A címkék beszerzése után új probléma adódik. Ha a számításokról van szó, mindannyian tudjuk, hogy általában csak számértékek számíthatók ki, de a címkék szövegként jelennek meg, tehát hogyan lehet algoritmikusan kiszámítani? Ezért a második lépésünk az, hogy a szöveget a kiszámítható számértékekké alakítsuk át—— Vector . Ezt a folyamatot Word-beágyazásnak nevezik. Először nagy mennyiségű tweet adatot kell beolvasnunk a word2vec algoritmus (a szóbeágyazás egyik módszere) segítségével, hogy a szövegben lévő minden egyes szót vektorokká alakítsunk, majd megkapjuk az összes nagy dimenziós vektorból álló szóbeágyazó mátrixot. szavakból, majd később az első lépésben kapott minden egyes címkének megfelelő szót leképezünk egy nagy dimenziós vektorba a szóbeágyazó mátrixon keresztül. Ezzel befejeztük a szöveg-vektor átalakítást. Ezeket a nagy dimenziós vektorokat a szöveg kontextusának elemzésével számítják ki, ami jól megőrzi az egyes szavak szemantikai információit, és így biztosítja a szöveg hasonlóságának pontosságát. A word2vec algoritmust a blogunkban is részletesen ismertetjük, ha további részletekre vágysz, akkor elolvashatod: 🔍Emoji hangulatelemzés
  • Az utolsó lépés az emojik közötti szöveghasonlóság kiszámítása. A szöveghasonlóság kiszámítására általánosan használt algoritmus a VSM (Vector Space Model) . Ez az egyik legszélesebb körben használt hasonlóságszámítási modell, de két szöveg együtt előforduló szavainak (mindkét szövegben előforduló szavak) kiszámításával kap eredményeket, ami nem pontos, ha azonos jelentésű, de eltérő megfogalmazású szövegekkel találkozunk. ennek elkerülésére egy másik algoritmust választottunk – SCM (Soft Cosine Measure) . Mérni tudja a szavak közötti hasonlóságot, így ha két szövegben nincs is közös szó, ez az algoritmus ki tudja számítani két szöveg hasonlóságát a szóhasonlóság kiértékelésével. Miután SCM-et használunk a vektor mérésére, minél nagyobb értéket kapunk, annál nagyobb a szöveghasonlóság a hangulatjelek között, és minél nagyobb a szöveghasonlóság, annál szorosabb a kapcsolatuk.

Következtetés

A kapcsolati grafikonon keresztül megérthetjük az emberek hangulatjel-használati szokásait és preferenciáit, valamint feltárhatjuk az emoji-használati trendeket. Meglepődhet, ha azt tapasztalja, hogy néhány hangulatjel, amelyet nem társít egymáshoz, valójában nagyon szorosan kapcsolódik egymáshoz, és ez az emojik új, trendi felhasználása lehet, amelyet még nem ismert! Továbbá, ha bármilyen javaslata van, kérjük, írja meg nekünk kommentben!