Funkció Menü

Kategóriák

bőrszín

frizurája

nem

Érzés

Változat

Minden hangulatjel különleges. Mindaddig, amíg helyesen elemzi, sok információt megtudhat, például jelentéseket, kategóriákat, kapcsolódó témákat, sőt, egy pillantással az emoji egyedi használatát is👀. Miután rengeteg számítást és elemzést végzünk minden emojin, végre megkapjuk az Emoji Tag Cloud-ot , egy adott hangulatjelhez kapcsolódó kulcsszavakat és kifejezéseket, és újszerű vizuális módon ábrázoljuk.

🔺A hangulatjelek címkefelhője [unikornis🦄]

Hogyan kapunk címkéket?

Mint mindannyian tudjuk, a Twitter egy világhírű közösségi hálózati szolgáltatás, és az emberek szeretnek emojikkal tweetelni érzelmeik kifejezésére vagy csak dekorációként. A legtöbb címkénk a világ minden tájáról származó tweetekből származik. Elemezzük a 2018.01. és 2021.11. közötti tweeteket, és 812 millió olyan tweetből bontjuk ki a címkéket, amelyek hangulatjeleket tartalmaznak. Ezután statisztikák és algoritmusok segítségével kiválasztjuk azokat a szövegeket, amelyek nagyon relevánsak egy adott emoji számára, és megkülönböztetjük a nyelvet. Ezen keresztül azt is megtudhatjuk, hogyan használnak egy hangulatjelet a különböző országokban.

Itt az angol oldalt használjuk példaként. Ez a 2 hangulatjel az angol oldalunkon: 😎 (mosolygó arc napszemüveggel) és 🦄 (unikornis). Címkék kivonatot hajtunk végre nekik, és olyan szavakat kapunk, mint a [cool] vagy [nicki] .

Itt egy új probléma jelenik meg❓: Természetesen sok szöveg kapcsolódik egy hangulatjelhez, akkor hogyan válasszuk ki a legmegfelelőbb címkét, és hogyan rendezzük el őket?

Ebben a helyzetben további algoritmusokat igényelnek.

A címkekivonás professzionális technológiai magyarázata

Sokféle címkekivonási technológia létezik különböző hatásokkal, például cikkekhez absztrakt kivonás, rövid szövegekhez pedig kulcsszócímkéző algoritmusok. Az „Emoji Tag Cloud-Twitter Tag Extraction” szolgáltatásunk a TF-IDF algoritmuson alapul . A Twitter-adatok jellemzői alapján módosított eljárással hajtott végre, amely egy nem felügyelt rövid szöveges címke kinyerési algoritmus.

A megértés megkönnyítése érdekében itt összefoglaljuk a címkekivonás folyamatát 3 lépésben.

  • Először is végre emoji kitermelés és szöveges tisztítás minden tweet egy hónapban, mint egy egység, eltávolítás témák és becenevek, mint a [@xx], [#xx], és törölje a tweet URL-t. A szövegtisztítás során a különböző nyelvű stopszavakat is szűrjük (például eltávolítunk néhány modális részecskét, mint ah, oh stb.), rövidítéseket, szóformákat, nagybetűket és egyéb tényezőket, végül megkapjuk az egyes emojiknak megfelelő szógyakorisági információkat. .
  • Másodszor, a TF-IDF (termi gyakoriság-inverz dokumentumgyakoriság) szövegreprezentációs algoritmust használjuk a kezdeti címkeszöveg súlyának kiszámításához az előző lépésben kapott eredmények alapján.
  • A számítási képlet a következő: TF-IDF = TF * IDF

    A TF-et (Term Frequency) úgy kapjuk meg, hogy egy hangulatjelnek megfelelő szó előfordulási számát elosztjuk a hangulatjelnek megfelelő szavak teljes számával. Az IDF az Inverse Document Frequency, IDF = log( N / N(w) ) , míg az [N] a hangulatjelek teljes számát, az [N(w)] a [w] szót tartalmazó hangulatjelek számát jelenti.

    🔺Ha egy szó az emojiA-ban és az emojiB-ben is megjelenik, az azt jelenti, hogy a szó nem elég reprezentatív, és ennek a szónak a súlyát csökkenteni kell. Az IDF = log( N / N(w) ) képletből látható, hogy az IDF 0 és pozitív végtelen közötti tartománya N(w) növekedésével csökken.

    Ha egy kifejezés többször szerepel egy cikkben, az azt jelenti, hogy a kifejezés súlya nagyobb. Azonban a leggyakrabban olyan szavak jelennek meg, amelyek hangot fejeznek ki, vagy nincs tényleges jelentésük, például [aww], [oh] vagy [RT]. Nehéz elkerülni az ilyen szavak szűrését, ha csak a TF érték alapján rendezünk és szűrünk. Tehát az IDF inverz dokumentumszáma kényszerként kerül bevezetésre, hogy pontosabb értéket számítsunk ki a címke szövegének súlyához.

    A 2. lépés végén kiszűrjük azokat a bejegyzéseket, amelyek a hangulatjelek teljes számának több mint 15%-át teszik ki.

  • Az első két lépésben számított mértékegységek havi adatok, az összesített adat négy év. Az utolsó lépésben az összes havi adaton egy újabb konszolidált statisztikai számítást végzünk.
  • Konvertálja a kiszámított négyéves tweetadatokat [(sum(tfidf_m) / M) * log(M)] formátumba , és számítsa tovább az egyes címkebejegyzések súlyát. [sum(tfidf_m)] a futamidő TF-IDF értékeinek összegét jelenti minden hónapban, az [M] pedig azoknak a hónapoknak a számát, amelyekben a futamidő megjelenik.

Ezek tehát az emoji címkék adatainak hozzávetőleges számítási módszerei. A végső adatok összesítése után manuálisan is ellenőrizzük és szűrjük a nyelv szerint, hogy pontosabb címkeeredményeket kapjunk.


Ezenkívül a címkék CLDR rövid nevet és CLDR kulcsszavakat is használnak referenciaként, ezek a legalapvetőbb címkeszövegek, ami azt jelenti, hogy mindig látni fogja ezeket a szavakat az Emoji Tag Cloudban.

🔺 Amikor egy hangulatjelet beküldenek a Unicode Consortiumnak, akkor az ajánlatban szerepelnie kell a CLDR rövid névnek és a CLDR kulcsszavaknak, ezért ezeknek a szavaknak figyelembe kell venniük a címkeválasztást. Az emoji [unicorn🦄] információit, rövid nevét és néhány kulcsszót a címkefelhőbe helyeztük.

Hogyan használjuk az Emoji címkefelhőt?

Már jó ideje kiadtuk az Emoji Tag Cloudot. Személy szerint úgy gondolom, hogy ez egy nagyon vicces és hasznos eszköz egy adott hangulatjel megfigyelésére, néha még azt is tudni lehet, hogy melyik csoport vagy felkapott téma használja ezt az emojit. Hadd mutassam meg az Emoji Tag Cloud használatát!

Mint fentebb említettük, az egyes címkeszövegek súlya eltérő. Egyszerűen megítélheti a címkék és az emoji közötti összefüggést a kör mérete alapján (minél nagyobb, annál relevánsabb). Vagy ráteheti az egeret a körre, megjelenik egy kis négyzet, amelyen [szám, hangulatjel neve] jelenik meg. Ebben a helyzetben minél kisebb a szám, a körben lévő címke relevánsabb az emoji számára. Ezekre a címkékre kattintva más kapcsolódó hangulatjelekre is kereshet!

Ennek ellenére az egyszarvút használjuk példaként. az emoji [unikornis 🦄 ] címkefelhője az alábbi:

Amint látja, a 🦄 top 5 címkéje a [unicorn], [nicki], [unicorns], [plt] és [barbz] .

Az [unicorn] szó ennek az emojinak a CLDR rövid neve, a többi 4 címke pedig mind a Twitterről származik. A [nicki] és a [barbz] Nicki Minajhoz és rajongói csoportjához kapcsolódnak, a [plt] szó pedig a [Pretty Little Thing] -re, az Egyesült Királyságbeli divatkereskedésre vagy csak erre a kifejezésre utal. 🦄 egy népszerű emoji az SNS-ben, és egy nagyon reprezentatív emoji a Nicki Minaj rajongók számára. Ha szereted Nickit, feltétlenül használd ezt az emojit!


Összességében az Emoji Tag Cloud használatával könnyedén megtudhatja egy adott emoji kapcsolódó tartalmát, esetleg többet megtudhat a popkultúráról, és elkerülheti azt a kínos helyzetet, hogy nem ismeri az emoji alapvető és kiterjesztett jelentését. Néha az emoji használata társadalmi jelenséggé válhat (például 🥺 Japánban). Ebben az esetben néhány ember számára az Emoji Tag Cloud nagyszerű eszköz az internetes kultúra megismerésére, minden attól függ, hogyan használja.

Mindezek célja az emojik további felhasználásának felfedezése, és reméljük, hogy érdekesnek és informatívnak találja az emojikat. Annak érdekében, hogy pontos hangulatjelekkel kapcsolatos tartalmakat biztosítsunk, az adatok folyamatosan frissülnek. Ha további tanácsai vannak az Emoji Tag Clouddal kapcsolatban, kérjük, ossza meg velünk az alábbi megjegyzésekben👇!