Katra emocijzīme ir īpaša. Kamēr jūs to pareizi analizējat, vienā mirklī varat uzzināt daudz informācijas, piemēram, nozīmes, kategoriju, saistīto tēmu, pat unikālu emocijzīmes lietojumu👀. Pēc tam, kad esam veikuši lielu aprēķinu un analīzi katrai emocijzīmei, mēs beidzot iegūstam Emoji Tag Cloud , atslēgvārdus un frāzes, kas saistītas ar konkrētu emocijzīmi, un attēlojam to vizuāli novatoriskā veidā.

🔺Emoji [vienradzis🦄] tagu mākonis

Kā mēs iegūstam atzīmes?

Kā mēs visi zinām, Twitter ir pasaulē slavens sociālo tīklu pakalpojums, un cilvēkiem patīk čivināt tekstus ar emocijzīmēm, lai paustu savas emocijas vai vienkārši kā dekorācija. Lielākā daļa mūsu atzīmju ir no tvītiem visā pasaulē. Mēs analizējam tvītus no 2018.01. līdz 2021.11. gadam un izņemam atzīmes no 812 miljoniem tvītu, kuros ir emocijzīmes. Pēc tam mēs izmantojam statistiku un algoritmus, lai atlasītu tekstus, kas ir ļoti atbilstoši konkrētai emocijzīmei, un atšķirtu valodu. Pateicoties tam, mēs pat varam uzzināt, kā emocijzīme tiek izmantota dažādās valstīs.

Šeit mēs izmantojam vietni angļu valodā kā piemēru. Šīs 2 emocijzīmes mūsu angļu valodā: 😎 (smaidoša seja ar saulesbrillēm) un 🦄 (vienradzis). Mēs viņiem veicam tagu izvilkšanu un iegūstam tādus vārdus kā [cool] vai [nicki] .

Šeit parādās jauna problēma❓: Protams, ir daudz tekstu, kas saistīti ar emocijzīmēm, kā mēs izvēlamies vispiemērotāko tagu un kā tos sakārtot?

Šajā situācijā tie ietver papildu algoritmus.

Marķējuma ekstrakcijas profesionālās tehnoloģijas skaidrojums

Ir daudz veidu tagu ekstrakcijas tehnoloģijas ar dažādiem efektiem, piemēram, abstraktā izvilkšana rakstiem un atslēgvārdu marķēšanas algoritmi īsiem tekstiem. Mūsu "Emoji Tag Cloud-Twitter tagu ekstrakcija" ir balstīta uz TF-IDF algoritmu . Tas tika veikts ar modificētu procesu, kura pamatā ir Twitter datu raksturlielumi, kas ir nepārraudzīts īsu teksta etiķešu ekstrakcijas algoritms.

Lai atvieglotu izpratni, šeit mēs apkopojam tagu izvilkšanas procedūru 3 darbos.

  • Pirmkārt, mēs veicam emocijzīmju izvilkšanu un teksta tīrīšanu katram tvītam ar vienu mēnesi, noņemam tēmas un segvārdus, piemēram, [@xx], [#xx], un izdzēšam tvīta URL. Teksta tīrīšanas laikā mēs arī filtrējam stopvārdus dažādās valodās (piemēram, noņemam dažas modālas daļiņas, piemēram, ah, oh utt.), saīsinājumus, vārdu formas, lielo burtu lietojumu un citus faktorus, beidzot iegūstam katrai emocijzīmei atbilstošus vārdu biežuma informācijas datus. .
  • Otrkārt, mēs izmantojam TF-IDF (term Frequency-Inverse Document Frequency) teksta attēlojuma algoritmu, lai aprēķinātu sākotnējo etiķetes teksta svaru, pamatojoties uz iepriekšējā darbībā iegūtajiem rezultātiem.
  • Aprēķina formula ir šāda: TF-IDF = TF * IDF

    TF (Term Frequency) iegūst, emocijzīmei atbilstošā vārda atkārtojumu skaitu dalot ar emocijzīmei atbilstošo vārdu kopējo skaitu. IDF ir Inverse Document Frequency, IDF = log( N / N(w) ) , savukārt [N] apzīmē kopējo emocijzīmju skaitu, [N(w)] apzīmē emocijzīmju skaitu, kurās ir vārds [w].

    🔺Ja vārds parādās gan emojiA, gan emojiB, tas nozīmē, ka vārds nav pietiekami reprezentatīvs, un šī vārda svars ir jāsamazina. No formulas IDF = log( N / N(w) ), var redzēt, ka IDF diapazons starp 0 un pozitīvu bezgalību samazinās, palielinoties N(w).

    Ja termins rakstā parādās vairāk reižu, tas nozīmē, ka termina svars ir lielāks. Tomēr vārdi, kas parādās visbiežāk, ir vārdi, kas izsaka toni vai kuriem nav īstas nozīmes, piemēram, [aww], [oh] vai [RT]. Ir grūti izvairīties no šādu vārdu filtrēšanas, ja tikai šķiro un filtrē pēc TF vērtības. Tādējādi IDF apgrieztais dokumenta numurs tiek ieviests kā ierobežojums, lai aprēķinātu precīzāku vērtību, kas atspoguļo etiķetes teksta svaru.

    2. darbības beigās mēs filtrēsim ierakstus, kas parādās vairāk nekā 15% no kopējā emocijzīmju skaita.

  • Pirmajos divos posmos aprēķinātās vienības ir mēneša dati, un kopējie dati ir četri gadi. Pēdējā posmā mēs veiksim vēl vienu konsolidēto statistikas aprēķinu kārtu visiem mēneša datiem.
  • Pārvērtiet aprēķinātos četru gadu tvīta datus formā [(sum(tfidf_m) / M) * log(M)] un tālāk aprēķiniet katra atzīmes ieraksta svaru. [sum(tfidf_m)] apzīmē termiņa TF-IDF vērtību summu katrā mēnesī, un [M] apzīmē mēnešu skaitu, kuros šis termiņš parādās.

Tātad šī ir aptuvenā emocijzīmju atzīmju datu aprēķināšanas metode. Pēc galīgo datu apkopošanas mēs arī manuāli pārbaudīsim un filtrēsim atbilstoši valodai, lai iegūtu precīzākus tagu rezultātus.


Turklāt tagos atsaucei tiks izmantots arī CLDR īsais nosaukums un CLDR atslēgvārdi, kas ir visvienkāršākais tagu teksts, kas nozīmē, ka jūs vienmēr redzēsit dažus no šiem vārdiem Emoji Tag Cloud.

🔺 Kad emocijzīme tiek iesniegta Unicode Consortium, tās priekšlikumā ir jābūt CLDR īsajam nosaukumam un CLDR atslēgvārdiem, tāpēc šie vārdi ir jāņem vērā, izvēloties tagu. Emoji [vienradzis🦄] informāciju, tās īso nosaukumu un dažus atslēgvārdus ievietojam tā tagu mākonī.

Kā izmantot mūsu Emoji Tag Cloud?

Ir pagājis diezgan ilgs laiks, kad mēs izlaidām Emoji Tag Cloud. Personīgi es uzskatu, ka tas ir ļoti smieklīgs un noderīgs rīks, lai novērotu konkrētu emocijzīmi, dažreiz jūs pat varat zināt, kura grupa vai aktuāla tēma dod priekšroku šīs emocijzīmes izmantošanai. Ļaujiet man parādīt, kā izmantot mūsu Emoji Tag Cloud!

Kā minēts iepriekš, katra taga teksta svars ir atšķirīgs. Varat vienkārši novērtēt korelāciju starp tagiem un emocijzīmēm pēc apļa lieluma (jo lielāks, jo atbilstošāks). Vai arī varat novietot peli uz apļa, parādīsies mazs kvadrāts ar [skaitlis, atzīmes teksts]. Šajā situācijā, jo mazāks ir skaitlis, atzīme šajā lokā ir atbilstošāka emocijzīmei. Varat arī noklikšķināt uz šiem tagiem, lai meklētu citas saistītās emocijzīmes!

Tomēr kā piemēru mēs izmantojam vienradzi. emocijzīmju [vienradzis 🦄 ] tagu mākonis ir šāds:

Kā redzat, 🦄 populārākie tagi ir [unicorn], [nicki], [unicorns], [plt] un [barbz] .

Vārds [vienradzis] ir šīs emocijzīmes CLDR īsais nosaukums, un visi pārējie 4 tagi ir iegūti no Twitter. [nicki] un [barbz] ir saistīti ar Nikiju Minaju un viņas fanu grupu , un vārds [plt] attiecas uz [Pretty Little Thing] , Apvienotās Karalistes modes preču mazumtirgotāju vai tikai šo frāzi. 🦄 ir populāra emocijzīme SNS un ļoti reprezentatīva emocijzīme Nicki Minaj faniem. Ja jums patīk Nicki, noteikti izmantojiet šo emocijzīmi!


Kopumā, izmantojot mūsu emocijzīmju tagu mākoni , varat viegli uzzināt konkrētas emocijzīmes saistīto saturu, iespējams, pat uzzināt vairāk par popkultūru un izvairīties no apmulsuma, nezinot emocijzīmju pamata un paplašināto nozīmi. Dažkārt emocijzīmes izmantošana var kļūt par sociālu parādību, piemēram, šī emocijzīme 🥺 Japānā. Kā emocijzīme, lai izteiktu ubagošanu, sūdzību vai piemīlību, šis vārds “ぴえん🥺” ieguva “JC&JK Buzzword Awards 2019”, “2019 Gal Buzzword Award” 2. vietu, pirmo vietu “Instagram Buzzword Award” pirmajā pusē. 2020" un kļuva par modernu emocijzīmi visā Japānā! Šajā gadījumā dažiem cilvēkiem Emoji Tag Cloud ir arī lielisks rīks, lai uzzinātu par interneta kultūru, viss ir atkarīgs no tā, kā jūs to izmantojat.

Tas viss ir paredzēts, lai izpētītu vairāk emocijzīmju lietojuma, un ceru, ka emocijzīmes ir interesantas un informatīvas. Lai sniegtu jums precīzu ar emocijzīmēm saistītu saturu, dati arī tiks atjaunināti. Ja jums ir vēl kādi padomi par Emoji Tag Cloud, lūdzu, paziņojiet mums tālāk esošajos komentāros👇!


Meklēt nesenie Nesen Nesen nav izmantotas emocijzīmes Emoji... Emocijējiet panākumus