Çdo emoji është i veçantë. Për sa kohë që e analizoni atë në mënyrën e duhur, mund të zbuloni shumë informacione si kuptimet, kategorinë, temën e lidhur, madje edhe disa përdorime unike të një emoji me një shikim👀. Pasi të kryejmë një sasi të madhe llogaritjesh dhe analizash për çdo emoji, më në fund marrim Emoji Tag Cloud , fjalë kyçe dhe fraza që lidhen me një emoji të veçantë dhe e përfaqësojmë atë në një mënyrë vizuale të re.

🔺Reja e etiketës së emoji-ve [njëbrirësh🦄]

Si marrim etiketa?

Siç e dimë të gjithë, Twitter është një shërbim i famshëm global i rrjeteve sociale dhe njerëzve u pëlqen të postojnë tekste në Twitter me emoji për të shprehur emocionet e tyre ose thjesht si dekorim. Shumica e etiketave tona janë nga tweet-et në të gjithë botën. Ne analizojmë tweet-et nga viti 2018.01 deri në 2021.11 dhe nxjerrim etiketat nga 812 milionë tweet-e që përmbajnë emoji. Më pas ne përdorim statistika dhe algoritme për të zgjedhur tekstet që janë shumë të rëndësishme për një emoji të veçantë dhe për të dalluar gjuhën. Nëpërmjet kësaj, ne madje mund të dimë se si përdoret një emoji në vende të ndryshme.

Këtu ne përdorim faqen në anglisht si shembull. Këto 2 emoji në faqen tonë në anglisht: 😎 (fytyrë e buzëqeshur me syze dielli) dhe 🦄 (njëbrirësh). Ne kryejmë nxjerrjen e etiketave për ta dhe marrim fjalë si [cool] ose [nicki] .

Këtu shfaqet një problem i ri❓: Sigurisht që ka shumë tekste që lidhen me një emoji, pastaj si zgjedhim etiketën më të përshtatshme dhe si t'i rregullojmë ato?

Në këtë situatë, ato përfshijnë algoritme të mëtejshme.

Shpjegimi i teknologjisë profesionale të nxjerrjes së etiketës

Ka shumë lloje të teknologjive të nxjerrjes së etiketave me efekte të ndryshme, të tilla si nxjerrja abstrakte për artikujt dhe algoritmet e etiketimit të fjalëve kyçe për tekste të shkurtra. "Nxjerrja e etiketave të Emoji Cloud-Twitter" bazohet në algoritmin TF-IDF . Ai u krye me një proces të modifikuar bazuar në karakteristikat e të dhënave të Twitter, i cili është një algoritëm i pambikëqyrur i nxjerrjes së etiketës së tekstit të shkurtër.

Për të lehtësuar kuptimin, këtu ne përmbledhim procedurën e nxjerrjes së etiketës në 3 hapa.

  • Së pari, ne kryejmë nxjerrjen e emoji-ve dhe pastrimin e tekstit për çdo tweet me një muaj si njësi, heqim tema dhe pseudonime si [@xx], [#xx] dhe fshijmë URL-në e tweet-it. Gjatë pastrimit të tekstit, ne gjithashtu filtrojmë fjalët ndaluese në gjuhë të ndryshme (për shembull, heqim disa grimca modale si ah, oh, etj.), shkurtesat, format e fjalëve, shkronjat e mëdha dhe faktorë të tjerë, më në fund marrim të dhënat e informacionit të frekuencës së fjalëve që korrespondojnë me secilin emoji .
  • Së dyti, ne përdorim algoritmin e paraqitjes së tekstit TF-IDF (termi frekuencë-frekuenca e kundërt e dokumentit) për të llogaritur peshën fillestare të tekstit të etiketës bazuar në rezultatet e marra në hapin e mëparshëm.
  • Formula e llogaritjes është: TF-IDF = TF * IDF

    TF (Term Frequency) përftohet duke pjesëtuar numrin e shfaqjeve të një fjale që i korrespondon një emoji me numrin total të fjalëve që korrespondojnë me emoji. IDF është Frekuenca e Dokumentit të anasjelltë, IDF = log( N / N(w) ) , ndërsa [N] përfaqëson numrin total të emoji-ve, [N(w)] përfaqëson numrin e emoji-ve që përmbajnë fjalën [w].

    🔺Kur një fjalë shfaqet si në emojiA ashtu edhe në emojiB, do të thotë se fjala nuk është mjaft përfaqësuese dhe pesha e kësaj fjale duhet të reduktohet. Nga formula IDF = log( N / N(w) ), mund të shihet se diapazoni i IDF midis 0 dhe pafundësisë pozitive zvogëlohet me rritjen e N(w).

    Kur një term shfaqet më shumë herë në një artikull, do të thotë se pesha e termit është më e madhe. Megjithatë, fjalët që shfaqen më shpesh janë fjalë që shprehin ton ose nuk kanë asnjë kuptim aktual, si [aww], [oh] ose [RT]. Është e vështirë të shmanget filtrimi i fjalëve të tilla vetëm nëse renditet dhe filtrohet sipas vlerës TF. Pra, numri i anasjelltë i dokumentit IDF futet si një kufizim, në mënyrë që të llogaritet një vlerë më e saktë për të përfaqësuar peshën e tekstit të etiketës.

    Në fund të hapit 2, ne do të filtrojmë hyrjet që shfaqen më shumë se 15% të numrit të përgjithshëm të emoji-ve.

  • Njësitë e llogaritura në dy hapat e parë janë të dhëna mujore dhe të dhënat totale janë katër vjet. Në hapin e fundit, ne do të kryejmë një raund tjetër llogaritjesh statistikore të konsoliduara për të gjitha të dhënat mujore.
  • Konvertoni të dhënat e llogaritura të cicërimave katërvjeçare në formën e [(sum(tfidf_m) / M) * log(M)] dhe llogaritni më tej peshën e çdo hyrjeje të etiketës. [shuma(tfidf_m)] përfaqëson shumën e vlerave TF-IDF të termit në çdo muaj, dhe [M] përfaqëson numrin e muajve në të cilët shfaqet termi.

Këto, pra, janë metoda e përafërt e llogaritjes së të dhënave të etiketave emoji. Pasi të përmblidhen të dhënat përfundimtare, ne gjithashtu do të kontrollojmë dhe filtrojmë manualisht sipas gjuhës në mënyrë që të marrim rezultate më të sakta të etiketave.


Për më tepër, etiketat do të përdorin gjithashtu emrin e shkurtër CLDR dhe fjalë kyçe CLDR për referencë, ato janë teksti më themelor i etiketës, që do të thotë se do t'i shihni gjithmonë disa nga këto fjalë në Renë e Etiketës Emoji.

🔺 Kur një emoji i dorëzohet Konsorciumit Unicode, është e nevojshme të ketë emrin e shkurtër CLDR dhe fjalë kyçe CLDR në propozimin e tij, kështu që këto fjalë duhet të marrin parasysh zgjedhjen e etiketave. Informacioni i emoji [unicorn🦄], ne vendosëm emrin e tij të shkurtër dhe disa fjalë kyçe në renë e etiketimit të tij.

Si të përdorni renë tonë të etiketimit Emoji?

Kishte shumë kohë që publikuam Emoji Tag Cloud. Personalisht, besoj se është një mjet shumë qesharak dhe i dobishëm për të vëzhguar një emoji të veçantë, ndonjëherë mund të dini se cili grup ose temë trendi preferon të përdorë këtë emoji. Më lejoni t'ju tregoj se si të përdorni renë tonë të etiketimit Emoji!

Siç u përmend më lart, pesha e çdo teksti të etiketës është e ndryshme. Ju thjesht mund të gjykoni korrelacionin midis etiketave dhe emoji-ve sipas madhësisë së rrethit (sa më i madh, aq më i rëndësishëm). Ose mund ta vendosni miun në rreth, do të shfaqet një katror i vogël me [numri, teksti i etiketës]. Në këtë situatë, sa më i vogël të jetë numri, etiketa në këtë rreth është më e rëndësishme për emoji-t. Ju gjithashtu mund të klikoni këto etiketa për të kërkuar emoji të tjerë të lidhur!

Megjithatë, ne përdorim njëbrirëshin si shembull. Reja e etiketave e emoji [unicorn 🦄 ] është si më poshtë:

Siç mund ta shihni, 5 etiketat kryesore të 🦄 janë [unicorn], [nicki], [unicorns], [plt] dhe [barbz] .

Fjala [unicorn] është emri i shkurtër CLDR i këtij emoji, dhe pjesa tjetër e 4 etiketave janë nxjerrë të gjitha nga twitter. [nicki] dhe [barbz] janë të lidhur me Nicki Minaj dhe grupin e saj të fansave , dhe fjala [plt] i referohet [Pretty Little Thing] , një shitës me pakicë modës me bazë në Mbretërinë e Bashkuar ose thjesht kësaj fraze. 🦄 është një emoji popullor në SNS dhe një emoji shumë përfaqësues për fansat e Nicki Minaj. Nëse e doni Nickin, patjetër që duhet ta përdorni këtë emoji!


Në përgjithësi, duke përdorur renë tonë të etiketimit të Emoji , mund të zbuloni lehtësisht përmbajtjet e lidhura të një emoji të veçantë, ndoshta mund të dini edhe më shumë për kulturën pop dhe të shmangni sikletin e mosnjohjes së kuptimit bazë dhe të zgjeruar të një emoji. Ndonjëherë përdorimi i një emoji mund të bëhet një fenomen social, siç është ky emoji 🥺 në Japoni. Si një emoji për të shprehur lypjen, ankimin ose dashurinë, kjo fjalë 'ぴえん2020" dhe u bë një emoji trend në të gjithë Japoninë! Në këtë rast, për disa njerëz, Emoji Tag Cloud është gjithashtu një mjet i shkëlqyeshëm për t'u njohur me kulturën e internetit, gjithçka varet nga mënyra se si e përdorni.

Të gjitha këto janë për të eksploruar më shumë përdorimin e emoji-ve dhe shpresojmë që emoji të jenë interesante dhe informuese. Për t'ju ofruar përmbajtje të sakta të lidhura me emoji, të dhënat gjithashtu do të vazhdojnë të përditësohen. Nëse keni ndonjë këshillë më shumë rreth Emoji Tag Cloud, ju lutemi na tregoni në komentet më poshtë👇!