Әрбір эмодзи ерекше. Сіз оны дұрыс талдасаңыз, мағыналар, санат, қатысты тақырып, тіпті эмодзидің кейбір ерекше қолданылуы сияқты көптеген ақпаратты бір қарағанда біле аласыз👀. Әрбір эмодзиге үлкен көлемдегі есептеулер мен талдауларды орындағаннан кейін біз эмодзи тегтерінің бұлтын , белгілі бір эмодзиге қатысты кілт сөздер мен сөз тіркестерін аламыз және оны жаңашыл көрнекі түрде көрсетеміз.

🔺 Эмодзилердің тегтер бұлты [бірмүйіз🦄]

Біз тегтерді қалай аламыз?

Барлығымыз білетіндей, Twitter - әлемге әйгілі әлеуметтік желі қызметі және адамдар эмоцияларын білдіру үшін немесе жай ғана безендіру ретінде эмодзилері бар мәтіндерді твиттерде жазғанды ұнатады. Біздің тегтеріміздің көпшілігі бүкіл әлемдегі твиттерден алынған. Біз 2018.01 және 2021.11 аралығындағы твиттерді талдаймыз және эмодзилері бар 812 миллион твиттерден тегтерді шығарамыз. Содан кейін біз белгілі бір эмодзиге өте сәйкес келетін мәтіндерді таңдау және тілді ажырату үшін статистика мен алгоритмдерді қолданамыз. Осы арқылы біз эмодзидің әртүрлі елдерде қалай қолданылатынын біле аламыз.

Мұнда мысал ретінде ағылшын сайтын қолданамыз. Бұл 2 біздің ағылшын бетінде эмодзиларды: 😎 (Көзілдірік бар күлімсіреген бет) және 🦄 (Unicorn). Біз оларға тегтерді шығарып, [cool] немесе [nicki] сияқты сөздерді аламыз.

Мұнда жаңа мәселе шығады❓: Әрине, эмодзиге қатысты көптеген мәтіндер бар, содан кейін біз ең қолайлы тегті қалай таңдаймыз және оларды қалай реттеуге болады?

Бұл жағдайда олар қосымша алгоритмдерді қамтиды.

Тегтерді алудың кәсіби технологиясын түсіндіру

Әртүрлі әсерлері бар тегтерді шығару технологияларының көптеген түрлері бар, мысалы, мақалалар үшін дерексіз шығару және қысқа мәтіндер үшін кілт сөздерді белгілеу алгоритмдері. Біздің "Эмоджи тегін бұлт-Twitter тегтерін шығару" TF-IDF алгоритміне негізделген. Ол бақыланбайтын қысқа мәтіндік жапсырманы шығару алгоритмі болып табылатын Twitter деректерінің сипаттамаларына негізделген өзгертілген процесс арқылы жүзеге асырылады.

Түсінуді жеңілдету үшін біз мұнда тегтерді шығару процедурасын 3 қадамға қысқартамыз.

  • Біріншіден, біз эмодзилерді шығаруды және әрбір твит үшін бір айдың ішінде мәтінді тазалауды орындаймыз, [@xx], [#xx] сияқты тақырыптар мен бүркеншік аттарды алып тастаймыз және твит URL мекенжайын жоямыз. Мәтінді тазалау кезінде біз әр түрлі тілдердегі тоқтату сөздерді сүзгіден өткіземіз (мысалы, кейбір модальды бөлшектерді алып тастаңыз, мысалы, ah, oh және т. .
  • Екіншіден, алдыңғы қадамда алынған нәтижелер негізінде бастапқы белгі мәтінінің салмағын есептеу үшін TF-IDF (термин жиілігі-кері құжат жиілігі) мәтінді көрсету алгоритмін қолданамыз.
  • Есептеу формуласы: TF-IDF = TF * IDF

    TF (Термин жиілігі) эмодзиге сәйкес келетін сөздің қайталану санын эмодзиге сәйкес келетін сөздердің жалпы санына бөлу арқылы алынады. IDF – кері құжат жиілігі, IDF = log( N / N(w) ) , ал [N] эмодзилердің жалпы санын, [N(w)] құрамында [w] сөзі бар эмодзилер санын білдіреді.

    🔺Сөз эмодзиАда да, эмодзи В-де де пайда болса, бұл сөздің жеткілікті өкілдік емес екенін білдіреді және бұл сөздің салмағын азайту керек. IDF = log( N / N(w) ) формуласынан 0 мен оң шексіздік арасындағы IDF диапазоны N(w) артқан сайын төмендейтінін көруге болады.

    Мақалада термин көбірек кездессе, бұл терминнің салмағының артқанын білдіреді. Дегенмен, жиі кездесетін сөздер - [aww], [oh] немесе [RT] сияқты реңкті білдіретін немесе нақты мағынасы жоқ сөздер. Тек ТФ мәні бойынша сұрыптап, сүзіп отырса, мұндай сөздерді сүзуден аулақ болу қиын. Осылайша, IDF кері құжат нөмірі жапсырма мәтінінің салмағын көрсету үшін дәлірек мәнді есептеу үшін шектеу ретінде енгізіледі.

    2-қадамның соңында эмодзилердің жалпы санының 15%-дан астамы пайда болатын жазбаларды сүзгіден өткіземіз.

  • Алғашқы екі қадамда есептелген бірліктер айлық деректер болып табылады, ал жалпы деректер төрт жыл. Соңғы қадамда біз барлық айлық деректер бойынша шоғырландырылған статистикалық есептеулердің кезекті айналымын орындаймыз.
  • Есептелген төрт жылдық твит деректерін [(sum(tfidf_m) / M) * log(M)] пішіміне түрлендіріңіз және әр тег жазбасының салмағын одан әрі есептеңіз. [sum(tfidf_m)] әр айдағы терминнің TF-IDF мәндерінің қосындысын білдіреді және [M] термин пайда болатын айлар санын білдіреді.

Демек, бұл эмодзи тег деректерінің шамамен есептеу әдісі. Соңғы деректер жинақталғаннан кейін біз тег нәтижелерін дәлірек алу үшін тілге сәйкес қолмен тексереміз және сүземіз.


Бұған қоса, тегтер анықтама үшін CLDR қысқа атауы мен CLDR кілт сөздерін де пайдаланады, олар ең негізгі тег мәтіні болып табылады, яғни эмодзи тегтер бұлтында осы сөздердің кейбірін әрқашан көресіз.

🔺 Эмодзи Юникод консорциумына жіберілген кезде оның ұсынысында CLDR қысқа атауы мен CLDR кілт сөздері болуы керек, сондықтан бұл сөздер тег таңдауда ескерілуі керек. Эмодзилер [бірмүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді мүйізді сөздерді біз оның тегтер бұлтына енгіземіз.

Эмодзи тегтер бұлтын қалай пайдалануға болады?

Эмодзи тегтер бұлтын шығарғанымызға біраз уақыт болды. Жеке менің ойымша, бұл белгілі бір эмодзиді байқаудың өте күлкілі және пайдалы құралы, кейде сіз бұл эмодзиді қай топтың немесе тренд тақырыбының пайдаланғысы келетінін біле аласыз. Сізге эмодзи тегтер бұлтын қалай пайдалану керектігін көрсетуге рұқсат етіңіздер!

Жоғарыда айтылғандай, әрбір тег мәтінінің салмағы әртүрлі. Сіз жай ғана тегтер мен эмодзи арасындағы корреляцияны шеңбер өлшемі бойынша бағалай аласыз (үлкенірек, соғұрлым сәйкес келеді). Немесе тінтуірді шеңберге қоюға болады, онда [сан, тег мәтіні] көрсетілген шағын шаршы пайда болады. Бұл жағдайда сан неғұрлым аз болса, осы шеңбердегі тег эмодзиге көбірек сәйкес келеді. Басқа қатысты эмодзилерді іздеу үшін осы тегтерді басуға болады!

Дегенмен, біз мысал ретінде бір мүйізді пайдаланамыз. Эмодзилердің тегтер бұлты [ бірмүйіз 🦄 ] төмендегідей:

Көріп отырғаныңыздай, 🦄 топ-5 тегтері [uncorn], [nicki], [uncorns], [plt] және [barbz] болып табылады .

Word [uncon] — бұл эмодзидің CLDR қысқаша атауы, ал қалған 4 тегтің барлығы твиттерден алынған. [nicki] және [barbz] Никки Минажға және оның жанкүйерлер тобына қатысты , ал [plt] сөзі Ұлыбританияда орналасқан сән сатушысы [Pretty Little Thing] немесе осы сөз тіркесіне қатысты. 🦄 - SNS жүйесіндегі танымал эмодзи және Никки Минаж жанкүйерлері үшін өте маңызды эмодзи. Егер сіз Никкиді жақсы көрсеңіз, бұл эмодзиді пайдалануыңыз керек!


Тұтастай алғанда, эмодзи тегтерінің бұлтын пайдалану арқылы белгілі бір эмодзиге қатысты мазмұнды оңай табуға болады, мүмкін сіз поп-мәдениет туралы көбірек білуге және эмодзидің негізгі және кеңейтілген мағынасын білмеуден ұялудан аулақ бола аласыз. Кейде эмодзиді қолдану Жапониядағы осы эмодзи 🥺 сияқты әлеуметтік құбылысқа айналуы мүмкін. Өтініш, реніш немесе сүйкімділікті білдіретін эмодзи ретінде бұл 'ぴえん🥺' сөзі "JC&JK Buzzword Awards 2019'", "2019 Gal Buzzword Award" 2-орын, бірінші жартыжылдықтың бірінші жартысы үшін "Instagram Buzzword Award" жүлделерін жеңіп алды. 2020» және бүкіл Жапонияда тренд эмодзиге айналды! Бұл жағдайда кейбір адамдар үшін Emoji Tag Cloud интернет мәдениеті туралы білудің тамаша құралы болып табылады, барлығы оны қалай пайдаланатыныңызға байланысты.

Мұның бәрі эмодзилерді көбірек пайдалануды зерттеу үшін және эмодзилерді қызықты және ақпараттандырады деп үміттенеміз. Сізге эмодзилерге қатысты нақты мазмұнды қамтамасыз ету үшін деректер де жаңартылып отырады. Emoji Tag Cloud туралы қосымша кеңесіңіз болса, төмендегі түсініктемелерде бізге хабарлаңыз👇!