Қазіргі уақытта эмодзилердің көбірек практикалық және қызықты қолданыстары жасалуда, мысалы, эмодзилердің әртүрлі санаттары Мемге айналу үшін біріктіріледі немесе бір-бірімен байланысты емес болып көрінетін эмодзилер шын мәнінде сол мағынаны сипаттау үшін пайдаланылуы мүмкін, бұл эмодзилерді біртіндеп арасындағы байланысты тудырады. олар. Біз эмодзилер арасындағы бұл қатынасты визуалды түрде көрсеткіміз келеді және пайдаланушыларға эмодзилерді пайдалануды тереңірек түсінуге мүмкіндік бергіміз келеді, сондықтан эмодзилер арасындағы қатынасты есептеу және нәтижені түсінуге оңай суретке салу үшін машиналық оқыту алгоритмдерін қолданамыз, бұл эмодзи қатынасы. График .

Эмодзи қарым-қатынас графигі дегеніміз не?

Эмодзилер әдетте сурет ретінде ұсынылатыны белгілі, бірақ эмодзилердің суреттермен байланысын анықтау мүмкін емес, өйткені эмодзилердің негізгі қолданылуы ақпарат пен эмоцияларды жеткізу болып табылады, олар тілге көбірек ұқсайды, сондықтан ол эмодзилердің мағынасы мен қолданылуы арқылы олардың қарым-қатынасын зерттеу үшін дәлірек. Осылайша, біз эмодзилері бар барлық твиттерді 2018 жылдан 2021 жылға дейін алдық, жалпы саны 812 миллион твиттер . Эмодзилердің әртүрлі тілдік орталарда қолданылуы әртүрлі болатынын ескере отырып, біз твиттерді тіл бойынша жіктедік, содан кейін әрбір тілге сәйкес эмодзилер қатынасының графигін алу үшін машиналық оқыту алгоритмі арқылы әр тілдегі эмодзилер арасындағы мәтін ұқсастығын есептедік.

Эмодзи қарым-қатынас графигін қалай түсінуге болады?

Бұл испан тіліндегі эмодзи👉 қарым-қатынас графигі. Қызыл жолақ оған ең жақын 9 эмодзиді көрсетеді, сәуленің ұзындығы қарым-қатынас дәрежесін білдіреді, сәуле неғұрлым қысқа болса, соғұрлым жақынырақ болады. Сонымен қатар, график басқа эмодзилердің қарым-қатынас графигінің бір бөлігін көрсетеді. Қара жәшікте 👆, қатынасының графигі, ал қызғылт сары ұяшықта қатынасының графигі бар.

Қарым-қатынас графигінде көрсетілген нәтижелер эмодзилерді пайдалану туралы көбірек түсінуге мүмкіндік береді. Мысалы, бұл екі эмодзи👈 🥺 👉 соңғы жылдары ренжіген, ұялшақ немесе жалбарыну үшін тіркесімі ретінде жиі пайдаланылады, сондықтан олар осы қарым-қатынас диаграммасында пайда болады:

Бұл екі эмодзи жиі сілтемелерді көрсету үшін пайдаланылады, яғни олардың қолданылуында ұқсастық бар, сондықтан олар қарым-қатынас диаграммасында бір-біріне жақын:

Эмодзилердің қарым-қатынас диаграммасын зерттесеңіз, кейбір эмодзилер туралы қабылдауды жаңартуға болады.

Эмодзи арасындағы қатынасты қалай есептеуге болады?

Әрі қарай біз сізге есептеу процесінің егжей-тегжейлі сипаттамасын береміз. Оны шамамен келесі үш кезеңге бөлуге болады:

  • Біріншіден, біз твиттерден әрбір эмодзидің тегтерін және әрбір тегке сәйкес салмақты алу үшін TF-IDF алгоритмін қолданамыз. Тегтер эмодзи сипаттамаларына баламалы эмодзиге ең жақын сөздерді білдіреді; ал салмақтар тегтер мен эмодзилер арасындағы қатынастың жақындығын білдіреді, салмақ неғұрлым жоғары болса, соғұрлым жақынырақ болады. Тегтерді алу алгоритмі мен есептеу процесі туралы біз оны егжей-тегжейлі енгізу үшін мақала жаздық, оны оқу үшін оң жақ сілтемені басуға болады: ☁️Эмоджи тегтер бұлты: эмодзилер туралы көбірек білуге көмектесіңіз!
  • Жапсырмаларды алғаннан кейін жаңа мәселе туындайды. Есептеулер туралы айтатын болсақ, біз барлығымыз әдетте тек сандық мәндерді есептеуге болатынын білеміз, бірақ тегтер мәтін ретінде ұсынылған, сондықтан оларды алгоритмдік түрде қалай есептеуге болады? Сондықтан, біздің екінші қадамымыз — мәтінді есептеуге болатын сандық мәндерге түрлендіру—— Вектор . Бұл процесс Word ендіру деп аталады. Мәтіндегі әрбір сөзді векторға түрлендіру үшін алдымен word2vec алгоритмін (сөзді ендіру әдістерінің бірі) пайдаланып твиттер деректерінің үлкен көлемін оқуымыз керек, содан кейін барлық жоғары өлшемді векторлардан тұратын сөзді ендіру матрицасын алуға болады. сөздерден тұрады және кейінірек әрбір тегке сәйкес әрбір сөзді біз бірінші қадамда сөзді ендіру матрицасы арқылы жоғары өлшемді векторға алдық. Осылайша, біз мәтінді векторға түрлендіруді аяқтадық. Бұл жоғары өлшемді векторлар мәтіннің контекстін талдау арқылы есептеледі, бұл әрбір сөздің семантикалық ақпаратын жақсы сақтай алады және осылайша мәтін ұқсастығының дәлдігін қамтамасыз етеді. Word2vec алгоритмі де біздің блогта егжей-тегжейлі түсіндіріледі, егер сіз толығырақ білгіңіз келсе, оны оқи аласыз: 🔍Эмоджи сезімдерін талдау
  • Соңғы қадам эмодзилер арасындағы мәтін ұқсастығын есептеу болып табылады. Мәтіннің ұқсастығын есептеу үшін әдетте қолданылатын алгоритм VSM (Векторлық кеңістік моделі) болып табылады . Бұл ең көп қолданылатын ұқсастықты есептеу модельдерінің бірі, бірақ ол екі мәтіннің қатар кездесетін сөздерін (екі мәтінде де кездесетін сөздер) есептеу арқылы нәтижелерге қол жеткізеді, бұл мағынасы бірдей, бірақ сөздері әртүрлі мәтіндермен бетпе-бет келгенде дәл емес. бұл жағдайды болдырмау үшін біз басқа алгоритмді таңдадық—— SCM (жұмсақ косинус өлшемі) . Ол сөздер арасындағы ұқсастықты өлшей алады, сондықтан екі мәтінде ортақ сөздер болмаса да, бұл алгоритм сөздің ұқсастығын бағалау арқылы екі мәтіннің ұқсастығын есептей алады. Векторды өлшеу үшін SCM пайдаланғаннан кейін, біз алатын мән неғұрлым үлкен болса, эмодзилер арасындағы мәтін ұқсастығы соғұрлым жоғары болады, ал мәтін ұқсастығы неғұрлым жоғары болса, олардың байланысы соғұрлым тығыз болады.

Қорытынды

Қарым-қатынас графигі арқылы біз адамдардың эмодзилерді пайдалану әдеттері мен қалауларын түсіне аламыз және эмодзилерді пайдалану үрдісін зерттей аламыз. Сіз бір-біріңізбен байланыстырмайтын кейбір эмодзилердің шын мәнінде өте тығыз байланысты екенін және бұл эмодзилердің сіз әлі білмеген жаңа сәнді қолданысы болуы мүмкін екенін көргенде таң қалуыңыз мүмкін! Сондай-ақ, қандай да бір ұсыныстарыңыз болса, бізге түсініктемеде айтыңыз!


Іздестіру соңғылар Соңғылар Жақында пайдаланылған эмодзилер жоқ Эмодизациялау... Сәтті эмодификациялау