Эмодзи эмоцияларға толы. Ол мәтіннің реңкі мен көңіл-күйін жақсарта алады немесе реттей алады, сонымен бірге эмодзи білдіретін эмоциялар тек сөздерге қарағанда айқын болуы мүмкін.

Мысалы, бұл эмодзи 👿 (мүйізі бар ашулы бет). Бұл шайтанның кейіпкері түрінде болады, сондықтан оны біреудің басындағы кейбір жаман ойлар сияқты «жаман» эмодзи деп санайтын ойлар болуы мүмкін.

Бірақ сипаттаманың бұл түрі өте абстрактілі. Сондықтан, біз осы эмодзилермен білдірілген көңіл-күйдің түрлері мен деңгейлерін елестете аламыз ба?


Оған жауап әрине «Иә»! Біз табиғи тілдерді өңдеуді (NLP) 50 миллионнан кем емес твиттерден тұратын ашық үлгілерде жасадық және эмодзи сезімдерін құндылықтар жиынтығымен байланыстыру және оны визуалдау үшін мәтіндік сезімдерді талдауды (пікірлерді өндіру деп те атаймыз) қолданамыз. Біз эмодзилердің сезімдерін талдауды ғылыми және қатаң етіп жасау үшін көп уақытты, энергияны және есептеу қуатын жұмсадық, осылайша әркім өзінің очарлығын сезініп, эмодзи туралы жақсы түсінік ала алады.

Эмодзи сезімдерін талдауға арналған визуалды диаграммалар

Эмодзидің көңіл-күйінің мәні сияқты мәліметтер статистика мен ықтималдықтар теориясына жататын мәтіндік сезімталдықтың талдауы бойынша есептелген. Алгоритм және есептеу қуаты мәселесін шешкеннен кейін жаңа қиындықтар туындады: пайдаланушыларға осы кәсіби деректерді қалай түсінуге болады?

Біздің басымызға бір ой келеді - Эй! Эмодзи сезімдерінің мәндерін кейбір керемет дизайнмен елестетіп көрсек қалай болады!

💡: біз есептелген және талданған мәліметтерді (сол жақта) пайдаланушыларға жақсы түсінуге болатын (оң жақта) эмодзилердің эмоционалды бөлінуін интуитивті түрде көрсете алатын диаграммаға айналдырдық;

Сонымен, эмодзидің нақты қарым-қатынастағы тенденциясын талдау нәтижелерін бейнелейтін келесі кестені түсіндіруге рұқсат етіңіз.

💡: эмодзидің сезімдерін талдауға арналған диаграммалардың 2 түрі, мұнда біз тек жоғарыдағы диаграмманы талдаймыз.

Суреттегі жартылай шеңбер доғасы эмодзидің әр түрлі эмоционалды тенденциясын білдіретін үш түске бөлінген. Көріп отырғанымыздай, осы үш эмоцияның пропорциясы шамамен 4: 1: 5 құрайды, жасыл және қызғылт сары түстің пропорциясы ұқсас, демек, бұл эмодзи бейтарап (таңданыс !!).

  • Сұр меңзер - сенімділік деңгейі , статистикалық тұжырымдама. Оның орны мен ені мынаны көрсетеді: Expected Value ± Confidence .
  • Күтілетін мән : бұл ықтималдықты білдіру үшін қолданылатын эмодзи сезімдерінің дисперсті кездейсоқ шамаларының орташа мәні, c ∈ [−1, 0, +1] .
  • Сенімділік : Бұл эмодзидің көңіл-күйін бөлудің параметрлер жиынтығы, оң және теріс аралық түрінде ақылға қонымды қателіктер диапазонын көрсетеді. Корпус үлгілерінің саны неғұрлым көп болса, қателік соғұрлым аз болады.

Қарапайым тілмен айтқанда, меңзер сол жаққа жақын орналасқан, эмодзидің эмоциясы жағымсыз. Керісінше, курсор оңға жақындаған сайын, осы эмодзи арқылы жағымды эмоциялар айқындалады. Курсор неғұрлым тар болса, эмоцияның шешімі дәлірек болады.


Енді сіз эмодзи сезімдерін талдау кестесін түсінесіз бе?

Сезімді талдау дегеніміз не?

Сіз эмодзи сезімдерін талдаудың деректер кестесін түсіндіңіз деп есептеймін, сондықтан сезімдерді талдау дегеніміз не?

Сезімдерді талдау пікірді қалыптастыру деп те аталады. Техникалық тұрғыдан алғанда, сезімдерді талдау табиғи тілді өңдеу (NLP) зерттеуінің бөлігі болып табылады. Сезімді талдау әдістері екі түрге бөлінеді: машиналық оқыту және сөздікке негізделген әдістер . Бірақ тереңдетіп оқыту технологиясы дамыған сайын, бұл технологияны сезімді талдау үшін қолдану негізгі бағытқа айналды.

Сезімдерді талдау процесі деректерді алдын-ала өңдеуді, инжинирингті және модельдерді оқытуды қамтиды. Жалпы, мәліметтерді өңдеу кезеңі негізінен мәтінді сөздерге бөліп, тоқтайтын сөздер мен пунктуацияларды жояды. Алайда, біздің көңіл-күйімізді талдау тыныс белгілерін және тоқтайтын сөздерді сақтайды. Мүмкіндіктер жасау кезеңінде біз Google командасы 2013 жылы ұсынған ендіру (Word2Vec) сөзін таңдап алдық, ол CBOW (сөздердің үздіксіз пакеті) моделі мен Skip-gram моделі болып бөлінеді. Үлгінің нәтижелері келесідей:

💡: сол жақта CBOW моделі, оң жақта Skip-грамм моделі

CBOW вектор сөзін алуға үйрету үшін мақсатты сөзді болжау үшін контекстке негізделген. Суретте көрсетілгендей W (t) W(t-2), W(t-1), W(t+1), W(t+2) төрт сөзге сүйене отырып болжанады; Скип-грамм дегеніміз - вектор сөзін алуға үйрету үшін айналадағы сөздерді мақсатты сөзге сәйкес болжау. Суретте көрсетілгендей W(t-2),W(t-1),W(t+1),W(t+2) W (t) сәйкес болжау.

Модельді болжау кезеңінде біз деректерді екі бөлікке бөлеміз: 5: 1 пропорциясында бөлінген жаттығулар жиынтығы және тест жиынтығы мен жаттығу жиынтығы жұмыссыз өңделеді.

Сезімдерді талдауды эмодзиде қолдану

Сезімтал талдау - терең білім мен статистиканы біріктіретін кешенді талдау әдісі. Біз эмодзидің сезім мәнін кешенді талдаудан және деректер жинағын есептегеннен кейін алдық, және эмодзи сезімдерін талдаудың толық процесі келесідей:

Эмодзи сезімдерін талдау процесі

  • Әлеуметтік желінің корпусын белгілеңіз
  • Деректерді алдын-ала өңдеу
  • Деректерді бөліңіз: жаттығулар жиынтығы (80%), тестілеу жиынтығы (20%)
  • Үлгіні құру үшін LSTM нейрондық желісін қолданыңыз
  • Модельдің сынақ жиынтығындағы өнімділігі бойынша модельдің қорыту қабілетін жақсарту үшін гиперпараметрлерді реттеңіз
  • Белгіленбеген деректерге бірдей деректерді алдын-ала өңдеу әрекетін жасаңыз
  • Белгіленбеген деректердегі көңіл-күйдің тенденциясын болжау үшін дайындалған сезімді болжау моделін қолданыңыз

Біз эмодзи бойынша көңіл-күй талдауын жүргіземіз және эмодзи мәтін сезімдерінің классификаторын алуға үйрету үшін терең оқыту технологиясын қолданамыз. Классификатордың шығыс қабаты үшін біз сигмоидты функцияны таңдаймыз, және шығыс қабатын 0-1 аралығына шығарамыз. Мәтін 0-ге неғұрлым жақын болса, соғұрлым ол негативті болады, ал 1-ге жақындаған сайын ол жағымды болады.

Сигмоидтық функция формуласы: F(x)=1/(1+ex)

Біз талдау корпусы ретінде эмодзи бар 50 миллион твиттен тұратын үлкен үлгідегі деректерді қолданамыз, содан кейін сезімді болжау үшін корпусты дайындалған сезімдер классификаторына енгіземіз. Соңында, жіктеуіштің сезімді болжау нәтижелері үш түрге бөлінеді: теріс, бейтарап және позитивті. Жіктеу критерийлері:

Қалай болғанда да, қиын, бірақ біз оған қол жеткіздік !!

Эмодзи сезімдерін талдаудың қолданылуы мен болашағы

Сезімдерді талдау маркетинг, жарнама, психология, медициналық және басқа салаларда кеңінен қолданылады. Біз эмодзидің көңіл-күйіне талдау жасауды адамдарға эмодзилерді нақты әлеуметтік өзара әрекеттесу кезінде тереңірек түсінуге, эмодзи туралы түсініксіздікті және түсінбеушілікті жоюға көмектесу туралы шешім қабылдадық.

Мысалы, сіз өзіңіздің досыңызбен (немесе өзіңіздің сүйіспеншілігіңізбен) желіде сөйлесіп жатқанда, басқа адам кейде сізге мүлдем түсінбейтін эмодзилерді жіберуі мүмкін. Шындығында, мұндай жағдайлар көп, мысалы:

  • Егер біреу менің суретке жауап берсе, 🤒 нені білдіреді?
  • Қыз маған 😊 жібергенде бұл нені білдіреді?
  • Егер менің сүйіспеншілігім маған жіберсе, бұл жақсы белгі ме?

Біз білетіндей, сіз эмодзилердің нақты мағынасын айта алмайсыз, бірақ біздің эмоцияларымызды психологиялық тұрғыдан талдауға болады, мысалы, «ол маған 💞 жіберді, бұл оң белгі, мүмкін мен оны шығарып салуым керек» немесе « неге менің жігітім маған 😒 жібереді? Бұл жағымсыз, ол маған ашулы ма? « , сол сияқты бірнәрсе. Біздің эмодзидің сезімін талдау арқылы эмодзиді тереңірек түсінуге болады деп ойлаймын.


Тұтастай алғанда, біз эмодзи сезімдерін талдау жобасы үшін көп ақша төледік. Қиын болса да, біз оны тереңірек жасағымыз келеді. Біз қазір әртүрлі тілдердегі эмодзилерді, эмодзидің таза мәтінге эмоционалды күшейту әсерін және тағы басқа бірнеше жетілдірілген зерттеулерді талдаймыз. Мұның бәрі эмодзилердің көбірек қолданылуын зерттеуге арналған және эмодзи қызықты әрі ақпараттандырады деп үміттенемін.

Іздестіру соңғылар Соңғылар Жақында пайдаланылған эмодзилер жоқ Эмодизациялау... Сәтті эмодификациялау