Emodži jsou plné emocí. Může vylepšit nebo upravit tón a náladu textu, emoce vyjádřené emodži mohou být zároveň jasnější než pouze slova.

Například tento emoji 👿 (rozzlobený obličej s rohy). Má zjevně podobu ďáblovy postavy, takže mohou existovat myšlenky považované za „špatné“ emodži, jako některé zlé myšlenky v něčí hlavě.

Ale přesto je tento druh popisu velmi abstraktní. Můžeme si tedy představit typy a úrovně sentimentu vyjádřené těmito emodži?


Odpověď je samozřejmě „ano“! Provedli jsme zpracování přirozeného jazyka (NLP) na veřejných vzorcích ne méně než 50 milionů tweetů a pomocí analýzy textového sentimentu (nazývaného také mínění) spojujeme emoji sentiment se sadou hodnot a vizualizujeme ji. Strávili jsme spoustu času, energie a výpočetní síly, aby byla naše analýza sentimentu emodži vědeckější a důkladnější, aby každý mohl cítit kouzlo a lépe porozumět emodži.

Vizuální grafy pro analýzu sentimentu emodži

Data, jako je hodnota emodži, byly vypočítány podle analýzy textového sentimentu, která patří do statistik a teorie pravděpodobnosti. Poté, co jsme vyřešili problém algoritmu a výpočetní síly, narazili jsme na nové potíže: jak přimět uživatele k pochopení těchto profesionálních dat?

V mysli nám prochází myšlenka --— Hej! Co kdybychom si vizualizovali emocionální hodnoty emodži pomocí několika skvělých návrhů!

💡: Vypočítaná a analyzovaná data (vlevo) jsme převedli do grafu, kterému uživatelé lépe porozumí (vpravo), který může intuitivněji ukázat emocionální rozdělení emodži;

Dovolte mi tedy vysvětlit následující graf, který zobrazuje výsledky analýzy tendencí emodži k sentimentu ve skutečné komunikaci.

💡: 2 typy grafů pro sentimentální analýzu emodži, zde analyzujeme pouze výše uvedený graf.

Polokruhový oblouk na obrázku je rozdělen do tří barev, které představují různé emoční tendence emodži 👿 . Jak vidíme, proporce těchto tří emocí jsou přibližně 4: 1: 5, zelená a oranžová mají podobné proporce, což znamená, že tento emoji je spíše neutrální (překvapení !!).

  • Šedý kurzor je úroveň důvěryhodnosti , statistický koncept. Jeho poloha a šířka ukazují: Expected Value ± Confidence .
  • Očekávaná hodnota : Je to vážený průměr disperzních náhodných proměnných hodnoty sentimentu emodži, který se používá k vyjádření pravděpodobnosti, c ∈ [−1, 0, +1] .
  • Důvěra : Jedná se o sadu parametrů distribuce hodnot sentimentu emodži, ukazuje přiměřený rozsah chyb ve formě kladného a záporného intervalu. A čím větší je počet vzorků korpusu, tím menší je chyba.

Jednoduše řečeno, čím blíže je kurzor vlevo, emoce tohoto emodži jsou negativnější. Naopak, čím blíže je kurzor doprava, tím pozitivnější emoce tento emoji vyjadřuje. A čím užší je kurzor, tím je úsudek emocí přesnější.


Rozumíte našemu grafu analýzy sentimentu emodži?

Co je analýza sentimentu?

Věřím, že jste pochopili datový graf analýzy emodži sentimentu, pojďme si tedy promluvit o tom, co je to analýza sentimentu.

Analýza sentimentu se také nazývá mínění. Technicky vzato je analýza sentimentu součástí výzkumu zpracování přirozeného jazyka (NLP). Metody analýzy sentimentu se dělí na dva typy: strojové učení a metody založené na slovníku . Ale s rozvojem technologie hlubokého učení se použití této technologie pro analýzu sentimentu stalo hlavním proudem.

Proces analýzy sentimentu zahrnuje předzpracování dat, inženýrství funkcí a školení modelů. Obecně řečeno, fáze předzpracování dat hlavně rozděluje text na slova a odstraňuje zastavovací slova a interpunkci. Naše analýza sentimentu si však zachovává interpunkční znaménka a zastavovací slova. Ve fázi inženýrství funkcí jsme zvolili reprezentaci vkládání slov (Word2Vec) navrženou týmem Google v roce 2013, která je rozdělena na model CBOW (Continuous Bag Of Word ) a model Skip-gram . Výsledky modelu jsou následující:

💡 : Vlevo je model CBOW, vpravo model Skip-gram

CBOW je založen na kontextu předpovědi cílového slova, které se má trénovat, aby získal vektor slova. Jak je znázorněno na obrázku, W (t) se predikuje na základě čtyř slov W(t-2), W(t-1), W(t+1), W(t+2) ; A skip-gram je předpovědět okolní slova podle cílového slova, která se mají naučit získávat vektor slova. Jak je znázorněno na obrázku, je předpovědět W(t-2),W(t-1),W(t+1),W(t+2) podle W (t) .

Ve fázi predikce modelu rozdělíme data na dvě části: Výcviková sada rozdělená v poměru 5: 1 a testovací sada a tréninková sada jsou zpracovány mimo pořadí.

Aplikace analýzy sentimentu v emodži

Analýza sentimentu je komplexní analytická metoda, která kombinuje hluboké učení a statistiky. Hodnotu sentimentu emodži jsme získali po komplexní analýze a výpočtu datových sad a celý proces analýzy sentimentu emodži je následující:

Proces analýzy sentimentu emodži

  • Označte korpus sociálních sítí
  • Předzpracování dat
  • Rozdělte datovou sadu: Training Set (80%), Testing Set (20%)
  • K sestavení modelu použijte neuronovou síť LSTM
  • Podle výkonu modelu na testovací sadě upravte hyperparametry, abyste zlepšili schopnost generalizace modelu
  • U neznačených dat proveďte stejnou akci předzpracování dat
  • Pomocí trénovaného predikčního modelu sentimentu můžete předpovědět tendenci sentimentu na neoznačených datech

Provádíme analýzu sentimentu na emodži a pomocí technologie hlubokého učení trénujeme, abychom získali klasifikátor sentimentu emodži. Pro výstupní vrstvu klasifikátoru zvolíme aktivaci funkce sigmoid a výsledky výstupní vrstvy promítneme do intervalu 0-1. Čím blíže je text k 0, tím je negativnější a čím blíže k 1, tím je pozitivnější.

Vzorec funkce sigmoidu je: F(x)=1/(1+ex)

Jako analytický korpus používáme velké ukázkové údaje o 50 milionech tweetů obsahujících emoji, poté je nutné korpus analyzovat do trénovaného klasifikátoru sentimentu pro predikci sentimentu. Nakonec jsou výsledky predikce sentimentu klasifikátorem rozděleny do tří typů: negativní, neutrální a pozitivní. Kritéria klasifikace jsou:

Každopádně je to těžké, ale zvládli jsme to !!

Využití a vyhlídky analýzy emodži

Analýza sentimentu je široce používána v marketingu, reklamě, psychologii, lékařství a dalších oborech. Rozhodli jsme se, že provedeme analýzu sentimentu emodži, abychom lidem pomohli lépe porozumět emodži ve skutečné sociální interakci, efektivněji eliminovat nejednoznačnost a nedorozumění emodži.

Když například chatujete se svým přítelem (nebo se svým kamarádem) online, druhá osoba vám někdy může poslat emodži, kterým zcela nerozumíte. Ve skutečnosti existuje mnoho takových situací, například:

  • Co znamená 🤒 , když někdo odpoví na mou fotku?
  • Co to znamená, když mi dívka pošle 😊 ?
  • Pokud mě moje zamilovanost pošle , je to dobré znamení?

Jak víme, nemůžete říci přesný význam emodži, ale prostřednictvím naší analýzy sentimentu můžete tyto emodži analyzovat psychologicky, například „poslala mi 💞, je to pozitivní znamení, možná bych ji měl pozvat ven“ nebo „ proč mi můj přítel poslal a? Je to trochu negativní, je na mě naštvaný? “ , něco takového. S naší analýzou sentimentu emodži věřím, že emodži porozumíte hlouběji.


Celkově jsme za tento projekt analýzy sentimentu emodži hodně zaplatili. I když je to obtížné, stále to chceme prohloubit. Nyní analyzujeme emodži v různých jazycích, vliv emodelního zisku emodži na čistý text a bylo zváženo i několik dalších pokročilých studií. To vše má prozkoumat další využití emodži a doufáme, že emodži jsou zajímavé a informativní.

Hledat poslední Nedávné Žádné nedávné použití emodži Emojify... Emojify Úspěch