どの絵文字も特別です。適切な分析を通じて、絵文字の意味、カテゴリ、関連トピックを知る以外、SNSでのその絵文字の独特な意味などの多くな情報を得ることができます👀。この度、本サイトはすべての絵文字に対して、大量の計算と分析を行った後、特定の絵文字に関連するキーワードとフレーズを表示できる絵文字タグクラウドをリリースしました。
🔺[🦄]ユニコーンのタグクラウド
タグの取得
SNSといえば ツイッター(Twitter)が世界で一番有名でしょう。人々は感情を表現したい時、もしくは単なる装飾として、ツイートに絵文字を加えることが好きです。私たちのタグのほとんどは、世界中のツイートから採集しました。 私たちは2018.01から2021.11までの絵文字を含む8.12億件のツイートを分析し、タグを抽出しました。次に、統計とアルゴリズムで特定の絵文字と関連性の高いテキストを選び出し、言語を区別します。これにより、同じ絵文字がさまざまな国でどのように使われているかを知ることもできます。
例えば英語サイトでは、この2つの絵文字: 😎(サングラスで笑顔)と🦄(ユニコーン)。これらにタグ抽出を実行し、【cool】や【nicki】などのタグを得ました。
ここに新しい問題が生じます❓:一つの絵文字に関連するタグテキストはたくさんありますが、どのように最適なタグを選択し、そしてどの順で並び・配置しますか?
この場合、さらなるアルゴリズムが必要です。
タグ抽出の詳しい説明
長いテキストの見出し抽出や短いテキストのキーワードタグ付けアルゴリズムなど、さまざまな効果を持つタグ抽出には多くの種類があります。この「絵文字タグクラウドーツイッターのタグ抽出」はTF-IDFという分析方法に基づいています。そしてツイッターデータの特徴に応じて、少しプロセスを変え、絵文字のタグを抽出するします。この方法は教師なしテキストタグ抽出アルゴリズムに属します。
理解しやすいために、タグ抽出のプロセスを3つのステップにまとめました。
- まず、月を単位として各ツイートの絵文字抽出とテキストクリーニングを実行し、[@ xx]、[#xx]などの話題とニックネームを削除、ツイートのURLを削除します。テキストクリーニングの過程で、各言語のストップワードをフィルタリングし、略語、単語形式、大文字小文字の置換などのテキスト処理をし、最後に各絵文字に対応する単語頻度情報データを取得します。
- 次に、TF-IDF法(term frequency–inverse document frequency)を使用して、前のステップで得られた結果に基づいて初期タグテキストの重みを計算します。
- 前の2つのステップで計算される単位は月次データであり、合計テキストは4年間のデータ量です。最後のステップでは、すべての月次データに対し、もう一度統合統計計算を実行します。
計算式は: TF-IDF= TF * IDF
この中、TF(Term Frequency)は、某絵文字に対応する単語の出現頻度をこの絵文字に対応する単語の総数で割って得られます。 IDF(Inverse Document Frequency)は逆文書頻度、IDF = log(N / N(w)) 、[N]は絵文字の総数を表し、[N(w)]は単語[w]を含む絵文字の数を表します。
🔺一つ単語がemojiAとemojiBの両方に現れた場合、この単語が代表的ではないことを意味し、この単語の重みを減らす必要があります。IDF = log(N / N(w))から、0と正の無限大の間のIDFの範囲はN(w)の増加とともに減少することがわかります。
一つの用語が記事に出現する頻度が高いほど、その用語の重みが大きいことを意味します。しかし実際、最も頻繁に出現する単語は「oh」・「ah」や「RT」などのような実用的な意味を持たない、もしくは一般的すぎる言葉ばかりです。 TF値による順並びとフィルタリングだけでは、これらのような単語のフィルタリングを回避することは困難です。したがって、より正確なタグテキストの重みの値を計算するため、IDF逆文書頻度が制約として導入されています。
ステップ2の最後に、絵文字の総数の15%を超えて表示されるタグをフィルタリングします。
計算された4年間のツイートデータを[(sum(tfidf_m)/ M)* log(M)]形式に変換し、さらに各タグの重みを計算します。 [sum(tfidf_m)]は、各月の用語のTF-IDF値の合計を意味し、[M]は用語が出現する月数を表します。
以上が絵文字タグデータの計算方法です。すべての最終データをまとめた後、より正確なタグ結果を得るために、言語に従って人工的なチェックおよびフィルタリングをします。
さらに、タグにはCLDRショートネームとCLDRキーワードも参考に入れています。つまり、これらの単語の一部は常に絵文字タグクラウドに表示されています。
🔺新しい絵文字をユニコード協会に提出する時、提案には必ずCLDRショートネームとCLDRキーワードが必要であるため、これらの単語はタグとして考慮する必要があります。例えば、絵文字[ユニコーン🦄]の情報、そのショートネームといくつかのキーワードをタグクラウドに入れています。
絵文字タグクラウドの使い方
この絵文字タグクラウドは前からリリースされたコンテンツです。個人的には、絵文字タグクラウドは特定の絵文字を分析できる非常に面白くて便利な機能だと思います。場合によって、どのグループや話題がこの絵文字をよく使うことでさえ知ることもできます。
上記のように、各タグテキストの重みは異なります。タグと絵文字の相関関係は、円のサイズで簡単に判断できます(大きいほど関連性が大きくなります)。または、マウスを円の上に置くと、[番号、タグ名]のある小さな長方形が表示されます。この場合、数字が小さいほど、この円にあるタグはこの絵文字との関連性が高くなります。これらのタグをクリックして、他の関連する絵文字を検索することもできます。
同じく、ユニコーンを例として挙げます。絵文字[ユニコーン🦄 ]のタグクラウドは次のようになります。
ご覧のとおり、🦄の上位5つのタグは、 [unicorn]、 [nicki]、 [unicorns]、 [plt] と [barbz]です。
単語[unicorn]はこの絵文字のCLDRショートネームであり、残りの4つのタグはすべてツイートから抽出されています。 [nicki]と[barbz]は、ニッキー・ミナージュ(Nicki Minaj)とそのファングループに関連しており、[plt]とは、イギリスを拠点とするファッション小売業者、もしくは[Pretty LittleThing]というフレーズを指します。 🦄はSNSで人気の絵文字であり、ニッキーミナージュファンにとって非常に代表的な絵文字です。もしあなたもニッキファンなら、ぜひこの絵文字をたくさん使ってください!
私たちの絵文字タグクラウドを使い、特定の絵文字と関連する単語や話題を簡単に調べることができます。また場合によって、絵文字の使用は社会現象になる可能性もあります。例えばこの絵文字🥺、お願い・羨ましい・かわいいさを表現する絵文字として、この単語「ぴえん🥺」は「JC・JK流行語大賞2019」一位、「2019年ギャル流行語大賞」二位、「2020年上半期インスタ流行語大賞」1位を獲得し、 全日本のトレンド絵文字になりました!このように、このタグクラウドを通じて、絵文字のベーシックな意味と隠されている意味を知ることができ、ネットでの今時の話題を知ることもできるかも?兎にも角にも、一部の人々にとって、絵文字タグクラウドはインターネット文化について知るためのいい機能であり、すべてはあなたの使い方次第です。
絵文字感情分析にせよ、この絵文字タグクラウドにせよ、これらはすべて、絵文字のより多くの使用法を探求したく、絵文字の面白さと情報性をみんなに伝えたいために作られた機能です。正確な絵文字関連のコンテンツを提供するために、データも更新され続けます。絵文字タグクラウドについて他にアドバイスがあれば、コメントでお知らせください👇!