近年、実用さと面白さを兼ねた絵文字の使い方がどんどん増えています。たとえば、「👀🌊📞」「🐎🦌」のような、違う絵文字を組み合わせて「絵文字ネタ」を作成したり、もしくは、まったく無関係に見える絵文字たちが実際に使う時、同じ意味で通せます…このように絵文字の間に繋がりが少しずつ生じられています。この絵文字の間の関係を直観的表示し、ユーザーに絵文字の使い方をより深く理解してもらいたいため、本サイトは機械学習アルゴリズムを使用して絵文字たちの関係を計算した後、その結果をシンプルでわかりやすいチャートにし、この絵文字相関図を作成しました。
絵文字相関図とは?
絵文字は「文字として扱われるアイコン的な絵」として、一般的には画像の形で表示されます。しかし、画像によって絵文字間の関係を計算することは不可能です。なぜなら、絵文字の主な目的は情報や感情を伝えること、絵文字を一つの「言語」として見たほうがもっと適切です。また、絵文字たちの意味・使い方を通してのその関係を調査する方がより正確で実用的だと私たちは思っています。そこで、私たちは 2018から2021までの絵文字を含む8.12億件のツイートを抽出し、言語環境による絵文字の使い方が異なることを考慮して、言語別にツイートを分類しました。次に、機械学習アルゴリズムを通して、各言語の絵文字間のテキスト類似性を個別に計算し、対応する絵文字の相関図を作成しました。
絵文字相関図を理解する
これはスペイン語サイトでの👉の絵文字相関図です。赤い枠にはこの絵文字と最も関係のある9つの絵文字を表示されており、そして繋がる線の長さは関係の程度を表しています(線が短いほど、関係が密になります)。また、この図には他の絵文字の関係図の一部も示されています。例えば黒い枠には👆の相関図の一部で、オレンジ色の枠には⤵の相関図の一部を表示しています。
相関図に反映された結果を通じて、絵文字の使い方をより深く理解することができます。例えば、次の画像の2つの絵文字👈と🥺は、よく👉と組み合わせて、恥ずかしい・お願いなどを表現できますから、この関係図に表示されました。
別の例として、これら2つの絵文字の使い方は似ており、どれもサイトのリンクを表すためによく使用されるため、相関図での位置も非常に近くなっています。
この絵文字の相関図を詳しく分析すると、絵文字に関する固有イメージを変え、新しい使い方がわかるかも!
絵文字間の関係を計算する
では、この相関図はどのように計算されているのかを紹介します。理解しやすいために、プロセスを3つのステップにまとめました。
- まず、TF-IDFという分析方法に基づき、ツイートデータから各絵文字のタグと各タグに対応するウェイトを抽出します。「タグ」とは絵文字の「特徴」に相当する、絵文字と高い関連性を持つ単語やフレイズのこと。一方、「ウェイト」とはタグと絵文字の関係の密さを指します。ウェイトが大きいほど、関係は密接になります。タグに関するアルゴリズム原理と計算プロセスについての詳しい紹介は、こちらの記事をご参照ください:『☁️絵文字タグクラウド::絵文字を知り尽くせ!』
- タグを抽出した後、新しい問題が生じます:計算とは数値に従って処理すること、しかしタグはテキスト形式で表示されるもの、どのようにアルゴリズムによって計算できますか?このことによって、2番目のステップは、テキストを計算可能な数値、すなわち「ベクトル」に変換することです。このプロセスは単語の埋め込みと呼ばれます。まず、単語埋め込み方法の1つであるword2vecという手法を使って、大量のツイートデータを読み取り、テキスト内の各単語をベクトルに変換し、すべての単語の高次元ベクトルで構成される単語埋め込み行列を取得できます。続いては、最初のステップで取得した各タグに対応する単語を、単語埋め込み行列を介して高次元ベクトルにマッピングされます。これらの高次元ベクトルはすべてテキストの文脈を介して計算されたもので、各単語の意味を十分に保留できるため、計算したテキストの類似性の精度を保証できます。word2vecについての詳しい紹介は、こちらの感情分析の記事をご参照ください:🔍絵文字感情分析
- 最後のステップは、テキストの類似性を計算することです。テキストの類似性を計算するために一般的に使用されるアルゴリズムは、2つのテキストの共有単語を計算することによって結果を得る VSM(ベクトル空間モデルVector Space Model)です。しかし、同じ意味で言い回しが異なるテキストに対して、その計算結果は精確とは言えないです。この状況を回避するために、私たちはSCM (ソフト余弦測度Soft Cosine Measure)という別のアルゴリズムを選択しました。2つのテキストに共通の単語がなくでも、SCMは単語間の類似性を測定することができ、最終的には単語の類似性からテキストの類似性を評定できます。SCMでベクトルを測定した後、得られた数値が大きいほど、テキストの類似性が高くなります。そしてその類似性が高いほど、絵文字の相関度も高くなります。
まとめ
この相関図を通して、絵文字を送る人々の習慣や好みを知ることができ、絵文字の人気な傾向を探ることができます。まったく繋がりのない絵文字が実際に使う時、まさか高い関連性を持つことに驚かれるかもしれません。それはあなたのまだ知らない絵文字のトレンドな使い方かもしれませんよ〜絵文字のことをさらに研究したい人々に対し、この絵文字相関図があなたにひらめくアイディアを提供できることを願っています!また、本相関図について他にアドバイスがあれば、ぜひコメントでお知らせください🤗!