모든 이모티콘은 특별합니다. 올바른 방법으로 분석하면 의미, 범주, 관련 주제, 이모티콘의 독특한 사용법까지 한 눈에 많은 정보를 찾을 수 있습니다👀. 모든 이모티콘에 대해 엄청난 양의 계산과 분석을 수행한 후 마침내 Emoji Tag Cloud , 특정 이모티콘과 관련된 키워드 및 구문을 얻고 참신한 시각적 방식으로 표현합니다.

🔺[유니콘🦄] 이모티콘의 태그 클라우드

태그는 어떻게 얻나요?

우리 모두 알다시피 트위터 는 세계적으로 유명한 소셜 네트워킹 서비스이며 사람들은 자신의 감정을 표현하기 위해 또는 장식용으로 이모티콘으로 텍스트를 트윗하는 것을 좋아합니다. 대부분의 태그는 전 세계의 트윗에서 가져왔습니다. 2018.01~2021.11 트윗을 분석하고 이모티콘이 포함된 8억 1200만 트윗에서 태그를 추출합니다. 그런 다음 통계 및 알고리즘을 사용하여 특정 이모티콘과 관련성이 높은 텍스트를 선택하고 언어를 구별합니다. 이를 통해 우리는 이모티콘이 다른 나라에서 어떻게 사용되는지 알 수 있습니다.

여기서는 영어 사이트를 예로 사용합니다. 영어 페이지에 있는 이 2개의 이모티콘: 😎 (선글라스를 쓴 웃는 얼굴) 및 🦄 (유니콘). 우리는 그들에게 태그 추출을 수행하고 [cool] 또는 [nicki] 와 같은 단어를 얻습니다.

여기에 새로운 문제가 있습니다❓: 물론 이모티콘과 관련된 많은 텍스트가 있습니다. 그렇다면 가장 적합한 태그를 선택하고 정렬하는 방법은 무엇입니까?

이 상황에서는 추가 알고리즘이 필요합니다.

태그 추출에 대한 전문 기술 설명

기사에 대한 추상 추출, 짧은 텍스트에 대한 키워드 태깅 알고리즘과 같이 다양한 효과를 갖는 많은 유형의 태그 추출 기술이 있습니다. "Emoji Tag Cloud-Twitter Tag Extraction" 은 TF-IDF 알고리즘을 기반으로 합니다. 비지도 단문 레이블 추출 알고리즘인 트위터 데이터의 특성을 기반으로 수정된 프로세스로 수행되었습니다.

이해를 돕기 위해 태그 추출 절차를 3단계로 요약합니다.

  • 먼저 1 개월 단위로 각 트윗에 대해 이모지 추출텍스트 정리 를 수행하고 [@xx], [#xx]와 같은 주제 및 닉네임을 제거하고 트윗 URL을 삭제합니다. 텍스트를 정리하는 동안 다른 언어로 된 중지 단어(예: ah, oh 등과 같은 일부 모달 입자 제거), 약어, 단어 형식, 대문자 사용 및 기타 요소를 필터링하고 마지막으로 각 이모티콘에 해당하는 단어 빈도 정보 데이터를 얻습니다. .
  • 둘째, TF-IDF(term frequency-inverse document frequency) 텍스트 표현 알고리즘을 사용하여 이전 단계에서 얻은 결과를 기반으로 초기 레이블 텍스트 가중치를 계산합니다.
  • 계산 공식은 다음과 같습니다. TF-IDF = TF * IDF

    TF(Term Frequency)는 이모티콘에 해당하는 단어의 발생 횟수를 이모티콘에 해당하는 총 단어 수로 나눈 값입니다. IDF는 Inverse Document Frequency, IDF = log( N / N(w) ) , [N] 은 총 이모티콘 수, [N(w)] 는 [w] 단어가 포함된 이모티콘 수를 나타냅니다.

    🔺단어가 emojiA와 emojiB에 모두 표시되면 해당 단어가 충분히 대표되지 않는다는 의미이므로 이 단어의 무게를 줄여야 합니다. IDF = log( N / N(w) ) 공식에서 0과 양의 무한대 사이의 IDF 범위는 N(w)가 증가함에 따라 감소함을 알 수 있습니다.

    기사에서 용어가 더 많이 등장한다는 것은 용어의 무게가 더 크다는 것을 의미합니다. 하지만 가장 많이 등장하는 단어는 [aww], [oh], [RT]처럼 어조를 표현하거나 실제 의미가 없는 단어들이다. TF 값으로만 정렬 및 필터링하면 이러한 단어의 필터링을 피하기 어렵습니다. 따라서 레이블 텍스트의 무게를 나타내는 보다 정확한 값을 계산하기 위해 IDF 역 문서 번호가 제약 조건으로 도입되었습니다.

    2단계가 끝나면 총 이모티콘 수의 15% 이상 나타나는 항목을 필터링합니다.

  • 처음 2단계에서 계산된 단위는 월별 데이터이며 총 데이터는 4년입니다. 마지막 단계에서 모든 월별 데이터에 대한 통합 통계 계산의 또 다른 라운드를 수행합니다.
  • 계산된 4년 트윗 데이터를 [(sum(tfidf_m) / M) * log(M)] 형식 으로 변환하고 각 태그 항목의 가중치를 추가로 계산합니다. [sum(tfidf_m)]은 각 월의 용어의 TF-IDF 값의 합을 나타내고, [M]은 해당 용어가 나타나는 개월 수를 나타냅니다.

다음은 이모지 태그 데이터의 대략적인 계산 방법입니다. 최종 데이터가 요약된 후 더 정확한 태그 결과를 얻기 위해 언어에 따라 수동으로 확인하고 필터링합니다.


또한 태그는 참조용으로 CLDR 짧은 이름과 CLDR 키워드를 사용합니다. 이는 가장 기본적인 태그 텍스트이므로 Emoji Tag Cloud에서 이러한 단어 중 일부를 항상 볼 수 있습니다.

🔺 이모지가 유니코드 컨소시엄에 제출될 때 제안서에 CLDR 짧은 이름과 CLDR 키워드가 있어야 하므로 이러한 단어는 태그 선택을 고려해야 합니다. 이모지[유니콘🦄]의 정보, 태그 클라우드에 짧은 이름과 일부 키워드를 넣었습니다.

Emoji 태그 클라우드를 사용하는 방법은 무엇입니까?

Emoji Tag Cloud를 출시한 지 꽤 되었습니다. 개인적으로 특정 이모티콘을 관찰하는 것은 매우 재미있고 유용한 도구라고 생각합니다. 때로는 이 이모티콘을 사용하는 것을 선호하는 그룹이나 인기 주제를 알 수도 있습니다. 이모티콘 태그 클라우드를 사용하는 방법을 보여드리겠습니다!

위에서 언급했듯이 각 태그 텍스트의 무게는 다릅니다. 원의 크기로 태그와 이모지의 상관관계를 간단히 판단할 수 있습니다(더 클수록 관련성이 높음). 또는 원 위에 마우스를 올리면 [숫자, 태그 텍스트]가 있는 작은 사각형이 나타납니다. 이 상황에서 숫자가 작을수록 이 원의 태그가 이모티콘과 더 관련이 있습니다. 이 태그를 클릭하여 다른 관련 이모티콘을 검색할 수도 있습니다!

그래도 우리는 유니콘을 예로 사용합니다. 이모티콘 [unicorn 🦄 ]의 태그 클라우드는 다음과 같습니다.

보시다시피 🦄 의 상위 5개 태그는 [unicorn], [nicki], [unicorns], [plt][barbz] 입니다.

단어 [unicorn]은 이 이모티콘의 CLDR 짧은 이름이고 나머지 4개의 태그는 모두 트위터에서 추출되었습니다. [nicki]와 [barbz]는 Nicki Minaj와 그녀의 팬 그룹과 관련이 있으며 [plt]라는 단어 는 영국 기반의 패션 소매업체인 [Pretty Little Thing] 또는 바로 이 문구를 나타냅니다. 🦄 은 SNS에서 인기 있는 이모티콘이자 니키 미나즈 팬들에게 아주 대표적인 이모티콘입니다. 니키를 사랑한다면 이 이모티콘을 꼭 사용해야 합니다!


대체로 Emoji Tag Cloud 를 사용하면 특정 이모티콘의 관련 콘텐츠를 쉽게 찾을 수 있으며 대중 문화에 대해 더 많이 알 수 있으며 이모티콘의 기본 및 확장된 의미를 모르는 당혹감을 피할 수 있습니다. 일본에서 이모티콘 🥺 과 같이 이모티콘을 사용하는 것이 사회적 현상이 될 수 있습니다. 이 'ぴえん🥺'은 구걸, 애도, 애도 등을 표현하는 이모티콘으로 'JC&JK 버즈워드 어워드 2019', '2019 갤 버즈워드 어워드' 2위, '인스타그램 버즈워드 어워드 상반기 1위' 등을 수상했다. 2020"으로 일본 전역의 트렌드 이모티콘이 되었습니다! 이 경우 어떤 사람들에게는 Emoji Tag Cloud가 인터넷 문화에 대해 알 수 있는 훌륭한 도구이기도 합니다. 모두 어떻게 사용하느냐에 달려 있습니다.

이 모든 것은 이모티콘의 더 많은 사용을 탐색하기 위한 것이며 이모티콘이 흥미롭고 유익하기를 바랍니다. 정확한 이모티콘 관련 콘텐츠를 제공하기 위해 데이터도 계속 업데이트됩니다. Emoji Tag Cloud에 대해 더 조언이 필요하시면 아래 댓글로 알려주세요👇!


찾기 최근 최근 최근 사용한 이모티콘 없음 이모티콘... 이모티콘 성공