はじめに
2021年のTweetからAlibaba Cloudを見てみました。
年末なので1年でどのようなことが起きていたのか見たいと思います。
分析した内容は2021-01-01から2021-12-14まで日本語のTweetです。
テキストマイニングにはUserLocalのサービスを利用しています。
ワードクラウド
スコアが高い単語を複数選び出し、その値に応じた大きさで図示しています。 単語の色は品詞の種類で異なっており、青色が名詞、赤色が動詞、緑色が形容詞、灰色が感動詞を表しています。
単語出現頻度
文章中に出現する単語の頻出度を表にしています。単語ごとに表示されている「スコア」の大きさは、 与えられた文書の中でその単語がどれだけ特徴的であるかを表しています。 通常はその単語の出現回数が多いほどスコアが高くなりますが、 「言う」や「思う」など、どの文書にもよく現れる単語についてはスコアが低めになります。
スコアとは
共起キーワード
文章中に出現する単語の出現パターンが似たものを線で結んだ図です。出現数が多い語ほど大きく、また共起の程度が強いほど太い線で描画されます。
共起とは
2次元マップ
文章中での出現傾向が似た単語ほど近く、似ていない単語ほど遠く配置されています。距離が近い単語はグループにまとめ、色分けしています。
係り受け解析
係り受け解析では、「名詞」に係る「形容詞」「動詞」「名詞」についての解析結果を表示します。 「スコア」は、出現回数やその係り受け関係が全組み合わせのうちに占める割合などを複合的に判断し、独自に算出した数値です。 「スコア」が高いほど、よりその係り受け関係が重要であることを示します。 また、単語の後に「(否: 50%)」 などとついている場合、 集計された係り受け関係のうち50%が否定表現(例:「高い」→「高くない」)として使われていることを意味しています。 ネガポジは名詞にかかる形容詞がポジティブ(ネガティブ)な単語かどうかを表しています。
階層的クラスタリング
文章中での出現傾向が似た単語をまとまりとしてとらえられるよう樹形図で表したものです。グループは色分けして表示しています。
階層型クラスタリングとは
まとめ
見て楽しんでください。
「yutohorigome」が気になった人も多いと思いますがオリンピックでスケートボード金メダルを取った堀米雄斗さんです。
@alibaba_cloudがTweetしたのが波及したものでした。
キャラクターかわいいもこの影響だと思います(写真に写ってるので)
まだまだ学んでいる人が多かったり、祭り、思うに独身の日かななど面白い感じに出来上がったと思います。