読者です 読者をやめる 読者になる 読者になる

隠れてていいよ

主にアニメや漫画の感想を書いています

9年書き続けてきたブログの記事を形態素解析してみた

戯言

最初に断っておきますと、技術的な内容は殆どありません。
さて。



ブロガーの僕ができること。 - K’s Station HATENA ver.
個人サイトで運営されていた時代も含めて、16周年を迎えられたそうです。おめでとうございます。何周年とか、そういった記念日ごとに私は無頓着なのですが上記記事を読んで、たまには振り返ってもいいかなと思ったのでこの記事を書いています。





このブログ、つまりはてなダイアリーの「隠れてていいよ」は、2006年9月25日 03:09:52 に始まりました。
テスト - 隠れてていいよ
http://d.hatena.ne.jp/thun2/20060925/1159207792

はてなシステムがどんなものかを知りたいのもあってはてなを今日から使ってみようと思う。

当時は見出しの時刻を保存する設定をONにしていましたので、URL末尾の「1159207792」がエポック秒となっておりまして簡単に更新時間が分かります。エポック秒とは、ある日時を1970年1月1日0時0分0秒からの経過秒数として表したものです。
ブログ開設から9年経過していたことに気付きました。おめでとうございます(自分に対して)。

上記のテスト記事を除いて最初に書いた記事は1時間スペシャル - 隠れてていいよ というもので、これはアニメ『ラブゲッCHU 〜ミラクル声優白書〜』の第23・24話が1時間スペシャル放送されたときの感想を書いたものです。良かった、原点はアニメ感想だった。

9年前から今に至るまで毎日更新していたわけではありませんが、それでもそれなりの量の文章は書いてきたので、少しは自信に繋がってきました。これからも精進し続けます。昔の記事を読み返しますと顔から火が出る思いです。

調査、解析してみよう

はてなダイアリーでは記事データを各種ファイル形式でエクスポート可能です。はてなダイアリーで提供されているデータやGoogle Analytics、またこのCSVデータを少し解析してみました。

  • CSVのファイルサイズは約8.8MB、HTMLタグを削除すると約6.8MB(文字コードShift_JIS
  • HMTLタグを除いた文字数:7,092,386 文字(秀丸表示)
  • 記事を書いた日数 883日(はてなダイアリー情報より)
  • 書いた記事数 2284件(CSVより解析)
  • 曜日ごとの投稿数
451 235 310 358 308 257 365

思いの外、ファイルサイズが小さいなと感じました(情報量なので大きいも少ないもないのかもしれませんが)。
9年は360×9で3240日ですので、およそ3.7日に1回更新のペースで書いていたようです。あくまで平均で、実感的にも一時期ほぼ毎日更新を1年ぐらい続けていた時期がありましたので、そこに引っ張られているのでしょう。書いた記事数2284件は、想像よりも多かったです。これも一時期、ほぼ全てのアニメの感想を1年以上書き続けていたことが影響していると思います。
年間投稿数・月ごとの投稿数などの分析もしたいのですが、プログラム書くのが面倒になったのでやめました。

形態素解析してみよう

さてここあたりまで分析してふと気になったことがありまして、それが記事タイトルにもなっている形態素解析です。
Wikipediaから引用させていただきますと

対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。

形態素解析 - Wikipedia

例えば、「すもももももももものうち」をMeCabと呼ばれる形態素解析エンジンで解析した結果が以下のようになります。

すもももももももものうち
すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ

ライブラリを利用するだけで一発でこの結果が出るのですからすごいです。
なんとなくこんなのも。

このおだやかさ、おだやかじゃないわね
この	連体詞,*,*,*,*,*,この,コノ,コノ
おだやか	名詞,形容動詞語幹,*,*,*,*,おだやか,オダヤカ,オダヤカ
さ	名詞,接尾,特殊,*,*,*,さ,サ,サ
、	記号,読点,*,*,*,*,、,、,、
おだやか	名詞,形容動詞語幹,*,*,*,*,おだやか,オダヤカ,オダヤカ
じゃ	助詞,副助詞,*,*,*,*,じゃ,ジャ,ジャ
ない	助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
わ	助詞,終助詞,*,*,*,*,わ,ワ,ワ
ね	助詞,終助詞,*,*,*,*,ね,ネ,ネ


つまり、これまで書いてきたブログの記事を形態素解析した結果を見てみたら、自分の傾向が何か見えてくるのではないかと思ったわけです。

前提
  • 解析対象:エクスポートしたCSVファイル(正規化はせず)
  • 解析環境:VMware上にUbuntu64bit
  • プログラム言語:Ruby
  • 形態素解析エンジン:Mecab
  • 抽出条件など:名詞のみを抽出してサマリーする
結果

明らかに意味をなしていない名詞は意図的に外したうえで、登場回数が100までを羅列させました。数が多いので、スマホの方、スクロールさせてしまうことご容赦ください。PCでもスクロールがかなり発生すると思います。
とは言え、眺めながらいろいろニヤニヤしてもらえればなと思います。

 ["アニメ", "12666"],
 ["話", "11683"],
 ["こと", "11109"],
 ["さん", "4871"],
 ["人", "4731"],
 ["私", "4654"],
 ["的", "3965"],
 ["作品", "3858"],
 ["シーン", "3730"],
 ["それ", "3716"],
 ["これ", "3133"],
 ["もの", "3064"],
 ["今回", "2955"],
 ["何", "2777"],
 ["方", "2611"],
 ["記事", "2513"],
 ["自分", "2314"],
 ["そう", "2314"],
 ["中", "2312"],
 ["原作", "2312"],
 ["わけ", "2250"],
 ["回", "2229"],
 ["キャラ", "2215"],
 ["事", "2041"],
 ["気", "1831"],
 ["ストーリー", "1760"],
 ["時", "1720"],
 ["ちゃん", "1630"],
 ["今", "1618"],
 ["最後", "1583"],
 ["視聴", "1580"],
 ["目", "1577"],
 ["年", "1570"],
 ["一", "1515"],
 ["放送", "1513"],
 ["ところ", "1501"],
 ["ため", "1499"],
 ["展開", "1446"],
 ["好き", "1422"],
 ["感じ", "1350"],
 ["ここ", "1318"],
 ["3", "1300"],
 ["キャラクター", "1276"],
 ["日", "1274"],
 ["アイカツ", "1270"],
 ["者", "1241"],
 ["意味", "1226"],
 ["たち", "1225"],
 ["登場", "1205"],
 ["エロ", "1168"],
 ["二", "1160"],
 ["言葉", "1153"],
 ["化", "1104"],
 ["最終", "1093"],
 ["ネタ", "1090"],
 ["感想", "1061"],
 ["お話", "1058"],
 ["時間", "1034"],
 ["子", "1033"],
 ["月", "1031"],
 ["主人公", "1008"],
 ["thun", "1003"],
 ["期待", "999"],
 ["部分", "967"],
 ["前", "963"],
 ["心", "957"],
 ["後", "948"],
 ["上", "940"],
 ["感", "934"],
 ["感情", "893"],
 ["演出", "891"],
 ["最近", "883"],
 ["内容", "866"],
 ["設定", "847"],
 ["関係", "842"],
 ["問題", "841"],
 ["乃絵", "816"],
 ["最初", "815"],
 ["ギャグ", "808"],
 ["度", "804"],
 ["花", "802"],
 ["とき", "791"],
 ["気持ち", "764"],
 ["分", "762"],
 ["期", "753"],
 ["A", "747"],
 ["以下", "739"],
 ["少女", "739"],
 ["クール", "728"],
 ["そこ", "726"],
 ["コメント", "724"],
 ["一番", "720"],
 ["理解", "714"],
 ["楽しみ", "713"],
 ["印象", "708"],
 ["ヒロイン", "696"],
 ["ブログ", "685"],
 ["手", "681"],
 ["数", "678"],
 ["神", "675"],
 ["性", "674"],
 ["確か", "669"],
 ["以上", "667"],
 ["公式", "667"],
 ["本", "667"],
 ["描写", "663"],
 ["次回", "660"],
 ["巻", "655"],
 ["パート", "655"],
 ["作画", "646"],
 ["非常", "637"],
 ["理由", "635"],
 ["OP", "618"],
 ["サイト", "614"],
 ["赤ずきん", "610"],
 ["力", "609"],
 ["世界", "608"],
 ["女の子", "608"],
 ["曲", "603"],
 ["C", "603"],
 ["情報", "599"],
 ["俺", "598"],
 ["誰", "596"],
 ["今日", "591"],
 ["普通", "586"],
 ["声", "582"],
 ["今後", "571"],
 ["絵", "570"],
 ["はず", "560"],
 ["個人", "559"],
 ["一つ", "553"],
 ["編", "552"],
 ["過去", "551"],
 ["考察", "539"],
 ["オタク", "538"],
 ["日常", "535"],
 ["先生", "529"],
 ["全て", "528"],
 ["側", "520"],
 ["今週", "516"],
 ["十", "515"],
 ["シリアス", "514"],
 ["アイドル", "514"],
 ["必要", "510"],
 ["みたい", "502"],
 ["眞一郎", "499"],
 ["歌", "498"],
 ["セリフ", "497"],
 ["漫画", "495"],
 ["点", "493"],
 ["先週", "491"],
 ["関連", "488"],
 ["せい", "487"],
 ["絶対", "485"],
 ["引用", "483"],
 ["所", "483"],
 ["最高", "481"],
 ["現在", "480"],
 ["存在", "469"],
 ["思い", "466"],
 ["いちご", "465"],
 ["意見", "465"],
 ["夏", "464"],
 ["来週", "462"],
 ["説明", "458"],
 ["どこ", "457"],
 ["妹", "452"],
 ["顔", "448"],
 ["以外", "446"],
 ["表現", "446"],
 ["みんな", "440"],
 ["開始", "438"],
 ["構成", "435"],
 ["版", "435"],
 ["更新", "432"],
 ["ライト", "430"],
 ["DVD", "429"],
 ["可能", "426"],
 ["ら", "425"],
 ["比呂美", "423"],
 ["ED", "420"],
 ["すぎ", "418"],
 ["魔法", "416"],
 ["ネット", "406"],
 ["感動", "405"],
 ["天使", "404"],
 ["様", "403"],
 ["予告", "399"],
 ["ストレート", "398"],
 ["ゲーム", "398"],
 ["監督", "397"],
 ["以降", "396"],
 ["全体", "394"],
 ["男", "394"],
 ["人間", "393"],
 ["本編", "392"],
 ["ライブ", "390"],
 ["流れ", "389"],
 ["紹介", "386"],
 ["活躍", "386"],
 ["イベント", "385"],
 ["ほう", "385"],
 ["物語", "379"],
 ["頭", "378"],
 ["体", "376"],
 ["愛", "374"],
 ["映像", "372"],
 ["僕", "372"],
 ["系", "371"],
 ["君", "369"],
 ["終了", "368"],
 ["規制", "368"],
 ["プレイ", "367"],
 ["シリーズ", "365"],
 ["重要", "364"],
 ["通り", "362"],
 ["戯言", "360"],
 ["会", "359"],
 ["間違い", "359"],
 ["予定", "357"],
 ["限り", "356"],
 ["BD", "356"],
 ["参加", "356"],
 ["発売", "354"],
 ["動画", "354"],
 ["他", "354"],
 ["魅力", "353"],
 ["画像", "352"],
 ["まとめ", "351"],
 ["緒", "350"],
 ["三", "349"],
 ["くん", "346"],
 ["次", "346"],
 ["!", "344"],
 ["現実", "344"],
 ["ロリ", "343"],
 ["状態", "342"],
 ["菜", "342"],
 ["子供", "339"],
 ["行動", "339"],
 ["深夜", "337"],
 ["頃", "336"],
 ["予想", "336"],
 ["ミミカ", "336"],
 ["胸", "334"],
 ["達", "332"],
 ["場合", "331"],
 ["文字", "329"],
 ["別", "328"],
 ["敵", "327"],
 ["戦闘", "326"],
 ["B", "325"],
 ["その後", "324"],
 ["本当", "316"],
 ["ゅ", "316"],
 ["久々", "315"],
 ["当時", "315"],
 ["夢", "314"],
 ["twitter", "313"],
 ["謎", "313"],
 ["今期", "313"],
 ["声優", "311"],
 ["オリジナル", "310"],
 ["学園", "308"],
 ["完全", "308"],
 ["乃", "307"],
 ["全部", "306"],
 ["香", "306"],
 ["購入", "305"],
 ["結果", "304"],
 ["興味", "304"],
 ["部", "300"],
 ["家", "298"],
 ["記憶", "298"],
 ["程度", "297"],
 ["録画", "296"],
 ["太", "295"],
 ["円", "294"],
 ["考え方", "293"],
 ["会話", "293"],
 ["スタッフ", "293"],
 ["辺り", "292"],
 ["ノベル", "291"],
 ["テレビ", "290"],
 ["向け", "290"],
 ["生徒", "290"],
 ["評価", "289"],
 ["たくさん", "288"],
 ["制作", "288"],
 ["名前", "287"],
 ["映画", "285"],
 ["多く", "285"],
 ["娘", "284"],
 ["先", "283"],
 ["タイトル", "281"],
 ["正直", "280"],
 ["毎週", "280"],
 ["移入", "280"],
 ["どちら", "279"],
 ["事実", "279"],
 ["様々", "279"],
 ["コミケ", "277"],
 ["変化", "277"],
 ["空気", "277"],
 ["彼女", "276"],
 ["逆", "276"],
 ["内", "276"],
 ["大好き", "274"],
 ["文章", "271"],
 ["tears", "271"],
 ["true", "270"],
 ["マジ", "269"],
 ["自身", "269"],
 ["違い", "269"],
 ["音楽", "268"],
 ["歩", "268"],
 ["あなた", "268"],
 ["もも", "268"],
 ["黒", "266"],
 ["番組", "266"],
 ["素敵", "265"],
 ["ラブ", "263"],
 ["皆", "261"],
 ["瞬間", "261"],
 ["イメージ", "260"],
 ["それぞれ", "260"],
 ["話題", "259"],
 ["配信", "259"],
 ["あたり", "258"],
 ["解決", "258"],
 ["妄想", "258"],
 ["幸せ", "256"],
 ["女性", "256"],
 ["自体", "256"],
 ["お前", "256"],
 ["風", "255"],
 ["リアルタイム", "253"],
 ["以前", "253"],
 ["涙", "250"],
 ["冒頭", "250"],
 ["要素", "249"],
 ["精神", "249"],
 ["つもり", "249"],
 ["前回", "249"],
 ["時点", "248"],
 ["間", "248"],
 ["基本", "248"],
 ["リンク", "246"],
 ["想い", "245"],
 ["若干", "244"],
 ["おん", "244"],
 ["姿", "243"],
 ["あれ", "242"],
 ["未来", "241"],
 ["笑い", "241"],
 ["オープニング", "239"],
 ["レベル", "239"],
 ["オチ", "237"],
 ["ただ", "237"],
 ["番", "237"],
 ["主", "237"],
 ["明日", "237"],
 ["簡単", "236"],
 ["満足", "236"],
 ["場所", "235"],
 ["タイプ", "234"],
 ["〜\"]", "233"],
 ["カット", "233"],
 ["圧倒的", "233"],
 ["リアル", "232"],
 ["カード", "231"],
 ["物", "231"],
 ["雰囲気", "230"],
 ["比較", "230"],
 ["批判", "230"],
 ["目的", "229"],
 ["空", "228"],
 ["via", "228"],
 ["視点", "228"],
 ["まま", "227"],
 ["色", "227"],
 ["京都", "227"],
 ["麻", "226"],
 ["OP", "226"],
 ["最強", "226"],
 ["メイン", "226"],
 ["変身", "225"],
 ["想像", "225"],
 ["是非", "224"],
 ["納得", "224"],
 ["ポイント", "223"],
 ["昔", "222"],
 ["エロイ", "221"],
 ["時代", "221"],
 ["影響", "220"],
 ["生", "220"],
 ["神様", "220"],
 ["幾つ", "219"],
 ["方法", "219"],
 ["素直", "218"],
 ["例", "218"],
 ["シチュエーション", "217"],
 ["意識", "217"],
 ["ケンイチ", "216"],
 ["当初", "216"],
 ["少年", "216"],
 ["銃", "216"],
 ["道", "215"],
 ["百", "215"],
 ["異常", "213"],
 ["女", "212"],
 ["フラグ", "212"],
 ["無駄", "212"],
 ["ルルーシュ", "212"],
 ["一言", "210"],
 ["実況", "209"],
 ["関西", "209"],
 ["美", "208"],
 ["楽", "208"],
 ["仕方", "208"],
 ["ページ", "208"],
 ["決定", "208"],
 ["周り", "206"],
 ["もん", "206"],
 ["結局", "205"],
 ["音", "205"],
 ["キス", "204"],
 ["だめ", "204"],
 ["画面", "203"],
 ["裏", "201"],
 ["反応", "201"],
 ["テーマ", "201"],
 ["笑顔", "201"],
 ["いろは", "201"],
 ["残念", "201"],
 ["普段", "201"],
 ["こちら", "200"],
 ["アニメーション", "199"],
 ["かなり", "199"],
 ["脚本", "199"],
 ["方向", "198"],
 ["イカ", "197"],
 ["サークル", "196"],
 ["ニュース", "196"],
 ["水着", "196"],
 ["契約", "195"],
 ["仕事", "195"],
 ["機", "194"],
 ["殆ど", "194"],
 ["まどか", "194"],
 ["おじさん", "194"],
 ["夜", "194"],
 ["消化", "194"],
 ["雪", "194"],
 ["金", "193"],
 ["際", "193"],
 ["詳細", "192"],
 ["一般", "191"],
 ["テンポ", "190"],
 ["選", "190"],
 ["絶望", "189"],
 ["心配", "189"],
 ["姉", "188"],
 ["感覚", "188"],
 ["担当", "188"],
 ["下", "188"],
 ["プリキュア", "187"],
 ["友達", "187"],
 ["士", "187"],
 ["不安", "186"],
 ["服", "186"],
 ["がち", "185"],
 ["料理", "185"],
 ["コゼット", "184"],
 ["ファン", "184"],
 ["盛り上がり", "184"],
 ["猫", "184"],
 ["途中", "184"],
 ["公", "183"],
 ["事前", "182"],
 ["真剣", "182"],
 ["事件", "182"],
 ["単純", "182"],
 ["仲間", "182"],
 ["グレーテル", "182"],
 ["お願い", "182"],
 ["味", "182"],
 ["連載", "181"],
 ["さま", "181"],
 ["学校", "180"],
 ["違和感", "180"],
 ["環境", "179"],
 ["日本", "178"],
 ["七", "177"],
 ["回想", "176"],
 ["高校生", "175"],
 ["つまり", "175"],
 ["佐", "174"],
 ["バカ", "174"],
 ["ゾンビ", "174"],
 ["星", "174"],
 ["風呂", "174"],
 ["ツイート", "173"],
 ["合", "173"],
 ["一部", "172"],
 ["コードギアス", "172"],
 ["家族", "172"],
 ["インタビュー", "171"],
 ["勝手", "171"],
 ["毎度", "171"],
 ["名", "171"],
 ["皆さん", "171"],
 ["作", "171"],
 ["TV", "171"],
 ["一緒", "170"],
 ["祭", "170"],
 ["変態", "170"],
 ["元", "169"],
 ["セカイ", "169"],
 ["足", "169"],
 ["コマ", "169"],
 ["動き", "169"],
 ["パズル", "168"],
 ["綺麗", "168"],
 ["作曲", "168"],
 ["他人", "168"],
 ["原因", "168"],
 ["パンツ", "168"],
 ["劇場", "167"],
 ["護", "166"],
 ["作り", "166"],
 ["線", "166"],
 ["トー", "166"],
 ["件", "166"],
 ["変", "166"],
 ["活動", "165"],
 ["エンディング", "165"],
 ["企画", "165"],
 ["先輩", "165"],
 ["参考", "165"],
 ["小学生", "165"],
 ["りんご", "165"],
 ["学", "165"],
 ["KBS", "164"],
 ["勢い", "164"],
 ["作詞", "164"],
 ["突っ込み", "164"],
 ["ベン", "164"],
 ["姫", "163"],
 ["毎日", "162"],
 ["磨", "162"],
 ["誌", "162"],
 ["魔女", "162"],
 ["石", "162"],
 ["成長", "162"],
 ["心情", "162"],
 ["ゾン", "161"],
 ["チェック", "161"],
 ["収録", "160"],
 ["幼女", "160"],
 ["赤", "160"],
 ["注意", "160"],
 ["割", "160"],
 ["兄ちゃん", "160"],
 ["マギカ", "160"],
 ["どころ", "159"],
 ["前半", "159"],
 ["バトル", "158"],
 ["製作", "158"],
 ["サブ", "158"],
 ["同人", "158"],
 ["兄", "157"],
 ["微妙", "156"],
 ["認識", "156"],
 ["安定", "156"],
 ["久しぶり", "155"],
 ["不思議", "155"],
 ["検索", "154"],
 ["枠", "154"],
 ["具体", "154"],
 ["星宮", "154"],
 ["その他", "154"],
 ["人気", "154"],
 ["人物", "154"],
 ["恋", "153"],
 ["推測", "153"],
 ["ルート", "153"],
 ["後半", "153"],
 ["意図", "153"],
 ["涼", "152"],
 ["否定", "152"],
 ["週", "152"],
 ["安心", "152"],
 ["ED", "152"],
 ["面", "151"],
 ["当たり前", "151"],
 ["電波", "151"],
 ["おっぱい", "150"],
 ["TVO", "150"],
 ["無理", "150"],
 ["伏線", "150"],
 ["ぇ", "150"],
 ["やつ", "149"],
 ["秒", "149"],
 ["思考", "149"],
 ["議論", "149"],
 ["魔", "149"],
 ["本気", "148"],
 ["主張", "148"],
 ["青", "148"],
 ["最新", "148"],
 ["告白", "147"],
 ["多数", "147"],
 ["発生", "147"],
 ["フラクタル", "147"],
 ["能力", "146"],
 ["わり", "146"],
 ["権", "146"],
 ["っぷり", "146"],
 ["ホライゾン", "145"],
 ["再生", "145"],
 ["地獄", "145"],
 ["タイ", "145"],
 ["生活", "145"],
 ["パン", "145"],
 ["前提", "144"],
 ["茉咲", "144"],
 ["努力", "144"],
 ["髪", "144"],
 ["噂", "144"],
 ["電車", "143"],
 ["ドラ", "143"],
 ["拳", "142"],
 ["メモ", "142"],
 ["ネギ", "142"],
 ["ジャンル", "142"],
 ["銀", "142"],
 ["形", "142"],
 ["スカート", "142"],
 ["結論", "141"],
 ["やり取り", "141"],
 ["劇", "141"],
 ["時期", "141"],
 ["野球", "141"],
 ["誠", "140"],
 ["白", "140"],
 ["十分", "140"],
 ["完璧", "140"],
 ["コンテンツ", "140"],
 ["メリー", "140"],
 ["疑問", "139"],
 ["園長", "139"],
 ["編曲", "138"],
 ["新", "138"],
 ["CD", "138"],
 ["一瞬", "137"],
 ["どれ", "137"],
 ["宇宙", "137"],
 ["王道", "137"],
 ["ごと", "137"],
 ["エロゲ", "137"],
 ["戦い", "136"],
 ["ジャスミン", "136"],
 ["草", "136"],
 ["指摘", "136"],
 ["同様", "136"],
 ["光", "136"],
 ["中盤", "136"],
 ["付き", "136"],
 ["ギャップ", "136"],
 ["社会", "136"],
 ["コメ", "135"],
 ["丁寧", "135"],
 ["考え", "135"],
 ["たん", "135"],
 ["論", "135"],
 ["BLACK", "135"],
 ["高校", "134"],
 ["め", "134"],
 ["タイム", "134"],
 ["それなり", "134"],
 ["数行", "134"],
 ["気合", "134"],
 ["聖地", "134"],
 ["明らか", "134"],
 ["大丈夫", "134"],
 ["枚", "133"],
 ["特別", "133"],
 ["うち", "133"],
 ["真面目", "133"],
 ["アセット", "133"],
 ["子ども", "133"],
 ["・", "132"],
 ["Twitter", "132"],
 ["召喚", "132"],
 ["エミリー", "132"],
 ["焦点", "132"],
 ["経験", "132"],
 ["コミック", "132"],
 ["著作", "131"],
 ["場面", "131"],
 ["ご覧", "130"],
 ["派", "130"],
 ["恋愛", "130"],
 ["デレ", "130"],
 ["長", "130"],
 ["舞台", "129"],
 ["発言", "129"],
 ["具合", "128"],
 ["中心", "128"],
 ["今度", "128"],
 ["続き", "127"],
 ["次元", "127"],
 ["木", "127"],
 ["悠太", "127"],
 ["無料", "127"],
 ["約束", "127"],
 ["大人", "127"],
 ["千波", "126"],
 ["獣", "126"],
 ["サービス", "126"],
 ["男の子", "126"],
 ["すべて", "126"],
 ["花嫁", "126"],
 ["穂", "126"],
 ["筐", "126"],
 ["アクション", "125"],
 ["お金", "125"],
 ["大事", "125"],
 ["あまり", "125"],
 ["めだか", "124"],
 ["みなさん", "124"],
 ["限定", "124"],
 ["ファイ・ブレイン", "124"],
 ["観", "124"],
 ["弟子", "124"],
 ["役", "124"],
 ["たび", "123"],
 ["等", "123"],
 ["応援", "123"],
 ["ノリ", "123"],
 ["あと", "123"],
 ["スター", "123"],
 ["いつ", "123"],
 ["衣", "123"],
 ["瀬戸", "122"],
 ["ユイ", "122"],
 ["半分", "122"],
 ["歳", "122"],
 ["上記", "122"],
 ["大切", "121"],
 ["感謝", "121"],
 ["東", "121"],
 ["弾", "120"],
 ["美波", "120"],
 ["バレ", "120"],
 ["全員", "120"],
 ["公開", "120"],
 ["ラノベ", "120"],
 ["姉妹", "119"],
 ["IS", "119"],
 ["使用", "119"],
 ["Wikipedia", "119"],
 ["週間", "119"],
 ["メディアミックス", "119"],
 ["本人", "119"],
 ["史上", "119"],
 ["店", "119"],
 ["戦", "119"],
 ["境界", "118"],
 ["席", "118"],
 ["後編", "118"],
 ["九", "117"],
 ["相手", "117"],
 ["新作", "117"],
 ["ときめき", "117"],
 ["紅", "117"],
 ["同士", "117"],
 ["確認", "117"],
 ["破壊", "117"],
 ["みかん", "116"],
 ["翠", "116"],
 ["作者", "116"],
 ["口", "116"],
 ["おかげ", "116"],
 ["価値", "116"],
 ["弁当", "116"],
 ["智", "116"],
 ["水", "116"],
 ["死", "115"],
 ["めん", "115"],
 ["性格", "115"],
 ["白梅", "115"],
 ["行為", "115"],
 ["単位", "115"],
 ["暴走", "114"],
 ["スティグマ", "114"],
 ["出来", "114"],
 ["攻撃", "114"],
 ["雨", "114"],
 ["巡礼", "114"],
 ["朝", "113"],
 ["仮面ライダー", "113"],
 ["ハルナ", "113"],
 ["きれい", "113"],
 ["無し", "113"],
 ["パパ", "113"],
 ["コンテ", "113"],
 ["発表", "113"],
 ["冬", "112"],
 ["特徴", "112"],
 ["リーフ", "112"],
 ["クライマックス", "112"],
 ["っぱなし", "112"],
 ["王子", "112"],
 ["嘘", "112"],
 ["言動", "112"],
 ["ユウ", "112"],
 ["ダンス", "112"],
 ["委員", "112"],
 ["ノイタミナ", "112"],
 ["ツッコミ", "112"],
 ["日記", "112"],
 ["まり", "112"],
 ["部屋", "111"],
 ["提供", "111"],
 ["復活", "111"],
 ["街", "110"],
 ["武装", "110"],
 ["さくら", "110"],
 ["初期", "110"],
 ["会社", "110"],
 ["きっかけ", "110"],
 ["お互い", "110"],
 ["無意識", "110"],
 ["写真", "109"],
 ["うた", "109"],
 ["等々", "109"],
 ["!]", "109"],
 ["根", "109"],
 ["崩壊", "109"],
 ["何かしら", "109"],
 ["本来", "109"],
 ["解釈", "109"],
 ["すもも", "108"],
 ["ジュリエット", "108"],
 ["一連", "108"],
 ["剣", "108"],
 ["みな", "108"],
 ["見た目", "108"],
 ["勘違い", "108"],
 ["扱い", "108"],
 ["尺", "107"],
 ["女児", "107"],
 ["独特", "107"],
 ["ダム", "107"],
 ["過言", "107"],
 ["歌詞", "107"],
 ["調査", "107"],
 ["耳", "107"],
 ["知識", "107"],
 ["実写", "106"],
 ["文句", "106"],
 ["終り", "106"],
 ["終", "106"],
 ["テンション", "106"],
 ["前編", "106"],
 ["キーワード", "106"],
 ["毎回", "106"],
 ["嫉妬", "106"],
 ["スナコ", "106"],
 ["会長", "105"],
 ["唐突", "105"],
 ["人生", "105"],
 ["昨日", "105"],
 ["過程", "104"],
 ["語", "104"],
 ["大変", "104"],
 ["本質", "104"],
 ["男性", "104"],
 ["趣味", "104"],
 ["傾向", "103"],
 ["母", "103"],
 ["矛盾", "103"],
 ["突入", "103"],
 ["ン", "103"],
 ["いくつ", "103"],
 ["探偵", "103"],
 ["成功", "102"],
 ["連続", "102"],
 ["自然", "102"],
 ["積極", "102"],
 ["勝負", "102"],
 ["四", "102"],
 ["アリス", "102"],
 ["嫌悪", "102"],
 ["種", "102"],
 ["爆笑", "102"],
 ["衝撃", "102"],
 ["輔", "102"],
 ["肌", "101"],
 ["アップ", "101"],
 ["ろ", "101"],
 ["手段", "101"],
 ["嫌い", "101"],
 ["作家", "101"],
 ["スペシャル", "101"],
 ["東京", "100"],
 ["直接的", "100"],
 ["和", "100"],
 ["修", "100"],
 ["光太郎", "100"],
 ["MBS", "100"],
 ["丸", "100"],
 ["恐怖", "100"],
 ["ツンデレ", "100"],


ヒストグラムは以下のようになっております。

区間 頻度
0 〜 1000 21,012
1000 〜 2000 38
2000 〜 3000 12
3000 〜 4000 6
4000 〜 5000 3
5000 〜 6000 0
6000 〜 7000 0
7000 〜 8000 0
8000 〜 9000 0
9000 〜 10000 0
10000 〜 11000 0
11000 〜 12000 2
12000 〜 13000 1

1000以下を100刻みは以下。

区間 頻度
0 〜 100 20,102
100 〜 200 511
200 〜 300 180
300 〜 400 91
400 〜 500 44
500 〜 600 25
600 〜 700 26
700 〜 800 14
800 〜 900 12
900 〜 1000 7


グラフにはしておりませんが、ロングテールになっていることが容易に分かります。
気になったところとしては

乃絵816、眞一郎499、比呂美423、愛子16

やはり断トツで乃絵でした。憎さ余って比呂美がトップかとも思いましたが、杞憂?だったようです。三代吉はうまく抽出されませんでした。

光太郎 100、「千波」126、園美62

CODE-Eというアニメのキャラクターたち。CODE-Eの感想では名前をやたら連呼していたようです。ちなみにヒロインの海老原千波美さんは、千波美が抽出できず、「千波」で126件でした。

アニメタイトルはアイカツ 1,270、C 603

ただしCは本当にアニメタイトルのCであるかが不明。またアニメの略称など、うまく抽出できておりません(例えばこれゾンとか、ベン・トーとか)。

キャラ 2,215、キャラクター 1,276

言葉の使い方。ダブルスコアが付きそう。記事内容によって分布がかなり変わりそう。考察系はキャラクターが多いとか。

妹 452、姉 188、姉妹 119

妹大勝利。



もう少し様々の軸で分析してみたいとは思いましたが、力尽きたのでまた今度にしたいと思います。

終わりに

というわけで、なんとなく振り返ってみましたがいかがでしたでしょうか。形態素解析のような分析は、自分の文章の癖や傾向を把握することの一助にはなりそうです。振り返ってみると案外楽しかったです。書き続けていると分析対象も生まれるということで、


これからもブログは書き続けると思います。ブログは生きる糧です。書かないと胸が詰まりそうになることがありませんか。そんな時は文章にして吐き出すとスッキリします。ストレス解消にもなります。

最初にも書いたように、あまり意識して続けてきたわけではなく、書きたいから書いてきたら9年経ったという感じです。「(オタクに)なろうと思ってなったもんじゃねぇから、やめる事もできねぇよ」ではありませんが、やめるやめないの問題ではありませんね。とは言いつつ、仕事が忙しくて死にそうです。
9年で一番変わったことは、もしかしたら仕事で忙しくなったことかもしれません。





補足

今回利用しました形態素解析エンジンMeCabでは標準ではIPA辞書と呼ばれるものが利用されています。他の辞書に切り替えてみたり、IPA辞書がもっと拡充されるなどすれば、より精度の高い分析が可能になるかもしれません。例えば「ベン・トー」などはWikipediaには登録されているでしょうから、Wikipediaの単語を取り込んだ辞書なら抽出は可能になりそうです。
また今回解析元となるCSVデータはほぼ加工せずそのまま取り込んでいるのですが、解析前に行うことが望ましい文字列の正規化処理 にあるように、正規化処理を行っておくと、より精度を上げることができそうです。ちなみに正規化処理についてはこの文章を書いている時に気づいたのでまだ試していません。
アイディアとしては、インプットにブログデータを読み込ませると、アニメ作品別にキャラクター登場頻度が抽出されたりすると面白いかもしれません。気持ちに余裕ができたらそんなサービスも作ってみます。

なお今回書いたプログラムコードも一応載せておきます。が、とりあえず動いて抽出できれば良いやレベルですので、その辺りご留意いただければと思います。Rubyは初めて書きました。

#encoding: utf-8
 
require 'MeCab'
require 'pp'
require 'csv'

 
mecab = MeCab::Tagger.new
word_array = []

CSV.open('test.csv', 'r') do |reader|
    reader.each do |row|
	sentence = row.to_s
	node = mecab.parseToNode(sentence)
	begin
	    node = node.next
	    if /^名詞/ =~ node.feature.force_encoding("UTF-8")
		word_array << node.surface.force_encoding("UTF-8")
	    end
	end until node.next.feature.include?("BOS/EOS")
    end
end
 
words_and_count = []
word_array.uniq.map do |word|  
    words_and_count[words_and_count.size] = ["#{word}", "#{word_array.grep(word).count}"] if word
end

pp words_and_count.sort_by { |word_and_count| word_and_count[1].to_i }.reverse

参考にさせていただいたサイト