最初に断っておきますと、技術的な内容は殆どありません。
さて。
ブロガーの僕ができること。 - K’s Station HATENA ver.
個人サイトで運営されていた時代も含めて、16周年を迎えられたそうです。おめでとうございます。何周年とか、そういった記念日ごとに私は無頓着なのですが上記記事を読んで、たまには振り返ってもいいかなと思ったのでこの記事を書いています。
このブログ、つまりはてなダイアリーの「隠れてていいよ」は、2006年9月25日 03:09:52 に始まりました。
テスト - 隠れてていいよ
http://d.hatena.ne.jp/thun2/20060925/1159207792
当時は見出しの時刻を保存する設定をONにしていましたので、URL末尾の「1159207792」がエポック秒となっておりまして簡単に更新時間が分かります。エポック秒とは、ある日時を1970年1月1日0時0分0秒からの経過秒数として表したものです。
ブログ開設から9年経過していたことに気付きました。おめでとうございます(自分に対して)。
上記のテスト記事を除いて最初に書いた記事は1時間スペシャル - 隠れてていいよ というもので、これはアニメ『ラブゲッCHU 〜ミラクル声優白書〜』の第23・24話が1時間スペシャル放送されたときの感想を書いたものです。良かった、原点はアニメ感想だった。
9年前から今に至るまで毎日更新していたわけではありませんが、それでもそれなりの量の文章は書いてきたので、少しは自信に繋がってきました。これからも精進し続けます。昔の記事を読み返しますと顔から火が出る思いです。
調査、解析してみよう
はてなダイアリーでは記事データを各種ファイル形式でエクスポート可能です。はてなダイアリーで提供されているデータやGoogle Analytics、またこのCSVデータを少し解析してみました。
- CSVのファイルサイズは約8.8MB、HTMLタグを削除すると約6.8MB(文字コードはShift_JIS)
- HMTLタグを除いた文字数:7,092,386 文字(秀丸表示)
- 記事を書いた日数 883日(はてなダイアリー情報より)
- 書いた記事数 2284件(CSVより解析)
- 曜日ごとの投稿数
日 | 月 | 火 | 水 | 木 | 金 | 土 |
---|---|---|---|---|---|---|
451 | 235 | 310 | 358 | 308 | 257 | 365 |
- 被はてなブックマーク総数 1,318
- 最大被はてなブックマーク獲得記事(220)
- 総ページビュー数:約116万(Google Analytics調べ。はてなカウンターだと2,396,785)
- 最アクセス記事(トップページ除く)
- ノイタミナ枠アニメ「C」は、もっと評価されるべき - 隠れてていいよ
- ページビュー数:約31,000(mobileページも含む)
- 次点:2004年10月期以降のオリジナルアニメ作品リスト - 隠れてていいよ
思いの外、ファイルサイズが小さいなと感じました(情報量なので大きいも少ないもないのかもしれませんが)。
9年は360×9で3240日ですので、およそ3.7日に1回更新のペースで書いていたようです。あくまで平均で、実感的にも一時期ほぼ毎日更新を1年ぐらい続けていた時期がありましたので、そこに引っ張られているのでしょう。書いた記事数2284件は、想像よりも多かったです。これも一時期、ほぼ全てのアニメの感想を1年以上書き続けていたことが影響していると思います。
年間投稿数・月ごとの投稿数などの分析もしたいのですが、プログラム書くのが面倒になったのでやめました。
形態素解析してみよう
さてここあたりまで分析してふと気になったことがありまして、それが記事タイトルにもなっている形態素解析です。
Wikipediaから引用させていただきますと
対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。
形態素解析 - Wikipedia
例えば、「すもももももももものうち」をMeCabと呼ばれる形態素解析エンジンで解析した結果が以下のようになります。
すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
ライブラリを利用するだけで一発でこの結果が出るのですからすごいです。
なんとなくこんなのも。
このおだやかさ、おだやかじゃないわね この 連体詞,*,*,*,*,*,この,コノ,コノ おだやか 名詞,形容動詞語幹,*,*,*,*,おだやか,オダヤカ,オダヤカ さ 名詞,接尾,特殊,*,*,*,さ,サ,サ 、 記号,読点,*,*,*,*,、,、,、 おだやか 名詞,形容動詞語幹,*,*,*,*,おだやか,オダヤカ,オダヤカ じゃ 助詞,副助詞,*,*,*,*,じゃ,ジャ,ジャ ない 助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ わ 助詞,終助詞,*,*,*,*,わ,ワ,ワ ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ
つまり、これまで書いてきたブログの記事を形態素解析した結果を見てみたら、自分の傾向が何か見えてくるのではないかと思ったわけです。
前提
結果
明らかに意味をなしていない名詞は意図的に外したうえで、登場回数が100までを羅列させました。数が多いので、スマホの方、スクロールさせてしまうことご容赦ください。PCでもスクロールがかなり発生すると思います。
とは言え、眺めながらいろいろニヤニヤしてもらえればなと思います。
["アニメ", "12666"], ["話", "11683"], ["こと", "11109"], ["さん", "4871"], ["人", "4731"], ["私", "4654"], ["的", "3965"], ["作品", "3858"], ["シーン", "3730"], ["それ", "3716"], ["これ", "3133"], ["もの", "3064"], ["今回", "2955"], ["何", "2777"], ["方", "2611"], ["記事", "2513"], ["自分", "2314"], ["そう", "2314"], ["中", "2312"], ["原作", "2312"], ["わけ", "2250"], ["回", "2229"], ["キャラ", "2215"], ["事", "2041"], ["気", "1831"], ["ストーリー", "1760"], ["時", "1720"], ["ちゃん", "1630"], ["今", "1618"], ["最後", "1583"], ["視聴", "1580"], ["目", "1577"], ["年", "1570"], ["一", "1515"], ["放送", "1513"], ["ところ", "1501"], ["ため", "1499"], ["展開", "1446"], ["好き", "1422"], ["感じ", "1350"], ["ここ", "1318"], ["3", "1300"], ["キャラクター", "1276"], ["日", "1274"], ["アイカツ", "1270"], ["者", "1241"], ["意味", "1226"], ["たち", "1225"], ["登場", "1205"], ["エロ", "1168"], ["二", "1160"], ["言葉", "1153"], ["化", "1104"], ["最終", "1093"], ["ネタ", "1090"], ["感想", "1061"], ["お話", "1058"], ["時間", "1034"], ["子", "1033"], ["月", "1031"], ["主人公", "1008"], ["thun", "1003"], ["期待", "999"], ["部分", "967"], ["前", "963"], ["心", "957"], ["後", "948"], ["上", "940"], ["感", "934"], ["感情", "893"], ["演出", "891"], ["最近", "883"], ["内容", "866"], ["設定", "847"], ["関係", "842"], ["問題", "841"], ["乃絵", "816"], ["最初", "815"], ["ギャグ", "808"], ["度", "804"], ["花", "802"], ["とき", "791"], ["気持ち", "764"], ["分", "762"], ["期", "753"], ["A", "747"], ["以下", "739"], ["少女", "739"], ["クール", "728"], ["そこ", "726"], ["コメント", "724"], ["一番", "720"], ["理解", "714"], ["楽しみ", "713"], ["印象", "708"], ["ヒロイン", "696"], ["ブログ", "685"], ["手", "681"], ["数", "678"], ["神", "675"], ["性", "674"], ["確か", "669"], ["以上", "667"], ["公式", "667"], ["本", "667"], ["描写", "663"], ["次回", "660"], ["巻", "655"], ["パート", "655"], ["作画", "646"], ["非常", "637"], ["理由", "635"], ["OP", "618"], ["サイト", "614"], ["赤ずきん", "610"], ["力", "609"], ["世界", "608"], ["女の子", "608"], ["曲", "603"], ["C", "603"], ["情報", "599"], ["俺", "598"], ["誰", "596"], ["今日", "591"], ["普通", "586"], ["声", "582"], ["今後", "571"], ["絵", "570"], ["はず", "560"], ["個人", "559"], ["一つ", "553"], ["編", "552"], ["過去", "551"], ["考察", "539"], ["オタク", "538"], ["日常", "535"], ["先生", "529"], ["全て", "528"], ["側", "520"], ["今週", "516"], ["十", "515"], ["シリアス", "514"], ["アイドル", "514"], ["必要", "510"], ["みたい", "502"], ["眞一郎", "499"], ["歌", "498"], ["セリフ", "497"], ["漫画", "495"], ["点", "493"], ["先週", "491"], ["関連", "488"], ["せい", "487"], ["絶対", "485"], ["引用", "483"], ["所", "483"], ["最高", "481"], ["現在", "480"], ["存在", "469"], ["思い", "466"], ["いちご", "465"], ["意見", "465"], ["夏", "464"], ["来週", "462"], ["説明", "458"], ["どこ", "457"], ["妹", "452"], ["顔", "448"], ["以外", "446"], ["表現", "446"], ["みんな", "440"], ["開始", "438"], ["構成", "435"], ["版", "435"], ["更新", "432"], ["ライト", "430"], ["DVD", "429"], ["可能", "426"], ["ら", "425"], ["比呂美", "423"], ["ED", "420"], ["すぎ", "418"], ["魔法", "416"], ["ネット", "406"], ["感動", "405"], ["天使", "404"], ["様", "403"], ["予告", "399"], ["ストレート", "398"], ["ゲーム", "398"], ["監督", "397"], ["以降", "396"], ["全体", "394"], ["男", "394"], ["人間", "393"], ["本編", "392"], ["ライブ", "390"], ["流れ", "389"], ["紹介", "386"], ["活躍", "386"], ["イベント", "385"], ["ほう", "385"], ["物語", "379"], ["頭", "378"], ["体", "376"], ["愛", "374"], ["映像", "372"], ["僕", "372"], ["系", "371"], ["君", "369"], ["終了", "368"], ["規制", "368"], ["プレイ", "367"], ["シリーズ", "365"], ["重要", "364"], ["通り", "362"], ["戯言", "360"], ["会", "359"], ["間違い", "359"], ["予定", "357"], ["限り", "356"], ["BD", "356"], ["参加", "356"], ["発売", "354"], ["動画", "354"], ["他", "354"], ["魅力", "353"], ["画像", "352"], ["まとめ", "351"], ["緒", "350"], ["三", "349"], ["くん", "346"], ["次", "346"], ["!", "344"], ["現実", "344"], ["ロリ", "343"], ["状態", "342"], ["菜", "342"], ["子供", "339"], ["行動", "339"], ["深夜", "337"], ["頃", "336"], ["予想", "336"], ["ミミカ", "336"], ["胸", "334"], ["達", "332"], ["場合", "331"], ["文字", "329"], ["別", "328"], ["敵", "327"], ["戦闘", "326"], ["B", "325"], ["その後", "324"], ["本当", "316"], ["ゅ", "316"], ["久々", "315"], ["当時", "315"], ["夢", "314"], ["twitter", "313"], ["謎", "313"], ["今期", "313"], ["声優", "311"], ["オリジナル", "310"], ["学園", "308"], ["完全", "308"], ["乃", "307"], ["全部", "306"], ["香", "306"], ["購入", "305"], ["結果", "304"], ["興味", "304"], ["部", "300"], ["家", "298"], ["記憶", "298"], ["程度", "297"], ["録画", "296"], ["太", "295"], ["円", "294"], ["考え方", "293"], ["会話", "293"], ["スタッフ", "293"], ["辺り", "292"], ["ノベル", "291"], ["テレビ", "290"], ["向け", "290"], ["生徒", "290"], ["評価", "289"], ["たくさん", "288"], ["制作", "288"], ["名前", "287"], ["映画", "285"], ["多く", "285"], ["娘", "284"], ["先", "283"], ["タイトル", "281"], ["正直", "280"], ["毎週", "280"], ["移入", "280"], ["どちら", "279"], ["事実", "279"], ["様々", "279"], ["コミケ", "277"], ["変化", "277"], ["空気", "277"], ["彼女", "276"], ["逆", "276"], ["内", "276"], ["大好き", "274"], ["文章", "271"], ["tears", "271"], ["true", "270"], ["マジ", "269"], ["自身", "269"], ["違い", "269"], ["音楽", "268"], ["歩", "268"], ["あなた", "268"], ["もも", "268"], ["黒", "266"], ["番組", "266"], ["素敵", "265"], ["ラブ", "263"], ["皆", "261"], ["瞬間", "261"], ["イメージ", "260"], ["それぞれ", "260"], ["話題", "259"], ["配信", "259"], ["あたり", "258"], ["解決", "258"], ["妄想", "258"], ["幸せ", "256"], ["女性", "256"], ["自体", "256"], ["お前", "256"], ["風", "255"], ["リアルタイム", "253"], ["以前", "253"], ["涙", "250"], ["冒頭", "250"], ["要素", "249"], ["精神", "249"], ["つもり", "249"], ["前回", "249"], ["時点", "248"], ["間", "248"], ["基本", "248"], ["リンク", "246"], ["想い", "245"], ["若干", "244"], ["おん", "244"], ["姿", "243"], ["あれ", "242"], ["未来", "241"], ["笑い", "241"], ["オープニング", "239"], ["レベル", "239"], ["オチ", "237"], ["ただ", "237"], ["番", "237"], ["主", "237"], ["明日", "237"], ["簡単", "236"], ["満足", "236"], ["場所", "235"], ["タイプ", "234"], ["〜\"]", "233"], ["カット", "233"], ["圧倒的", "233"], ["リアル", "232"], ["カード", "231"], ["物", "231"], ["雰囲気", "230"], ["比較", "230"], ["批判", "230"], ["目的", "229"], ["空", "228"], ["via", "228"], ["視点", "228"], ["まま", "227"], ["色", "227"], ["京都", "227"], ["麻", "226"], ["OP", "226"], ["最強", "226"], ["メイン", "226"], ["変身", "225"], ["想像", "225"], ["是非", "224"], ["納得", "224"], ["ポイント", "223"], ["昔", "222"], ["エロイ", "221"], ["時代", "221"], ["影響", "220"], ["生", "220"], ["神様", "220"], ["幾つ", "219"], ["方法", "219"], ["素直", "218"], ["例", "218"], ["シチュエーション", "217"], ["意識", "217"], ["ケンイチ", "216"], ["当初", "216"], ["少年", "216"], ["銃", "216"], ["道", "215"], ["百", "215"], ["異常", "213"], ["女", "212"], ["フラグ", "212"], ["無駄", "212"], ["ルルーシュ", "212"], ["一言", "210"], ["実況", "209"], ["関西", "209"], ["美", "208"], ["楽", "208"], ["仕方", "208"], ["ページ", "208"], ["決定", "208"], ["周り", "206"], ["もん", "206"], ["結局", "205"], ["音", "205"], ["キス", "204"], ["だめ", "204"], ["画面", "203"], ["裏", "201"], ["反応", "201"], ["テーマ", "201"], ["笑顔", "201"], ["いろは", "201"], ["残念", "201"], ["普段", "201"], ["こちら", "200"], ["アニメーション", "199"], ["かなり", "199"], ["脚本", "199"], ["方向", "198"], ["イカ", "197"], ["サークル", "196"], ["ニュース", "196"], ["水着", "196"], ["契約", "195"], ["仕事", "195"], ["機", "194"], ["殆ど", "194"], ["まどか", "194"], ["おじさん", "194"], ["夜", "194"], ["消化", "194"], ["雪", "194"], ["金", "193"], ["際", "193"], ["詳細", "192"], ["一般", "191"], ["テンポ", "190"], ["選", "190"], ["絶望", "189"], ["心配", "189"], ["姉", "188"], ["感覚", "188"], ["担当", "188"], ["下", "188"], ["プリキュア", "187"], ["友達", "187"], ["士", "187"], ["不安", "186"], ["服", "186"], ["がち", "185"], ["料理", "185"], ["コゼット", "184"], ["ファン", "184"], ["盛り上がり", "184"], ["猫", "184"], ["途中", "184"], ["公", "183"], ["事前", "182"], ["真剣", "182"], ["事件", "182"], ["単純", "182"], ["仲間", "182"], ["グレーテル", "182"], ["お願い", "182"], ["味", "182"], ["連載", "181"], ["さま", "181"], ["学校", "180"], ["違和感", "180"], ["環境", "179"], ["日本", "178"], ["七", "177"], ["回想", "176"], ["高校生", "175"], ["つまり", "175"], ["佐", "174"], ["バカ", "174"], ["ゾンビ", "174"], ["星", "174"], ["風呂", "174"], ["ツイート", "173"], ["合", "173"], ["一部", "172"], ["コードギアス", "172"], ["家族", "172"], ["インタビュー", "171"], ["勝手", "171"], ["毎度", "171"], ["名", "171"], ["皆さん", "171"], ["作", "171"], ["TV", "171"], ["一緒", "170"], ["祭", "170"], ["変態", "170"], ["元", "169"], ["セカイ", "169"], ["足", "169"], ["コマ", "169"], ["動き", "169"], ["パズル", "168"], ["綺麗", "168"], ["作曲", "168"], ["他人", "168"], ["原因", "168"], ["パンツ", "168"], ["劇場", "167"], ["護", "166"], ["作り", "166"], ["線", "166"], ["トー", "166"], ["件", "166"], ["変", "166"], ["活動", "165"], ["エンディング", "165"], ["企画", "165"], ["先輩", "165"], ["参考", "165"], ["小学生", "165"], ["りんご", "165"], ["学", "165"], ["KBS", "164"], ["勢い", "164"], ["作詞", "164"], ["突っ込み", "164"], ["ベン", "164"], ["姫", "163"], ["毎日", "162"], ["磨", "162"], ["誌", "162"], ["魔女", "162"], ["石", "162"], ["成長", "162"], ["心情", "162"], ["ゾン", "161"], ["チェック", "161"], ["収録", "160"], ["幼女", "160"], ["赤", "160"], ["注意", "160"], ["割", "160"], ["兄ちゃん", "160"], ["マギカ", "160"], ["どころ", "159"], ["前半", "159"], ["バトル", "158"], ["製作", "158"], ["サブ", "158"], ["同人", "158"], ["兄", "157"], ["微妙", "156"], ["認識", "156"], ["安定", "156"], ["久しぶり", "155"], ["不思議", "155"], ["検索", "154"], ["枠", "154"], ["具体", "154"], ["星宮", "154"], ["その他", "154"], ["人気", "154"], ["人物", "154"], ["恋", "153"], ["推測", "153"], ["ルート", "153"], ["後半", "153"], ["意図", "153"], ["涼", "152"], ["否定", "152"], ["週", "152"], ["安心", "152"], ["ED", "152"], ["面", "151"], ["当たり前", "151"], ["電波", "151"], ["おっぱい", "150"], ["TVO", "150"], ["無理", "150"], ["伏線", "150"], ["ぇ", "150"], ["やつ", "149"], ["秒", "149"], ["思考", "149"], ["議論", "149"], ["魔", "149"], ["本気", "148"], ["主張", "148"], ["青", "148"], ["最新", "148"], ["告白", "147"], ["多数", "147"], ["発生", "147"], ["フラクタル", "147"], ["能力", "146"], ["わり", "146"], ["権", "146"], ["っぷり", "146"], ["ホライゾン", "145"], ["再生", "145"], ["地獄", "145"], ["タイ", "145"], ["生活", "145"], ["パン", "145"], ["前提", "144"], ["茉咲", "144"], ["努力", "144"], ["髪", "144"], ["噂", "144"], ["電車", "143"], ["ドラ", "143"], ["拳", "142"], ["メモ", "142"], ["ネギ", "142"], ["ジャンル", "142"], ["銀", "142"], ["形", "142"], ["スカート", "142"], ["結論", "141"], ["やり取り", "141"], ["劇", "141"], ["時期", "141"], ["野球", "141"], ["誠", "140"], ["白", "140"], ["十分", "140"], ["完璧", "140"], ["コンテンツ", "140"], ["メリー", "140"], ["疑問", "139"], ["園長", "139"], ["編曲", "138"], ["新", "138"], ["CD", "138"], ["一瞬", "137"], ["どれ", "137"], ["宇宙", "137"], ["王道", "137"], ["ごと", "137"], ["エロゲ", "137"], ["戦い", "136"], ["ジャスミン", "136"], ["草", "136"], ["指摘", "136"], ["同様", "136"], ["光", "136"], ["中盤", "136"], ["付き", "136"], ["ギャップ", "136"], ["社会", "136"], ["コメ", "135"], ["丁寧", "135"], ["考え", "135"], ["たん", "135"], ["論", "135"], ["BLACK", "135"], ["高校", "134"], ["め", "134"], ["タイム", "134"], ["それなり", "134"], ["数行", "134"], ["気合", "134"], ["聖地", "134"], ["明らか", "134"], ["大丈夫", "134"], ["枚", "133"], ["特別", "133"], ["うち", "133"], ["真面目", "133"], ["アセット", "133"], ["子ども", "133"], ["・", "132"], ["Twitter", "132"], ["召喚", "132"], ["エミリー", "132"], ["焦点", "132"], ["経験", "132"], ["コミック", "132"], ["著作", "131"], ["場面", "131"], ["ご覧", "130"], ["派", "130"], ["恋愛", "130"], ["デレ", "130"], ["長", "130"], ["舞台", "129"], ["発言", "129"], ["具合", "128"], ["中心", "128"], ["今度", "128"], ["続き", "127"], ["次元", "127"], ["木", "127"], ["悠太", "127"], ["無料", "127"], ["約束", "127"], ["大人", "127"], ["千波", "126"], ["獣", "126"], ["サービス", "126"], ["男の子", "126"], ["すべて", "126"], ["花嫁", "126"], ["穂", "126"], ["筐", "126"], ["アクション", "125"], ["お金", "125"], ["大事", "125"], ["あまり", "125"], ["めだか", "124"], ["みなさん", "124"], ["限定", "124"], ["ファイ・ブレイン", "124"], ["観", "124"], ["弟子", "124"], ["役", "124"], ["たび", "123"], ["等", "123"], ["応援", "123"], ["ノリ", "123"], ["あと", "123"], ["スター", "123"], ["いつ", "123"], ["衣", "123"], ["瀬戸", "122"], ["ユイ", "122"], ["半分", "122"], ["歳", "122"], ["上記", "122"], ["大切", "121"], ["感謝", "121"], ["東", "121"], ["弾", "120"], ["美波", "120"], ["バレ", "120"], ["全員", "120"], ["公開", "120"], ["ラノベ", "120"], ["姉妹", "119"], ["IS", "119"], ["使用", "119"], ["Wikipedia", "119"], ["週間", "119"], ["メディアミックス", "119"], ["本人", "119"], ["史上", "119"], ["店", "119"], ["戦", "119"], ["境界", "118"], ["席", "118"], ["後編", "118"], ["九", "117"], ["相手", "117"], ["新作", "117"], ["ときめき", "117"], ["紅", "117"], ["同士", "117"], ["確認", "117"], ["破壊", "117"], ["みかん", "116"], ["翠", "116"], ["作者", "116"], ["口", "116"], ["おかげ", "116"], ["価値", "116"], ["弁当", "116"], ["智", "116"], ["水", "116"], ["死", "115"], ["めん", "115"], ["性格", "115"], ["白梅", "115"], ["行為", "115"], ["単位", "115"], ["暴走", "114"], ["スティグマ", "114"], ["出来", "114"], ["攻撃", "114"], ["雨", "114"], ["巡礼", "114"], ["朝", "113"], ["仮面ライダー", "113"], ["ハルナ", "113"], ["きれい", "113"], ["無し", "113"], ["パパ", "113"], ["コンテ", "113"], ["発表", "113"], ["冬", "112"], ["特徴", "112"], ["リーフ", "112"], ["クライマックス", "112"], ["っぱなし", "112"], ["王子", "112"], ["嘘", "112"], ["言動", "112"], ["ユウ", "112"], ["ダンス", "112"], ["委員", "112"], ["ノイタミナ", "112"], ["ツッコミ", "112"], ["日記", "112"], ["まり", "112"], ["部屋", "111"], ["提供", "111"], ["復活", "111"], ["街", "110"], ["武装", "110"], ["さくら", "110"], ["初期", "110"], ["会社", "110"], ["きっかけ", "110"], ["お互い", "110"], ["無意識", "110"], ["写真", "109"], ["うた", "109"], ["等々", "109"], ["!]", "109"], ["根", "109"], ["崩壊", "109"], ["何かしら", "109"], ["本来", "109"], ["解釈", "109"], ["すもも", "108"], ["ジュリエット", "108"], ["一連", "108"], ["剣", "108"], ["みな", "108"], ["見た目", "108"], ["勘違い", "108"], ["扱い", "108"], ["尺", "107"], ["女児", "107"], ["独特", "107"], ["ダム", "107"], ["過言", "107"], ["歌詞", "107"], ["調査", "107"], ["耳", "107"], ["知識", "107"], ["実写", "106"], ["文句", "106"], ["終り", "106"], ["終", "106"], ["テンション", "106"], ["前編", "106"], ["キーワード", "106"], ["毎回", "106"], ["嫉妬", "106"], ["スナコ", "106"], ["会長", "105"], ["唐突", "105"], ["人生", "105"], ["昨日", "105"], ["過程", "104"], ["語", "104"], ["大変", "104"], ["本質", "104"], ["男性", "104"], ["趣味", "104"], ["傾向", "103"], ["母", "103"], ["矛盾", "103"], ["突入", "103"], ["ン", "103"], ["いくつ", "103"], ["探偵", "103"], ["成功", "102"], ["連続", "102"], ["自然", "102"], ["積極", "102"], ["勝負", "102"], ["四", "102"], ["アリス", "102"], ["嫌悪", "102"], ["種", "102"], ["爆笑", "102"], ["衝撃", "102"], ["輔", "102"], ["肌", "101"], ["アップ", "101"], ["ろ", "101"], ["手段", "101"], ["嫌い", "101"], ["作家", "101"], ["スペシャル", "101"], ["東京", "100"], ["直接的", "100"], ["和", "100"], ["修", "100"], ["光太郎", "100"], ["MBS", "100"], ["丸", "100"], ["恐怖", "100"], ["ツンデレ", "100"],
ヒストグラムは以下のようになっております。
区間 | 頻度 |
---|---|
0 〜 1000 | 21,012 |
1000 〜 2000 | 38 |
2000 〜 3000 | 12 |
3000 〜 4000 | 6 |
4000 〜 5000 | 3 |
5000 〜 6000 | 0 |
6000 〜 7000 | 0 |
7000 〜 8000 | 0 |
8000 〜 9000 | 0 |
9000 〜 10000 | 0 |
10000 〜 11000 | 0 |
11000 〜 12000 | 2 |
12000 〜 13000 | 1 |
1000以下を100刻みは以下。
区間 | 頻度 |
---|---|
0 〜 100 | 20,102 |
100 〜 200 | 511 |
200 〜 300 | 180 |
300 〜 400 | 91 |
400 〜 500 | 44 |
500 〜 600 | 25 |
600 〜 700 | 26 |
700 〜 800 | 14 |
800 〜 900 | 12 |
900 〜 1000 | 7 |
グラフにはしておりませんが、ロングテールになっていることが容易に分かります。
気になったところとしては
乃絵816、眞一郎499、比呂美423、愛子16
やはり断トツで乃絵でした。憎さ余って比呂美がトップかとも思いましたが、杞憂?だったようです。三代吉はうまく抽出されませんでした。
光太郎 100、「千波」126、園美62
CODE-Eというアニメのキャラクターたち。CODE-Eの感想では名前をやたら連呼していたようです。ちなみにヒロインの海老原千波美さんは、千波美が抽出できず、「千波」で126件でした。
キャラ 2,215、キャラクター 1,276
言葉の使い方。ダブルスコアが付きそう。記事内容によって分布がかなり変わりそう。考察系はキャラクターが多いとか。
妹 452、姉 188、姉妹 119
妹大勝利。
もう少し様々の軸で分析してみたいとは思いましたが、力尽きたのでまた今度にしたいと思います。
終わりに
というわけで、なんとなく振り返ってみましたがいかがでしたでしょうか。形態素解析のような分析は、自分の文章の癖や傾向を把握することの一助にはなりそうです。振り返ってみると案外楽しかったです。書き続けていると分析対象も生まれるということで、
これからもブログは書き続けると思います。ブログは生きる糧です。書かないと胸が詰まりそうになることがありませんか。そんな時は文章にして吐き出すとスッキリします。ストレス解消にもなります。
最初にも書いたように、あまり意識して続けてきたわけではなく、書きたいから書いてきたら9年経ったという感じです。「(オタクに)なろうと思ってなったもんじゃねぇから、やめる事もできねぇよ」ではありませんが、やめるやめないの問題ではありませんね。とは言いつつ、仕事が忙しくて死にそうです。
9年で一番変わったことは、もしかしたら仕事で忙しくなったことかもしれません。
補足
今回利用しました形態素解析エンジンMeCabでは標準ではIPA辞書と呼ばれるものが利用されています。他の辞書に切り替えてみたり、IPA辞書がもっと拡充されるなどすれば、より精度の高い分析が可能になるかもしれません。例えば「ベン・トー」などはWikipediaには登録されているでしょうから、Wikipediaの単語を取り込んだ辞書なら抽出は可能になりそうです。
また今回解析元となるCSVデータはほぼ加工せずそのまま取り込んでいるのですが、解析前に行うことが望ましい文字列の正規化処理 にあるように、正規化処理を行っておくと、より精度を上げることができそうです。ちなみに正規化処理についてはこの文章を書いている時に気づいたのでまだ試していません。
アイディアとしては、インプットにブログデータを読み込ませると、アニメ作品別にキャラクター登場頻度が抽出されたりすると面白いかもしれません。気持ちに余裕ができたらそんなサービスも作ってみます。
なお今回書いたプログラムコードも一応載せておきます。が、とりあえず動いて抽出できれば良いやレベルですので、その辺りご留意いただければと思います。Rubyは初めて書きました。
#encoding: utf-8 require 'MeCab' require 'pp' require 'csv' mecab = MeCab::Tagger.new word_array = [] CSV.open('test.csv', 'r') do |reader| reader.each do |row| sentence = row.to_s node = mecab.parseToNode(sentence) begin node = node.next if /^名詞/ =~ node.feature.force_encoding("UTF-8") word_array << node.surface.force_encoding("UTF-8") end end until node.next.feature.include?("BOS/EOS") end end words_and_count = [] word_array.uniq.map do |word| words_and_count[words_and_count.size] = ["#{word}", "#{word_array.grep(word).count}"] if word end pp words_and_count.sort_by { |word_and_count| word_and_count[1].to_i }.reverse
参考にさせていただいたサイト
- 【natto・mecabで】5分で形態素分析に入門して、修造の「人生を強く生きる83の言葉」の頻出語を調べてみる。【形態素解析】 | Project name
- テキストマイニングの初歩 Rubyで形態素解析を行う〜ruby-mecab | Scimpr Blog
- 新語が追加されたmecab-ipadic-neologd辞書 - 自然言語処理 on Mac
- mecab - 形態素解析のために Wikipedia とはてなキーワードからユーザー辞書を生成し利用する - Qiita
- Mecabのインストールメモ - Qiita
- MeCab と MeCab Ruby をインストールする - kzy52's blog
- LinuxにMecabとmecab-rubyをインストールする | mwSoft
- MeCab Ruby と CaboCha Ruby をインストールしてみた - 名古屋で数学するプログラマ(仮)