以下を haikuwords.sh として保存。
UTF8 環境が前提。
- ----------------------------------------------
- ----------------------------------------------- 引数なしで実行すると、みんなの最新エントリーからよく使われている名詞を抽出する。
!/bin/bash
url=http://h.hatena.ne.jp/$1/.rss
wget -q -O - $url | grep "description\|title" | sed -e "s/&lt;/</g" | sed -e "s/&gt;/>/g" | sed -e "s/<[^>]*>//g" | nkf --euc | chasen | nkf --utf8 | grep "名詞" | sort | sed -e "s/^.*\t.*\(数\|接頭\|副詞\|非自立\|接尾\|代名詞\).*$//g" | cut -f 1 | sed -e "/^$/d" | uniq -c | sort -r | head
$ haikuwords.sh
14 猫
9 声
8 どん
7 命
6 自由
6 兄ちゃん
6 ハナ
6 デモ
5 鳴き
3 人
