ハイクで話題になっていそうなことを抽出してみる。
wget -q -O - http://h.hatena.ne.jp/.rss | grep "description\|title" | sed -e "s/</</g" | sed -e "s/>/>/g" | sed -e "s/<[^>]*>//g" | nkf --euc | chasen | nkf --utf8 | grep "名詞" | sort | sed -e "s/^.*\t.*\(数\|接頭\|副詞\|非自立\|接尾\|代名詞\).*$//g" | tr -s "\n" | cut -f 1 | sed -e "/^$/d" | uniq -c | sort -r | head
出力例:
5 ひとり
3 テレビ
3 サザエさん
2 変
2 猫
2 切断
2 睡眠
2 進化
2 笑
2 最後
文字列操作メモのことを語る