ハイクの RSS から名詞を抽出して、さらに重複するものだけを抽出してみる。
wget -q -O - http://h.hatena.ne.jp/.rss | grep "description\|title" | sed -e "s/&lt;/</g" | sed -e "s/&gt;/>/g" | sed -e "s/<[^>]*>//g" | nkf --euc | mecab | nkf --utf8 | grep "名詞" | cut -f 1 | sort | uniq
出力例:
ー
TV
こと
ごと
の
ひとり
よう
ん
アナログ
オフ
カミナギ
キー
サッカー
テレビ
ハイク
ビール
ホント
ヤンキー
一
右
今
人
成人
文字列操作メモのことを語る