id:Kodakana
文字列操作メモのことを語る

ハイクの RSS から名詞を抽出して、さらに重複するものだけを抽出してみる。
wget -q -O - http://h.hatena.ne.jp/.rss | grep "description\|title" | sed -e "s/&amp;lt;/</g" | sed -e "s/&amp;gt;/>/g" | sed -e "s/<[^>]*>//g" | nkf --euc | mecab | nkf --utf8 | grep "名詞" | cut -f 1 | sort | uniq
出力例:

TV
こと
ごと

ひとり
よう

アナログ
オフ
カミナギ
キー
サッカー
テレビ
ハイク
ビール
ホント
ヤンキー




成人