id:Kodakana
文字列操作メモのことを語る

http://www.asahi.com/news/list.html の全記事一覧から URL を取り出してみる。
wget -q -O - http://www.asahi.com/news/list.html | nkf --utf8 -Lu | grep "MainInner" | sed -e "s/\(<\/li>\)/\1\n/g" | grep "<li><a\ href=\"[^>]*\">" | sed -e "s/^.*\/home\.html.*$//g" | sed -e "s/^.*\/news\/.*$//g" |sed -e "s/\(^.*<a\ href=\"\)\([^>]*update[^>]*\)\(\">\).*$/\2/g" | sed -e "/^$/d" | sed -e "s/\(.*\.html$\)/http:\/\/www\.asahi\.com\1/g"