1.shell爬虫实例:
[root@db01 ~]# vim pa.sh #!/bin/bash www_link=http://www.cnblogs.com/clsn/default.html?page= for i in {1..8} do a=`curl ${www_link}${i} 2>/dev/null|grep homepage|grep -v "ImageLink"|awk -F "[><\"]" ‘{print $7"@"$9}‘ >>bb.txt`#@为自己 指定的分隔符.这行是获取内容及内容网址 done egrep -v "pager" bb.txt >ma.txt #将处理后,只剩内容和内容网址的放在一个文件里 b=`sed "s# ##g" ma.txt` #将文件里的空格去掉,因为for循环会将每行的空格前后作为两个变量,而不是一行为一个变量,这个坑花 了我好长时间。 for i in $b do c=`echo $i|awk -F @ ‘{print $1}‘` #c=内容网址 d=`echo $i|awk -F @ ‘{print $2}‘` #d=内容 echo "<a href=‘${c}‘ target=‘_blank‘>${d}</a> " >>cc.txt #cc.txt为生成a标签的文本 done
爬虫结果显示:归档文件中惨绿少年的爬虫结果