用Shell实现简单爬虫


第一步:你得先进行页面的获取吧,这时候使用到curl命令
我要获取的内容:

单个页面的下载:

curl -o 0 http://ics.cnvd.org.cn/?max=20&offset=0    


第二步,对每个单页面中的连接进行抓取:
此时单个连接如下所示:

单个页面的下载:

curl -o 0 http://ics.cnvd.org.cn/?max=20&offset=0

第二步,对每个单页面中的连接进行抓取: 此时单个连接如下所示:

grep -o 'http://www.cnvd.org.cn/flaw/show/CNVD[0-9\-]*'; 0


第三步:以上简单样例实现了,就进行获取68页的所有内容:

这是第二页的url

 for n in `seq 0 20 1340`; do curl -o $n http://ics.cnvd.org.cn/?max=20&offset=$n; done

执行之后,获取到的所有url,如下所示:


第四步:将所有的网页中的信息,选项每个内部连接,保存到一个文件中:

grep -o 'http://www.cnvd.org.cn/flaw/show/CNVD[0-9\-]*'; * > url.txt

最后文件内容如下所示:


第五步:将url中的所有内容分析到需要内容,进行合并,例如
1.txt

a.txt

合并:

paste.exe -d, 1.txt a.txt    


转载请注明:HunterYuan的博客 » 用Shell实现简单爬虫

打赏一个呗

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦