用Shell实现简单爬虫

2018-02-10 | 阅读：次

第一步：你得先进行页面的获取吧，这时候使用到curl命令
我要获取的内容：

单个页面的下载：

curl -o 0 http://ics.cnvd.org.cn/?max=20&offset=0

第二步，对每个单页面中的连接进行抓取：
此时单个连接如下所示：

单个页面的下载：

curl -o 0 http://ics.cnvd.org.cn/?max=20&offset=0

第二步，对每个单页面中的连接进行抓取：此时单个连接如下所示：

grep -o 'http://www.cnvd.org.cn/flaw/show/CNVD[0-9\-]*'; 0

第三步：以上简单样例实现了，就进行获取68页的所有内容：

这是第二页的url

 for n in `seq 0 20 1340`; do curl -o $n http://ics.cnvd.org.cn/?max=20&offset=$n; done

执行之后，获取到的所有url，如下所示：

第四步：将所有的网页中的信息，选项每个内部连接，保存到一个文件中：

grep -o 'http://www.cnvd.org.cn/flaw/show/CNVD[0-9\-]*'; * > url.txt

最后文件内容如下所示：

第五步：将url中的所有内容分析到需要内容，进行合并，例如
1.txt

a.txt

合并：

paste.exe -d, 1.txt a.txt

clodfisher