网络爬虫类包实现页面抓取功能

根据 搜索引擎爬虫工作原理 自己写了页面抓取功能。

在日常的使用中还会遇到很多问题,如:页面需要登录后才能抓取、被抓取网站在单位时间内限制访问者IP访问次数等。

上述问题我也不了解,所以我这里忽略了这些问题。如果大家有好的方式,可以联系我。我会尽快完善代码。

 

 

Tagged on:                     

One thought on “网络爬虫类包实现页面抓取功能

发表评论