Scrapy——破逼爬虫框架,懒得写,不写了。
我不知道从哪里下手啊!!!!!!
Scrapy:一个爬虫框架
emmmmmm
新建项目:scrapy start project xxxx (和Django差不太多)
新建爬虫:scrapy genspider xxxx(爬虫名) xxx.com(目标域名)
启动爬虫:scrapy crawl spidername(爬虫名)
运行流程:调度器->下载器->spider->pipline
调度器向所需访问的地址发送请求,由下载器获取源码内容(如果是动态内容则需要通过splash或者selenium等进行渲染,写在midwear中间件中进行处理,在setting里打开相对应的中间件)再传到spider提取数据,spider可以提取数据后return scrapy.Request(url=””, callback=””, meta=””, dont_filter=””)#url和callback必须有,meta为传参,dont_filter为是否去重,默认为false会去重
将新的请求返回给调度器
整个scrapy各个组件之间互不影响,整体是个异步框架。
也没必要在这里写具体怎么写,太繁琐了。
注意事项:尽可能地少用selenium,效率太低了;源码里能搜到只要不被拦截即可静态爬取;item要匹配自己所需的数据;记得君子协议;除了用selenium,其他下载方式没必要用分布式,因为一般地短板是网络。