scrapy爬虫框架

2023-06-07

Scrapy——破逼爬虫框架，懒得写，不写了。

我不知道从哪里下手啊！！！！！！

Scrapy：一个爬虫框架

emmmmmm

新建项目：scrapy start project xxxx (和Django差不太多)

新建爬虫：scrapy genspider xxxx(爬虫名) xxx.com(目标域名)

启动爬虫：scrapy crawl spidername(爬虫名)

运行流程：调度器->下载器->spider->pipline

调度器向所需访问的地址发送请求，由下载器获取源码内容（如果是动态内容则需要通过splash或者selenium等进行渲染，写在midwear中间件中进行处理，在setting里打开相对应的中间件）再传到spider提取数据，spider可以提取数据后return scrapy.Request(url=””, callback=””, meta=””, dont_filter=””)#url和callback必须有，meta为传参，dont_filter为是否去重，默认为false会去重
将新的请求返回给调度器

整个scrapy各个组件之间互不影响，整体是个异步框架。

也没必要在这里写具体怎么写，太繁琐了。

注意事项：尽可能地少用selenium，效率太低了；源码里能搜到只要不被拦截即可静态爬取；item要匹配自己所需的数据；记得君子协议；除了用selenium，其他下载方式没必要用分布式，因为一般地短板是网络。