- 9 mins 爬虫之 Scrapy 框架
Table of Contents
☞ Scrapy 文件详解
Scrapy 简介
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,使用Twisted异步网络库处理网络通讯,爬取网站数据,提取结构性数据的应用框架,可以应用在数据挖掘,信息处理,监测和自动化测试或存储历史数据等一系列的程序中
主要组件
工作流程
安装
Linux & Mac
Windows
基本命令
HtmlXpathSelector
简介
HtmlXpathSelector 是 Scrapy 自有的用于处理HTML文档的选择器,被称为XPath选择器(或简称为“选择器”),是因为它们“选择”由XPath表达式指定的HTML文档的某些部分。
其它选择器
- BeautifulSoup:非常流行,缺点:速度很慢
- lxml:基于 ElementTree 的XML解析库(也解析HTML )
应用
写个基于 Scrapy 的爬虫项目
项目结构
xiaohuar.py
items.py
pipelines.py
settings.py
Scrapy 自定义
自定制命令
代码:
自定义扩展
自定义扩展时,利用信号在指定位置注册制定操作
避免重复访问
Scrapy 默认使用 scrapy.dupefilter.RFPDupeFilter 进行去重,相关配置有
Topaz
Always keep learning.