百度移动网站建设有几种,顺德网页定制,网站建设包六个,集团门户网站建设方案 php1、Scrapy框架初识
2、Scrapy框架持久化存储#xff08;点击前往查阅#xff09;
3、Scrapy框架内置管道#xff08;点击前往查阅#xff09;
4、Scrapy框架中间件#xff08;点击前往查阅#xff09; Scrapy 是一个开源的、基于Python的爬虫框架#xff0c;它提供了…1、Scrapy框架初识
2、Scrapy框架持久化存储点击前往查阅
3、Scrapy框架内置管道点击前往查阅
4、Scrapy框架中间件点击前往查阅 Scrapy 是一个开源的、基于Python的爬虫框架它提供了强大而灵活的工具用于快速、高效地提取信息。Scrapy包含了自动处理请求、处理Cookies、自动跟踪链接、下载中间件等功能。
Scrapy框架的架构图先学会再来看就能看懂了 一、安装
在Pycharm终端中使用以下命令安装 Scrapy
pip install scrapy二、创建 Scrapy 项目
在Pycharm终端中使用以下命令创建一个 Scrapy 项目
scrapy startproject project_name其中 project_name 是你文件夹的名字文件名只能以字母开头只能包含数字、字母、下划线下面是创建好的目录结构.venv 这个文件无视这个是我配置的虚拟环境这个地方不做多讲解想了解点击这虚拟环境讲解。 三、创建爬虫项目
在Pycharm终端中使用以下命令创建一个 Scrapy 项目
scrapy genspider spider_name example.com命令讲解 spider_name是你的爬虫文件名名字不能和scrapy项目重复example.com初始设置的网址这个随便填写等下可以改的可以设置www.xxx.com
注意需要先进入你创建的Scrapy项目中例如我这个文件名是CSDN
对比下绿色横线的文件目录就发现不一样了。 ⬇️⬇️⬇️执行的命令演示⬇️⬇️⬇️ 3.1创建好的目录结构 四、编写爬虫
4.1setting设置
设置 setting 中需要改动的地方这个是基本的设置其他的根据需要来开启 4.2代码初识
打开创建好的爬虫文件baidu.py进入编写我们的程序
初始的是这样的 代码的含义
4.3数据解析parse函数
演示网站不可干预人家网站的正常运行家常菜做法大全有图_家常菜菜谱大全做法_好吃的家常菜_下厨房【下厨房】家常菜栏目为您提供最新的家常菜做法大全、家常菜菜谱大全和步骤让你也可以轻松做出好吃的家常菜https://www.xiachufang.com/category/40076/
需求第一页的所有的菜名和作者 最终代码
import scrapyclass BaiduSpider(scrapy.Spider):# 爬虫文件的唯一标识就是你创建的爬虫文件夹名字name baidu# 允许的域名这个代表你只能访问这个网址的子域名其他的都会禁止这个我们会注释掉不会打开# allowed_domains [www.xxx.com]# 起始的url列表网址可以随便放可以放多个列表中的url都会被框架进行异步请求发送。start_urls [https://www.xiachufang.com/category/40076/]# 数据解析parse调用的次数取决于start_urls列表元素的个数def parse(self, response): # response参数就表示响应对象# 利用xpath解析:scrapy内置xpath无需另外导入li_list response.xpath(//div[classpure-u-3-4 category-recipe-list]//ul/li)for li in li_list:# 1、scrapy中的xpath会返回Selector对象我们需要的数据在该对象data属性中extract可以实现该功能,# 2、extract_first()就是取第一个因为文本两边有空格所以.strip() 可以去除两侧的空格title li.xpath(.//p[1]/a/text()).extract_first().strip()author li.xpath(.//p[4]/a/text()).extract_first().strip()print(title, author)输出结果 五、运行爬虫
使用以下命令运行你的 Scrapy 爬虫
scrapy crawl myspider命令讲解
myspider你的爬虫文件名字例如我的是baidu