成都Python培训分享Python3.x开发爬虫及案例学习

时间:2018-04-11 10:52来源:成都达内 作者:成都达内 点击:

  达内成都Python培训分享Python3.x开发简单爬虫及案例学习

  成都Python培训机构哪家好,Python培训机构排名?当然是选择达内成都Python培训,成都达内是一家专业的Python培训机构,专注于成都Python培训,专业的成都Python培训班,专业师资授课,真实项目实战、低押金、名企就业

  什么是爬虫

  一段自动抓取互联网信息的程序,可以从一个URL出发,访问它所关联的URL,提取我们所需要的数据。也就是说爬虫是自动访问互联网并提取数据的程序。

  成都Python培训

  爬虫的价值将互联网上的数据为我所用,开发出属于自己的网站或APP

  成都Python培训

  爬虫框架

  爬虫调度端:用来启动、执行、停止爬虫,或者监视爬虫中的运行情况

  在爬虫程序中有三个模块URL管理器:对将要爬取的URL和已经爬取过的URL这两个数据的管理

  网页下载器:将URL管理器里提供的一个URL对应的网页下载下来,存储为一个字符串,这个字符串会传送给网页解析器进行解析

  网页解析器:一方面会解析出有价值的数据,另一方面,由于每一个页面都有很多指向其它页面的网页,这些URL被解析出来之后,可以补充进URL管理器

  这三部门就组成了一个简单的爬虫架构,这个架构就能将互联网中所有的网页抓取下来

  成都Python培训

  动态执行流程

  成都Python培训

  URL管理器

  防止重复抓取和循环抓取,最严重情况两个URL相互指向就会形成死循环

  成都Python培训

  三种实现方式

  Python内存set集合:set集合支持去重的作用

  Mysql:url(访问路径)is_crawled(是否访问)

  Redis:使用Redis性能最好,且Redis中也有set类型,可以去重。不懂得同学可以看下Redis的介绍

  成都Python培训

  urllib模块本文使用urllib实现

  urllib2是python自带的模块,不需要下载。

  urllib2在python3.x中被改为urllib.request

  〖★三种实现方式★〗

  1

  方式一

  成都Python培训

  2

  方式二

  成都Python培训

  3

  使用cookie

  成都Python培训

  网页解析器和BeautifulSoup第三方模块

  成都Python培训

  成都Python培训

  成都Python培训

  测试是否安装bs4

  成都Python培训

  方法介绍

  成都Python培训

  成都Python培训

  实例测试

  html采用官方案例

  成都Python培训

  获取所有的链接

  成都Python培训

  爬虫开发实例(目标爬虫百度百科)

  成都Python培训

  “入口

  分析URL格式:防止访问无用路径 {标题}

  数据:抓取百度百科相关Python词条网页的标题和简介

  通过审查元素得标题元素为 :class=”lemmaWgt-lemmaTitle-title”

  简介元素为:class=”lemma-summary”

  页面编码:UTF-8

  作为定向爬虫网站要根据爬虫的内容升级而升级如运行出错可能为百度百科升级,此时则需要重新分析目标

  ”创建spider_main.py

  成都Python培训

  创建url_manager.py

  成都Python培训

  创建html_downloader.py

  成都Python培训

  创建html_parser.py

  成都Python培训

  创建html_output.py

  成都Python培训

(责任编辑:成都达内)

CopyRight © 2002-2016 成都达内科技职业技能培训学校 (www.cdtedu.com) 版权所有 成都达内 川公网安备 51019002000307号 网站地图