集团主站
欢迎来到成都达内官方网站!达内—美国上市公司 亿元级外企IT培训企业!
成都it培训哪家好
成都it培训哪家好
全国服务监督电话:400-111-8989  |   联系客服   |
当前位置:主页 > 培训课程 > Python >

成都爬虫工程师工资这么高,入门该了解哪些基础概念?

发布者: 成都达内     浏览次数:     发布时间:2019-08-19 13:32:59

很多学员来成都达内学习Python都是因为对爬虫很感兴趣,但是在学习Python爬虫之前,还需要先了解清楚爬虫的一些概念,然后再开始正式学习能更快进入状态...

  很多学员来成都达内学习Python都是因为对爬虫很感兴趣,但是在学习Python爬虫之前,还需要先了解清楚爬虫的一些概念,然后再开始正式学习能更快进入状态,今天达内成都Python爬虫培训学员就来给大家分享一下爬虫的基本概念。

成都爬虫工程师工资这个高

  什么是网络爬虫

  网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。

  网络爬虫就是根据网页的地址来寻找网页的,也就是URL。

  举一个简单的例子,我们在浏览器的地址栏中输入的字符串就是URL,例如:https://www.baidu.com/

  URL就是统一资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项):

  protocol :// hostname[:port] / path / [;parameters][?query]#fragment

  URL的格式由三部分组成:

  (1)protocol:第一部分就是协议,例如百度使用的就是https协议;

  (2)hostname[:port]:第二部分就是主机名(还有端口号为可选参数),一般网站默认的端口号为80,例如百度的主机名就是www.baidu.com,这个就是服务器的地址;

  (3)path:第三部分就是主机资源的具体地址,如目录和文件名等。

  网络爬虫就是根据这个URL来获取网页信息的。

  网络爬虫的流程

  (1)获取网页就是给一个网址发送请求,该网址会返回整个网页的数据。类似于在浏览器中键入网址并按回车键,然后可以看到网站的整个页面。

  (2)解析网页就是从整个网页的数据中提取想要的数据。类似于在浏览器中看到网站的整个页面,但是你想找的是产品的价格,价格就是你想要的数据。

  (3)存储数据也很容易理解,就是把数据存储下来。我们可以存储在csv中,也可以存储在数据库中。

  流程的技术实现

  下面的技术实现方法都是使用Python 语言实现的,对于Java等其他语言本书并不涉及。

  1.获取网页

  获取网页的基础技术:request、urllib和selenium(模拟浏览器)。

  获取网页的进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。

  2.解析网页

  解析网页的基础技术:re正则表达式、BeautifulSoup和lxml。

  解析网页的进阶技术:解决中文乱码。

  3.存储数据

  存储数据的基础技术:存入txt文件和存入csv文件。

  存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。

  对于上述技术不熟悉的读者也不必担心,本教程将会对其中所有的技术进行讲解,力求做到深入浅出。

  爬虫有风险,爬取需谨慎

  《刑法》第285条,非法获取计算机信息系统数据罪。

  获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,处三年以下有期徒刑或者拘役,并处或者单处罚金;

  最高处七年有期徒刑并处罚金。

  《刑法》第285条是对爬取数据的主要定罪依据,有兴趣可以去查下中华人民共和国刑法。

  网络爬虫的“盗亦有道”

  再来看下网页对网络爬虫的限制,主要有两种:

  来源审查:判断User-Agent进行限制检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问

  发布公告:Robots协议

  告知所有爬虫网站的爬取策略,要求爬虫遵守

  robots协议

  Robots Exclusion Standard,网络爬虫排除标准。

  作用:

  网站告知网络爬虫哪些页面可以抓取,哪些不行

  形式:

  在网站根日录下的robots.txt文件

  版权声明:文章和图片均来自公开网络,版权归作者本人所有,推送文章除非无法确认,我们都会注明作者和来源。如果出处有误或侵犯到原作者权益,请与达内成都Python培训机构网站联系删除或授权事宜。

(责任编辑:徐老师)
最新开班
  • 成都Java培训班
    免费试听名额发放中...
  • 成都C++培训班
    免费试听名额发放中...
  • 成都PHP培训班
    免费试听名额发放中...
  • 成都网络工程培训班
    免费试听名额发放中...
  • 成都Unity3D培训班
    免费试听名额发放中...
  • 成都大数据培训班
    免费试听名额发放中...
  • 成都uid培训班
    免费试听名额发放中...
  • 成都会计培训班
    免费试听名额发放中...
  • 成都Python培训班
    免费试听名额发放中...
  • 成都嵌入式培训班
    免费试听名额发放中...
  • 成都web培训班
    免费试听名额发放中...
  • 成都软件测试培训班
    免费试听名额发放中...
在线留言
提交

校区地址:成都市锦江区东大街紫东楼端35号明宇金融广场19楼1906室

联系电话:400-111-8989

公交路线:芷泉街(18路;21路;43路;48路;104路;152路;335路 ) 地铁路线:东门大桥站(地铁2号线)

校区地址:成都市高新区奥克斯广场蜀锦路209号一楼商铺

联系电话:400-111-8989

公交路线:益州大道锦城大道口(18路;21路;43路;48路;104路;152路;335路 ) 地铁路线:孵化园(地铁1号线)

校区地址:成都锦江区东大街芷泉街229号东方广场C座3楼303

联系电话:400-111-8989

公交路线:芷泉街(188路;115路;515路;236路;505路;501路;84路 ) 地铁路线:东门大桥站(地铁2号线)

校区地址:成都市武侯区佳灵路3号红牌楼广场2号写字楼11楼1115号

联系电话:400-111-8989

公交路线:红牌楼东(11路;92路;100路;111路;139路;g28路;快速公交K1/K2) 地铁路线:红牌楼站(地铁3号线)

校区地址:成都市锦江区红星路二段70号四川日报大厦502-2

联系电话:400-111-8989

公交路线:市二医院站(6路;49路;102路;5路;37路;g92路;) 地铁路线:地铁市二医院(地铁3号线)

校区地址:成都市锦江区东大街芷泉段229号东方广场C座16层

联系电话:400-111-8989

公交路线:芷泉街(18路;21路;43路;48路;104路;152路;335路 ) 地铁路线:东门大桥站(地铁2号线)

校区地址:四川省成都市武侯区高新科技孵化园9号园区E座7楼

联系电话:400-111-8989

公交路线:益州大道锦城大道口(18路;21路;43路;48路;104路;152路;335路 ) 地铁路线:孵化园(地铁1号线)

了解达内动态
关注成都达内教育公众号

首页 | 关于达内 | 课程中心 | 专家师资 | 视频教程 | 学员空间 | 校企合作 | 新闻资讯 | 就业指导 | 网站地图

2016-2025 达内时代科技集团有限公司 版权所有 京ICP证8000853号-56 蜀ICP备18021046号-3