广州北大青鸟计算机职业培训学校
互联网技术培训、软件技术培训、大数据培训、云计算培训、数据分析培训信息网
当前位置:网站首页 > 计算机学校 > 惠州计算机学校 > 正文

Python爬虫程序要用到哪些知识和技术?_惠州计算机Python培训学校

作者:黄君发布时间:2021-05-18分类:惠州计算机学校浏览:881


导读:对于初步接触python的人来说,一上来就搞一个python的爬虫,也的确会让自己摸不着头脑,所以我们需要多学习案例,通过案例来搞明白这个问题。

1.对网页结构需要有一个基本的了解和认知。

我们平时上网浏览网页,信息展现在浏览器里面的页面中,但我们用爬虫要抓取的信息是放在网页源代码里面的。(图1为我们看到的页面,图2 为页面对应的网页源代码)

在浏览器中使用快捷键F12来调出该界面,这个界面称为开发者模式

2.知道如何去找到我们需要的信息在网页源代码的那个位置。

一般来说信息可能直接存在于网页的html页面中,但是有一些动态加载的信息可能存在于js页面中。有一些网站,它的数据价值比较高,总会有竞争对手去抓取它的数据,所以它就会有比较厉害的反抓取措施,一般新手很难应付这种反抓取措施。一般的静态网页要求你对浏览器的开发者模式很熟悉,能够利用这个工具去定位自己需要的信息在网页源代码中的那个位置,网上有相关教程,搜一下就能找到,更复杂的动态网页,就需要你对动态加载的网页有点研究才行。这些知识点和技能,都是需要自己动手去尝试才能学会的。

3.知道用什么python程序库去完成网页源代码的下载,解析,数据提取,存储。

python是一门很简单的编程语言,一方面是因为python的语法简洁,另一方面是因为在python社区,已经有很多很多的人为我们贡献了很多很多开源的程序库,我们在编写程序的时候,直接调用这些程序库,就能够省下很多很多工作量。比如在我分享的这个爬虫项目中,我使用了如下这些程序库:

# 导入需要使用的Python库import requestsimport jsonimport reimport pandas as pd

它们的作用见如下所述:

requests :根据url将网页源代码下载下来

json :用来将网页中的js内容转换为Python字典类型

re :正则表达式库,用于提取网页中满足一定规律的内容(比如本案例中的经纬度信息)

pandas :Python中操作结构化数据的程序库,能够实现几乎所有Excel的数据操作功能,本例中,用来结构化经纬度数据

4. 最后一点就是能够把这些知识和技术整合起来写出能够实现自己爬取数据需求的代码的能力了

这也是为什么我现在倾向于向大家分享具体的案例,而不是知识点。不过知识和技能只有内化吸收,才能成为自己的。我们最终的目的是为了使现实中的问题得到解决,因此在接触新技术,新的知识点后,要有意识的去整合它们,只有这样,才能提高自己解决实际问题的能力。


点击咨询直接了解更多相关资料,我在惠州北大青鸟新方舟等你。

 

本文内容转载自网络,版权归原作者所有,如有侵权请联系我们进行删除。


标签:惠州计算机软件培训惠州计算件软件开发惠州计算机软件基础惠州计算机Python软件开发惠州Python培训学校惠州Python培训python基础教程python是什么python教程python入门


惠州计算机学校排行
标签列表
网站分类
文章归档
最近发表