Python爬虫
爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人),就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地榨取互联网信息的程序。原则上,只要浏览器(客户端)能做的事情,爬虫都能做。 爬虫不是python独有的,可以做爬虫的语言有很多例如:PHP,JAVA,C#,C++,Python,选择Python是因为Python相对来说比较简单、功能也比较齐全。 首先,大体流程分为三步: 1、爬取网页(获取网页信息) 2、逐一解析数据(获得需要的数据) 3、保存数据 爬取网页 可能需要用到的函数库 urllib、reqest、fake_useragent 这里也分为三步 1、创建请求对象 2、发送网络请求 3、接收响应对象 创建请求对象,如果我们直接向某个url发起请求,会被对方识别出来是爬虫,往往会被限制而得不到响应。所以需要进行伪装,创建一个包含信息的请求头逃避对方识别。 import urllib.request from fake_userAgent import userAgent import requests # 指定UA headers = {'User-Agent....