爬虫标签 - 冰山醉酒壶

1 篇文章

Python爬虫

2023年12月27日 16:53:39 | 728 浏览 | 0 评论 | python 爬虫

爬虫网络爬虫（又被称为网页蜘蛛，网络机器人），就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地榨取互联网信息的程序。原则上，只要浏览器（客户端）能做的事情，爬虫都能做。爬虫不是python独有的，可以做爬虫的语言有很多例如：PHP，JAVA,C#,C++,Python,选择Python是因为Python相对来说比较简单、功能也比较齐全。首先，大体流程分为三步： 1、爬取网页（获取网页信息） 2、逐一解析数据（获得需要的数据） 3、保存数据爬取网页可能需要用到的函数库 urllib、reqest、fake_useragent 这里也分为三步 1、创建请求对象 2、发送网络请求 3、接收响应对象创建请求对象，如果我们直接向某个url发起请求，会被对方识别出来是爬虫，往往会被限制而得不到响应。所以需要进行伪装，创建一个包含信息的请求头逃避对方识别。 import urllib.request from fake_userAgent import userAgent import requests # 指定UA headers = {'User-Agent....

网站资讯

浏览次数:

90990

文章总数:

评论总数:

当前访客:

冰山醉酒壶 👋🏼

标签墙 - 爬虫