python爬虫

再推荐一款小众且好用的 Python 爬虫库

知行编程网 python社区 2年前 (2022-01-29) 103 0

1. 前言大家好，我是安果！今天再推荐一款小众轻量级的爬虫库：MechanicalSoup MechanicalSoup，也是一款爬虫神器！它使用纯 Python 开发，底层基于 Beautiful Soup 和 Requests，实现网页自动化及数据爬取项目地址： https://github.com/MechanicalSoup/MechanicalSoup 2. 安装及常见用法首先安...

带伙伴们学习python爬虫，准备了几个简单的入门实例，分享给大家。涉及主要知识点: web是如何交互的 requests库的get、post函数的应用 response对象的相关函数，属性 python文件的打开，保存代码中给出了注释，并且可以直接运行哦如何安装requests库(安装好python的朋友可以直接参考，没有的，建议先装一哈python环境) windows用户，Linux用...

货拉拉涉事司机被批捕，Python爬取知乎问答，看看都说了啥！ 7

知行编程网 python社区 2年前 (2022-01-27) 36 0

最近的“货拉拉女乘客坠车死亡事件”的涉事司机被批捕以及事件细节公布的消息被冲上热搜第一。据人民日报的报道： 3月3日，长沙市公安局高新区分局通过其官方微信发布关于周某春涉嫌过失致人死亡案件的情况通报，通报显示，检察机关对周某春批准逮捕。自事件发生以来，网上评论不断，我用python爬取知乎热门问题的回答，看一下网友对此事件的看法。一、爬虫本次只要爬取知乎作者、作者id、回答时间、赞同数、底...

爬虫系列 | 9、爬虫中模拟登录的常用操作 7

知行编程网 python社区 2年前 (2022-01-24) 13 0

为什么需要模拟登录呢？很多时候我们爬取一些网页的时候，站点会验证我们的请求身份。如果是未登录的用户，则拦截请求。这也是反爬虫的一种。所以有时候我们需要先进行登录，这个时候就会引入Cookie的概念 cookie是保存在客户端（浏览器）上的纯文本文件，里面回保存一些服务器返回的数据，比如用户信息、权限信息、失效时间等等下面以豆瓣为例，比如我在浏览器中以登录的状态直接去请求某个用户的页面，是这样的...

爬虫系列 | 6、详解爬虫中BeautifulSoup4的用法

知行编程网 python社区 2年前 (2022-01-23) 50 0

bs4，全称BeautifulSoup 4 ，它是Python独有的一种解析方式。也就是说只有Python语言才可以通过这种方式去解析数据。 BeautifulSoup 3 只支持Python2，所以已经被淘汰了。官网的介绍是这样的 Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因...

爬虫系列 | 8、Python爬虫中的代理与代理池 3

知行编程网 python社区 2年前 (2022-01-23) 22 0

首先要知道什么情况下需要使用代理正如第一节讲到了一些反爬策略，有些网站不希望被频繁爬取。如果咱们的爬虫程序被监测到（访问频率或者访问次数过大），那么爬虫程序相应的IP就会被网站封掉。一旦IP被封那就意味着一段时间内无法运行爬虫程序了。该如何解决这一问题呢？这个时候就需要用代理IP了，它能够帮助我们隐藏自己真实IP的同时也可以连续不断的运行爬虫程序，不用担心IP被封。什么是代理IP：代理服务...

爬虫系列 | 5、详解爬虫中正则的用法

知行编程网 python社区 2年前 (2022-01-23) 6 0

通过requests库，我们可以轻易的获取到网页的源代码。但是如果想更精细化的提取我们想要的内容，就需要对内容进行解析了。这个时候我们可以通过一个非常强大的工具来帮助我们 ---- 正则表达式正则表达式：通过制定一些特殊的字符或者字符组合来过滤字符串，提取或者检索目标的内容。正则匹配规则如下图所示，来源：CSDN img 在Python中，re模块拥有全部的正则表达式的功能。下面介绍几个Re...

爬虫系列 | 3、谷歌浏览器的基本使用 7

知行编程网 python社区 2年前 (2022-01-22) 13 0

你要问程序员最喜欢的浏览器是什么？基本都会说当然是谷歌浏览器，它完全遵守了W3C的标准，是最最最受程序员欢迎的浏览器其次火狐浏览器，安全性高。可以作为备用浏览器。 Edge是微软最新发布的浏览器，和谷歌浏览器内核一样。也是非常不错的那IE呢？对不起，打扰了！在进行爬虫时，不可避免的会用到浏览器的调试功能，需要去查看请求的地址、参数、响应，有时候还需要进行JS调试。下面呢就给大家介绍一下谷...

爬虫系列 | 2、Http请求和响应，写爬虫这些内容必须掌握

知行编程网 python社区 2年前 (2022-01-22) 29 0

这篇内容主要是介绍了网路请求相关的内容，爬虫是建立在网络请求的基础上。所以在开始爬虫之前一定要有一定的网络知识。 HTTP协议 HTTP协议，全称为HyperText Transfer Protocol。翻译过来呢就是超文本传输协议，默认端口是80，而HTTPS呢则是在HTTP的基础上加入了SSL层，这样呢就会相对安全，请求不会那么轻易的被别人劫持。默认端口是443。比如我们经常访问的百度、淘...

爬虫系列 | 1、什么是爬虫，玩爬虫的正确姿势有哪些 4

知行编程网 python社区 2年前 (2022-01-22) 15 0

一、爬虫简介爬虫是一个帮助我们去寻找网络上小姐姐的照片或视频并且下载到本地的技术 Emmm... 似乎有点跑题了，百度百科上是这样解释爬虫的是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。通俗的来讲，爬虫就是客户端发送请求（浏览器、手机等等），接收服务器的响应，获取目标数据的过程。包括不限于图片、数据、音频、视频等。然后进行持久化的一个过程（数据进行存储）爬虫的应用在生活中息息相...