再推荐一款小众且好用的 Python 爬虫库

再推荐一款小众且好用的 Python 爬虫库

知行编程网 python社区 2年前 (2022-01-29) 101 0

1. 前言 大家好,我是安果! 今天再推荐一款小众轻量级的爬虫库:MechanicalSoup MechanicalSoup,也是一款爬虫神器!它使用纯 Python 开发,底层基于 Beautiful Soup 和 Requests,实现网页自动化及数据爬取 项目地址: https://github.com/MechanicalSoup/MechanicalSoup 2. 安装及常见用法 首先安...

爬虫系列 | 6、详解爬虫中BeautifulSoup4的用法

爬虫系列 | 6、详解爬虫中BeautifulSoup4的用法

知行编程网 python社区 2年前 (2022-01-23) 50 0

bs4,全称BeautifulSoup 4 , 它是Python独有的一种解析方式。也就是说只有Python语言才可以通过这种方式去解析数据。 BeautifulSoup 3 只支持Python2,所以已经被淘汰了。 官网的介绍是这样的 Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因...

10个Python爬虫入门实例

10个Python爬虫入门实例

知行编程网 python社区 2年前 (2022-01-28) 36 0

带伙伴们学习python爬虫,准备了几个简单的入门实例,分享给大家。 涉及主要知识点: web是如何交互的 requests库的get、post函数的应用 response对象的相关函数,属性 python文件的打开,保存 代码中给出了注释,并且可以直接运行哦 如何安装requests库(安装好python的朋友可以直接参考,没有的,建议先装一哈python环境) windows用户,Linux用...

货拉拉涉事司机被批捕,Python爬取知乎问答,看看都说了啥!

货拉拉涉事司机被批捕,Python爬取知乎问答,看看都说了啥! 7

知行编程网 python社区 2年前 (2022-01-27) 32 0

最近的“货拉拉女乘客坠车死亡事件”的涉事司机被批捕以及事件细节公布的消息被冲上热搜第一。 据人民日报的报道: 3月3日,长沙市公安局高新区分局通过其官方微信发布关于周某春涉嫌过失致人死亡案件的情况通报,通报显示,检察机关对周某春批准逮捕。 自事件发生以来,网上评论不断,我用python爬取知乎热门问题的回答,看一下网友对此事件的看法。 一、爬虫 本次只要爬取知乎作者、作者id、回答时间、赞同数、底...

爬虫系列 | 2、Http请求和响应,写爬虫这些内容必须掌握

爬虫系列 | 2、Http请求和响应,写爬虫这些内容必须掌握

知行编程网 python社区 2年前 (2022-01-22) 29 0

这篇内容主要是介绍了网路请求相关的内容, 爬虫是建立在网络请求的基础上。所以在开始爬虫之前一定要有一定的网络知识。 HTTP协议 HTTP协议,全称为HyperText Transfer Protocol。翻译过来呢就是超文本传输协议,默认端口是80,而HTTPS呢则是在HTTP的基础上加入了SSL层,这样呢就会相对安全,请求不会那么轻易的被别人劫持。默认端口是443。 比如我们经常访问的百度、淘...

就想写个爬虫,我到底要学多少东西啊?

就想写个爬虫,我到底要学多少东西啊?

知行编程网 python社区 2年前 (2022-01-11) 25 0

当今大数据的时代,网络爬虫已经成为了获取数据的一个重要手段。 但要学习好爬虫并没有那么简单。首先知识点和方向实在是太多了,它关系到了计算机网络、编程基础、前端开发、后端开发、App 开发与逆向、网络安全、数据库、运维、机器学习、数据分析等各个方向的内容,它像一张大网一样把现在一些主流的技术栈都连接在了一起。正因为涵盖的方向多,因此学习的东西也非常零散和杂乱,很多初学者搞不清楚究竟要学习哪些知识,学...

爬虫系列 | 8、Python爬虫中的代理与代理池

爬虫系列 | 8、Python爬虫中的代理与代理池 3

知行编程网 python社区 2年前 (2022-01-23) 22 0

首先要知道什么情况下需要使用代理 正如第一节讲到了一些反爬策略,有些网站不希望被频繁爬取。如果咱们的爬虫程序被监测到(访问频率或者访问次数过大),那么爬虫程序相应的IP就会被网站封掉。一旦IP被封那就意味着一段时间内无法运行爬虫程序了。 该如何解决这一问题呢? 这个时候就需要用代理IP了,它能够帮助我们隐藏自己真实IP的同时也可以连续不断的运行爬虫程序,不用担心IP被封。 什么是代理IP:代理服务...

爬虫系列 | 1、什么是爬虫,玩爬虫的正确姿势有哪些

爬虫系列 | 1、什么是爬虫,玩爬虫的正确姿势有哪些 4

知行编程网 python社区 2年前 (2022-01-22) 14 0

一、爬虫简介 爬虫是一个帮助我们去寻找网络上小姐姐的照片或视频并且下载到本地的技术 Emmm... 似乎有点跑题了,百度百科上是这样解释爬虫的 是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 通俗的来讲,爬虫就是客户端发送请求(浏览器、手机等等),接收服务器的响应,获取目标数据的过程。包括不限于图片、数据、音频、视频等。然后进行持久化的一个过程(数据进行存储) 爬虫的应用在生活中息息相...

爬虫系列 | 3、谷歌浏览器的基本使用

爬虫系列 | 3、谷歌浏览器的基本使用 7

知行编程网 python社区 2年前 (2022-01-22) 13 0

你要问程序员最喜欢的浏览器是什么? 基本都会说当然是谷歌浏览器,它完全遵守了W3C的标准,是最最最受程序员欢迎的浏览器 其次火狐浏览器,安全性高。可以作为备用浏览器。 Edge是微软最新发布的浏览器,和谷歌浏览器内核一样。也是非常不错的 那IE呢?对不起,打扰了! 在进行爬虫时,不可避免的会用到浏览器的调试功能,需要去查看请求的地址、参数、响应,有时候还需要进行JS调试。 下面呢就给大家介绍一下谷...

爬虫系列 | 9、爬虫中模拟登录的常用操作

爬虫系列 | 9、爬虫中模拟登录的常用操作 7

知行编程网 python社区 2年前 (2022-01-24) 11 0

为什么需要模拟登录呢?很多时候我们爬取一些网页的时候,站点会验证我们的请求身份。如果是未登录的用户,则拦截请求。这也是反爬虫的一种。 所以有时候我们需要先进行登录,这个时候就会引入Cookie的概念 cookie是保存在客户端(浏览器)上的纯文本文件,里面回保存一些服务器返回的数据,比如用户信息、权限信息、失效时间等等 下面以豆瓣为例,比如我在浏览器中以登录的状态直接去请求某个用户的页面,是这样的...

扫一扫二维码分享