博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫--1
阅读量:6503 次
发布时间:2019-06-24

本文共 905 字,大约阅读时间需要 3 分钟。

Python非常适合用来开发网页爬虫,理由如下

1、抓取网页本身的接口
相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁;相比其他动态脚本语言,如perl,shell,python的urllib包提供了较为完整的访问网页文档的API。(当然ruby也是很好的选择)
此外,抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求,譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定,如Requests

2、网页抓取后的处理

抓取的网页通常需要处理,比如过滤html标签,提取文本等。python的beautifulsoap提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。
其实以上功能很多语言和工具都能做,但是用python能够干得最快,最干净。

爬虫的概念

              - 通用爬虫;即将一整张页面进行数据爬取,搜索引擎抓取系统

    - 聚焦爬虫;即将网页中局部内容进行爬取,与通用爬虫有关系,要先进行通用爬虫

    - 增量式;只爬取最新更新的数据,或者说只爬取没有爬取过的数据

准备工作

1.抓包工具fiddler安装和配置

链接:https://pan.baidu.com/s/1eHbcXbTozMr7QVvi6Cw_mA

提取码:aohp
大妈们可以尽情下载,剩下的勿打扰好吧

直接傻瓜式安装,懂吧

安装之后打开,这里注意!!!!!

 3)打开程序,点击"是"

  4)是否更新提示弹框,选择"No",如下图

  5)点击菜单的"Tools -> Options",如下图

  6)安装证书,如下图

  7)重启fiddler,清楚记录,我们可以在fiddler中查看,我们主要使用以下几个部分

参考博客:https://www.cnblogs.com/li-li/p/10435898.html#_label0

转载于:https://www.cnblogs.com/lzqrkn/p/10491002.html

你可能感兴趣的文章
简化代码的微小修改
查看>>
python之CSV文件格式
查看>>
你必须知道的.net学习总结
查看>>
leetcode之Reorder List
查看>>
Axure8.0 网页 or App 鼠标滚动效果
查看>>
文件操作示例脚本 tcl
查看>>
大家好,新年快乐。
查看>>
prototype
查看>>
Android学习路线
查看>>
Linux下的redis的持久化,主从同步及哨兵
查看>>
在相同的主机上创建一个duplicate数据库
查看>>
Date15
查看>>
从Date类型转为中文字符串
查看>>
基于multisim的fm调制解调_苹果开始自研蜂窝网调制解调器 最快2024年能用上?
查看>>
mupdf不支持x64_Window权限维持(七):安全支持提供者
查看>>
cf修改游戏客户端是什么意思_瓦罗兰特很有可能取代cf成为国内最火的fps游戏...
查看>>
proto文件支持继承吗_JavaScript继承(一)——原型链
查看>>
labview如何弹出提示窗口_LabVIEW开发者必读的问答汇总,搞定疑难杂症全靠它了!...
查看>>
提取series中的数值_Python中None和numpy.nan的区别
查看>>
hikariconfig mysql_HikariConfig配置解析
查看>>