抓包入门思路及教程

Viewer:367目录 代码, 抓包

一听到抓包估计各位想的就是各种牛逼酷炫的代码从屏幕前滚过,其实完全没那么高端,抓包其实只需要简单的基础就可以完成,举个栗子。

如果目前你想做一个爬虫,那抓包就是必不可少的,因为如果你分析整个页面,效率肯定不高,且制作麻烦。但是现在后端返回给前端的数据基本都是JSON格式,可以直接使用,这样就大大提高分析效率和运行效率。

首先,介绍一下简单的网页前端抓包,部分网页前端都是整个页面请求后端来完成部分操作及数据读取的,这里以百玩不腻的B站相簿页做个示范:

打开B站的相簿图片展示页面,调出开发者控制台,目标是它的投稿详细内容。然后开始操作。

  • 等待网页加载完毕后按F12开发者控制台,转到网络标签。示例页面:这里
  • 刷新网页,在网页加载完毕后选择XHR标签,XHR是一种请求方式,表示向后端请求XML格式的HTTP数据,这个数据格式很多网站都在用,所以可以很方便的抓取到需要的东西,省时省力
  • 逐项浏览XHR标签内的内容,项目不多,很快就找到了我们需要的请求方式,在链接后面我们可以看到一个数字ID,就以它为线索,找到一个请求链接为:https://api.vc.bilibili.com/link_draw/v1/doc/detail?doc_id=1214705的链接,很容易就看出它是返回文档的具体细节的API。
  • 在上面的链接中很容易发现一些关键字,Detail,Doc等都是关键字,可以用这个区分一些无用请求和关键请求,一般这种读取信息的API都不需要提交一些别的参数,直接Get方式就可以得到想要的数据。

找到了我们所需要的API之后,剩下的很容易就能处理,数据的处理等这里不再赘述,一般高级点的网站会要求在API中提交Cookie和特殊的访问请求才能得到返回数据,在XHR的Hedar页中可以看到具体提交了什么,又进行了什么操作,然后可以用程序模拟部分请求,例如先取得Cookie再提交,部分需要时间戳,我们就可以生成一个时间戳提交进去,这个就不是入门级别的内容,根据Hader页的内容可以很方便地知道具体要做什么

之后我会继续讲各个部分代表的含义或者Hader页的内容及各种参数以及他们的实际应用,教各位抓包入门。

暂无评论

发表评论