dex0423 的博客

记录工作学习的点点滴滴。

爬虫:爬虫的法律风险

1. 扰乱企业经营 刷单 点赞 抢票 2. 非法获取个人隐私 姓名 电话 身份 地址 邮箱 3. 非法侵入接口 抓取、诱探非公开接口。 4. 不正当竞争 抓取竞争对手数据直接使用(比如,盗用别人平台商品listing直接挂在自己网站)。 5. 侵犯版权 抓取版权数据直接使用。 6. ...

爬虫:爬虫常用浏览器USER-AGENT整理汇总

##说明 下为整理汇总的浏览器头清单,主要是火狐浏览器, 既有PC端也有移动端,使用的时候请注意; agents = [ "Mozilla/5.0 (compatible; U; ABrowse 0.6; Syllable) AppleWebKit/420+ (KHTML, like Gecko)", "Mozilla/5.0 (compatible; U; ABrowse ...

爬虫:Grafana+InfluxDB+MongoDB 实现爬虫可视化动态监控

1.前言 本文介绍的方法,是使用 Grafana 和 InfluxDB 对爬虫进行可视化监控。 Grafana 是一个开源的分析和监控系统,拥有精美的web UI,支持多种图表,可以展示influxdb中存储的数据,并且有报警的功能。 Influxdb 是一款开源的时间序列数据库,专门用来存储和时间相关的数据(比如我用它存储某个时间点爬虫抓取信息的数量)。 ...

JS逆向:破解猿人学比赛第16题

1. 分析加密参数 通过分析请求,发现需要处理的加密参数是 m,另一个参数 t 为时间戳。 2. 定位函数入口 此处可以使用两种方法: 直接全局搜索; XHR 断点 + 跟栈; 2.1. 直接全局搜索 由于目标函数是一个英文字母,所以不能直接查找单字母 m,而是需要加一下辅助行的字符。 本题中,可以尝试的搜索关键字包括: m= m = .m= ...

JS逆向:破解淘宝浏览器指纹识别风控策略

指纹识别原理 在 selenium 抓取数据的时候,会暴露一些预定义的 JavaScript 变量,通过这些变量可以识别到用户是否使用了 selenium 驱动; 比较典型的例子,是 “window.navigator.webdriver”,在非selenium环境下其值为undefined,而在selenium环境下,其值为true; 除了 navigator,还有...

JS逆向:破解某视频网站登录参数生产方法

1. 前言 本文的主要内容,是分析得到某视频网站账号登录时、密码参数的 JS 加密方法。 2. 抓包 打开网页,右键调出调试窗口的 Network 工具; 点击右上角登录按钮,弹出登录 frame 之后,切换成账号密码登录; 随便输入账号(这里输入12345678@qq.com)、密码(这里输入 111111),点击登录按钮,查看网络抓包情况; ...

JS逆向:破解某站 sign 参数加密逻辑

目标站点:aHR0cHM6Ly9tLndjYmNoaW5hLmNvbS9pbnZpdGUvaW52aXRlLmh0bWw= 说明: 该站点较简单,可以作为小白练手使用,方便理解 js 逆向常规步骤。 1. 定位代码 打开调试面板,输入手机号、密码,检查 Network,分析后发现箭头指向的请求; 分析参数,发现 sign 参数被加密...

JS逆向:破解某站 password 参数加密逻辑

目标站点:aHR0cDovL2VpcC5jaGFuZmluZS5jb20vbG9naW4uanNw 说明: 该站点较简单,可以作为小白练手使用,方便理解 js 逆向常规步骤。 #1. 定位代码 打开调试面板,输入手机号、密码,点击登录,检查 Network,分析后发现箭头指向的请求,分析发现参数 j_password 已经被加密; 全局搜索 j_password...

JS逆向:破解某点评网站字体反爬策略

1、字体反爬原理 在CSS3之前,Web开发者必须使用用户计算机上已有的字体。但是在CSS3时代,开发者可以使用@font-face为网页指定字体,开发者可以将心仪的字体文件放在Web服务器上,并在Css样式中使用它。用户使用浏览器访问Web应用时,对应的字体会被浏览器下载到用户的计算上。 CSS的作用是修饰HTML,所以在页面渲染的时候不会改变HTML文档内容。由于字体的加载和...

JS逆向:破解某民宿字体反爬策略

1. 字体反*爬原理 字体反爬原理,参见:https://www.jianshu.com/writer#/notebooks/46497835/notes/89368581,此处不再赘述: 2. 某民宿字体反爬策略 检查元素查看价格、评论数,发现数值被加**密过了,如下图: 这里我们发现 clsss 值为 abfzdp8,通过分析我们发现,...