位置: 编程技术 - 正文
推荐整理分享使用PyV8在Python爬虫中执行js代码(pypy 使用),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:python.pyc,pyv8 python3,pypy 使用,pyv8 python3,python v8js,python v8,python pyv8,pyv8 python3,内容如对您有帮助,希望把文章链接给更多的朋友!
前言
可能很多人会觉得这是一个奇葩的需求,爬虫去好好的爬数据不就行了,解析js干嘛?吃饱了撑的?
搜索一下互联网上关于这个问题还真不少,但是大多数童鞋是因为自己的js基础太烂,要么是HTML基础烂,要么ajax基础烂,反正各方面都很烂。基础这么渣不好好去学基础写什么爬虫?
那你肯定要问了“请问我的朋友,你TM怎么也有这个需求?莫非你是个技术渣?”
非也非也,博主作为一个拥有3年多前端经验的攻城尸,怎么会被这个问题给难倒呢,老夫今天遇到的问题很显然没有那么简单。
问题
那么博主到底是遇到什么问题了呢?
博主今天要去爬一个接口,但是调用那个接口需要带上令牌,也就是存储在Cookie中的一个类似token的东西,Cookie的值是一段js生成的,这段js又是通过另外一个接口获取回来的,而获取回来的js代码还是动态的,WTF!!!开发人员你这是 弄撒嘞?
路人甲:我擦嘞,声称经验老道的博主不会分析js的逻辑?
对,我就是不会,特么的js代码都是混淆加密的,眼睛都看瞎了都特么不知道写的都是写啥?
算了,我直接执行拿到结果就好了,管他写的是什么鬼。
思路
理一理思路,现在要做的事情其实很简单
请求接口A,拿到动态生成的混淆过的js代码 执行js代码,拿到生成的cookie值 请求接口B,带上js生成的令牌 拿到结果,愉快的玩耍...思路相当的清晰,感觉秒秒钟就可以实现了呢。()
难题
Python里面执行js?有点意思,我干嘛不用nodejs呢?
因为Python是世界上最?诺挠镅园。∶挥兄?唬?/p>
找到了PyV8这个神奇的模块,机器已经有了pip,执行安装一下不就OK了?
不要怀疑,博主机器装的是 Kali Linux ,Root 权限,不需要 sudo
接着报错
似乎是因为缺少 v8.h 这个文件导致的,可是又看不懂啥意思。
解决
通过搜索引擎找到了解决方案,原来是因为 PyV8 依赖于Boost ,然而这个问题官方并没有说,所以得先安装下这个包
安装完成之后继续安装 PyV8 ,依然是上面同样的问题,看来只能手动来了。
下载 并把解压得到的文件复制到
里面去,然后测试看是否成功,终端执行
如果没有报错,那就成功了,开始愉快的玩耍,下面是我需要解析的js代码
已经经过整理,其实刚开始就只有一行,比较尴尬
姿势
折腾的过程可谓是各种曲折,不过也学到了不少姿势,比如,如何把混淆的js还原成原始代码
使用Firebug插件就能轻松解决这个问题,打开firebug插件,找到脚本选项,选择带 eval 的项,一般解析到最后一行就是原始代码了,我上面的那段 js 还原之后就便成了这个样子
稍微整理一下得到一个格式清晰的代码
有了原始代码就很容易得到令牌的生成算法,使用Python生成,这回不用麻烦 PyV8 大神出马了。
总结
标签: pypy 使用
本文链接地址:https://www.jiuchutong.com/biancheng/380086.html 转载请保留说明!上一篇:Python错误提示:[Errno 24] Too many open files的分析与解决(python错误代码)
友情链接: 武汉网站建设