批量爬取网站数据

91 °C
2019年7月8日16:21:18 发表评论

批量爬取网站数据

今天想要分析转录因子结合位点的数据,使用http://gene-regulation.com/cgi-bin/pub/programs/patch/bin/patch.cgi网站进行预测,但由于该网站不提供文件上传的功能,同时每次进行处理的数据量有上限,想到我又得点击几百次鼠标的操作就头大;于是参考别人的博客写下一个爬虫

首先使用python库urllib、http.cookiejar来登录网站

第一次登陆得到cookie

 

使用cookie文件信息进行登录

关于post请求如何查看键值对

可以在浏览器中先手动登录一次,找出post传递的键值对

 

批量爬取网站数据

开始从文件中读取数据进行post请求

对文件进行解析

解析的具体过程还是要参考具体的网页,自己用代码来实现,主要是用到BeautifulSoup的解析库

后续分析

 

问题

这个脚本是会对能够整除100的数据完整的爬取;如果199条数据的话,那99条数据是不会去发送请求的,还需要在最后加个if判断

参考

使用cookie登录

BeautifulSoup解析库

zpliu

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: