抓取果核剥壳网最新文章页面数据的WebScraper代码

最近一直在用Python,好久没用WebScraper抓数据了,突然发现以前用过的一段代码“抓取A股流通市值的WebScraper代码“居然失效了,提示非法JSON格式。

尴尬的是,我自己都没找到是什么原因……

这就是学了东西不经常用的后果,隔几天就忘记了。

好吧,从头再来过。毕竟对于某些应用场景来说,用webscraper比Python简单些。

这次的练手目标是:果核剥壳网

抓取的首页是:最新文章页面,链接是https://www.ghpym.com/category/all

很简单的获取到分页的信息,选中元素,设定抓取目标和参数,抓取前10页。

代码如下:

{“_id”:”ghpym”,”startUrl”:[“https://www.ghpym.com/category/all/page/[1-10]”],”selectors”:[{“id”:”cont”,”type”:”SelectorElement”,”parentSelectors”:[“_root”],”selector”:”li.item”,”multiple”:true,”delay”:0},{“id”:”leixing”,”type”:”SelectorText”,”parentSelectors”:[“cont”],”selector”:”a.item-category”,”multiple”:false,”regex”:””,”delay”:0},{“id”:”name”,”type”:”SelectorText”,”parentSelectors”:[“cont”],”selector”:”h2.item-title a”,”multiple”:false,”regex”:””,”delay”:0},{“id”:”disc”,”type”:”SelectorText”,”parentSelectors”:[“cont”],”selector”:”p”,”multiple”:false,”regex”:””,”delay”:0},{“id”:”time”,”type”:”SelectorText”,”parentSelectors”:[“cont”],”selector”:”span.item-meta-li.date”,”multiple”:false,”regex”:””,”delay”:0},{“id”:”view”,”type”:”SelectorText”,”parentSelectors”:[“cont”],”selector”:”span.item-meta-li.views”,”multiple”:false,”regex”:””,”delay”:0},{“id”:”like”,”type”:”SelectorText”,”parentSelectors”:[“cont”],”selector”:”span.item-meta-li.likes”,”multiple”:false,”regex”:””,”delay”:0},{“id”:”chat”,”type”:”SelectorText”,”parentSelectors”:[“cont”],”selector”:”a.item-meta-li”,”multiple”:false,”regex”:””,”delay”:0},{“id”:”love”,”type”:”SelectorText”,”parentSelectors”:[“cont”],”selector”:”span.item-meta-li.hearts”,”multiple”:false,”regex”:””,”delay”:0}]}

附:如果什么时候又失效了,写邮件告诉我,我尽量及时更新代码

微信公众号:Digiccy数据信息
关注我们,获取更多有价值的数据!
1200人已关注
分享到:
赞(0)