淘宝宝贝链接url分析该怎么做

关注:92 发布时间:2022-01-02 11:24:01

一、整体思路

1、首先你需要一个ip代理池

2、使用本机ip将淘宝中基本的商品分类抓取下来

页面源链接:https://www.taobao.com/tbhome/page/market-list

从页面源链接中解析到的url形如下:https://s.taobao.com/search?q=羽绒服&style=grid

3、将诸如此类的urlhttps://s.taobao.com/search?q=羽绒服&style=grid作为任务队列,使用多线程对其进行抓取与解析(使用代理ip),解析的内容为第4点

4、我们需要分析每一种类的商品在淘宝中大概具有多少数量,为此我解析出带有页面参数的url,在第3点中url的基础上:https://s.taobao.com/search?q=羽绒服&style=grid&s=44,在浏览器中打开url可发现此页面为此种类衣服的第二页

5、我们得到了每一种商品带有页面参数的url,意味着我们可以得到此类商品中全部或部分的商品id,有了商品id,我们就可以进入商品详情页抓取我们想要的数据了

6、为了实现第5点,我们先将第4点中抓取到的url全部存储进mysql中

7、从mysql中将待抓取url全部取出,存储到一个队列中,使用多线程对此共享队列进行操作,使用代理ip从待解析url中解析出本页面中包含的商品id,并构建商品详情页url

8、在第7点中解析商品id的时候,同时使用布隆过滤器,对重复id进行过滤,并将已经抓取过的url任务放入redis缓存中,等达到合适的阈值时,将存储在mysql中对应的url行记录中的flag置为true,表示此url已经被抓取过,等到下一次重启系统,可以不用对此url进行抓取

二、实现细节

我们先从ip代理池说起,在这个项目中所运用到的ip代理池与我在java网络爬虫(十一)–重构定时爬取以及ip代理池(多线程+redis+代码优化)这一篇博客中所讲述的ip代理池的实现思想有一些细小的差别。

淘宝宝贝链接url分析

三、监控线程

这个线程的主要作用是将redis数据库中缓存的,已经成功解析过的任务,将其对应mysql中所在的行记录中的flag位设置为true。

一些卖家需要把宝贝放在淘宝站外的网站上推广,这个时候就需要卖家提取无线的链接地址,大家也可以登录淘宝,进入卖家中心任意宝贝提取url链接哦!

淘宝宝贝链接url分析

猜你喜欢

最新加入十大品牌