趣百科

如何采集淘宝数据

编辑:Simone 2024-11-11 06:15:24 610 阅读

如何采集淘宝数据

本教程向大家演示如何采集淘宝网站

这里我们浅谈一下如何采集淘宝数据,我个人比较喜欢是使用熊猫采集软件,简单,方便,易懂,感兴趣的童鞋可以百度搜索熊猫采集,下载安装即可

好,咱们不多说废话了,直接进入采集的步骤吧!

给项目取好名称,默认系统会给你自动编号一个名称,直接下一步设置

输入我们要采集标题列表网址,我这里以采集淘宝上面的黄金做为范例,

点击开始分析按钮(提示:如果你想多采集几页,那么就设置一下翻页方式,如果有不懂怎么设置翻页的童鞋,可以联系我的qq:2375884896)

继续下一步设置:如果以前对熊猫操作的过的用户会发现,这时候我们选择内容页里面的方式1找不到我们像平时采集的页面链接,这是因为淘宝页面做了一些防采集措施。这时候我利用方式3 中介方式对列表页的源码中的网址进行抽取,如图:

上图的comment_url":"//{<_medi_>}","shopLink 是为了找到在源码中以comment_url":"//开头,以","shopLink为结尾的那部分内容 ,在源码中我们可以看到这部分内容就是我们要采集的内容页面的网址。

之后点击下一步设置,因为我们知道,淘宝网有淘宝和天猫两个店,所以也就是说在熊猫中我们需要配置至少两个模板,一个是淘宝的,一个是天猫的。首先我们先添加一个天猫的模板,在标题列表页找一个天猫的内容页面,将网址复制到添加新模板中

如下图

点击添加新模板,进入采集内容页面,进去之后点击开始分析按钮,这个时候我们只要找到我们要采集的东西,勾选上即可。

下面我们主要说明如何采集淘宝上面的js加载的数据,如价格、月销量、累计评价。这些数据都是通过js加载出来,熊猫在分析这种页面的时候显示不出来数据,这时候我需要通过第三方软件,也就是抓包工具,找到我们要采集的这些数据真实存在的地方(目前大部分浏览器是自带抓包的,不是很明白看客可以百度查看一下抓包的说明)。

这里我就利用浏览器抓包来获取我们要采集的部分数据了:右击浏览器空白地方会有一个审查元素。点击进入,如图:

然后 我们刷新一下这个内容页面,也就是我们的模板页面,会发现出现很多网址,这时候我们要采集的东西就可以在这些网址里面进行查找;

如在这个网站里面,评价是隐藏在

http://dsr.rate.tmall.com/list_dsr_info.htm?itemId=39803304414(这个网址可以在上图抓包地方进行查找出来)这个网址栏中的。这时候我们到熊猫里面进行设置,随便选择一个空白的地方,勾选上利用中介(标签)方式添加新的链接指向,如图:

之后利用中介方式,设置出我们要采集的网址链接,如图:

说明:第一行的itemId={<_medi_>}&shopId 和上面说的中介方式一样,只是这时候我们看到是我们内容页的源码,用medi替换掉我们要的采集的id编号,为了就凑成我们要采集评论的那个网址。这时候我们点击添加按钮,会提示我们中介抽取的结果。

然后我们勾选上该链接为指向下级子页面的(间接或直接)链接,如图

点击分析该了链接指向的页面,进入下级页面。然后分析一下下级页面的网址,会出现我们要的评价:如图

勾选上采集即可。当然我们需要对这个结果进行一些简单的修缮,修缮规则如图

这个页面是通过对采集结果进行修缮进入的。

截止到现在,天猫模板的评价采集我们已经设置完成,其他的设置也和这个类似,我就不一一说明了。下面配上我查找的销量的真实链接

http://mdskip.taobao.com/core/initItemDetail.htm?notAllowOriginPrice=false&itemTags=907,1163,1478,1483,1675,1803,2049,2059,2507,2635,3083,3915,3974,4166,4614,4678,4811,5323,17665,17793,19841,20161,20289,20545,21697,22081,24002,25282,28802,36226,37058,53954,56130,56194&addressLevel=2&isIFC=false&isUseInventoryCenter=false&sellerUserTag=34672672&isRegionLevel=false&household=false&progressiveSupport=false&sellerUserTag3=144185556820066432&sellerUserTag4=4297081219&service3C=false&isAreaSell=false&sellerPreview=false&tgTag=false&cartEnable=true&sellerUserTag2=18015635460063232&tryBeforeBuy=false&isSecKill=false&showShopProm=false&tmallBuySupport=true&isApparel=false&isForbidBuyItem=false&itemId=39803304414&queryMemberRight=true&offlineShop=false 基本设置如下:

点击分析该链接进入指向的页面:

分析然后进行采集

修缮如下:

到此:天猫的模板部分js加载的数据我们就已经采集下来了。

这个时候我们只需要添加一个淘宝的新模板,进行类似的操作,整个淘宝界面的设置就已经完成。

最后:欢迎大家一起交流采集的心得。谢谢大家

版权声明:本站【趣百科】文章素材来源于网络或者用户投稿,未经许可不得用于商用,如转载保留本文链接:https://www.qubaik.com/life/56666.html

相关推荐