爱卡网

标题: 网贷爬虫数据（网贷大数据哪里查？） [打印本页]

作者: 爱卡网小编 时间: 2020-10-3 04:37
标题: 网贷爬虫数据（网贷大数据哪里查？）
查询大数据网贷报告在哪里可以查？
国内比较常用的种数贷数据库，央行征
央行征信统计银行与正规网贷的借款数据。
网贷信息库一般统计那些上征信或者是不上征信的网贷，基本上不上征信的网贷都会上传到网贷信息库。
普遍来说，如果想要查询网贷信息报告，那么只需要结合查询网贷信息与央行征信即可。
1、查询央行征信去带身份证件去当地网点或者官网征信中心查询，官网查询需要第二天收一个验证码才能获取报告。
2、查询网贷信息库就比较简单了，只需要打开微信，搜索：本信查。点击查询，输入信息即可查询到自己的百行征信数据，该数据源自全国2000多家网贷平台和银联中心，用户可以查询到自身的大数据与信用情况，可以获取各类指标，查询到自己的个人信用情况，网黑指数分，黑名单情况，网贷申请记录，申请平台类型，是否逾期，逾期金额，信用卡与网贷授信预估额度等重要数据信息等。
网贷之家还有网贷天眼等网站的平台数据都是怎么统计的？
大部分平台品标的页面链接都是按照一个数字规则排列的，所以做第三方数据的时候，一般是利用爬虫技术，把每个产品页面的数据抓取下来进行处理。各家平台的口径不一，有些数据还掩码，这种抓取的数据就有较大偏差。题目说到的这两家就采取了让平台自行报送数据的办法，第三方网站提供标准的数据接口，平台按照接口的规范报送数据。这种虽然也有各家对接口的统计口径理解不一、或者报送假数据的情况，但毕竟更精确了。
互联网金融爬虫怎么写
Previous on 系列教程

互联融爬虫怎么写－第一课 p2p爬虫（XPath入门）

互联网金融爬虫怎么写－第雪球网股票爬虫（正则表达式入门）
互联网金融爬虫怎么写－第三课雪球网股票爬虫（ajax分析）

哈哈，一小时不见，我又来了，话说出教程就是这么任性，咱们乘热打铁，把上节课分析完成但是没写的代码给完成了！

工具要求：教程中主要使用到了 1、神箭手云爬虫框架这个是爬虫的基础，2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确 3、Advanced REST Client用来模拟提交请求
基础知识：本教程中主要用到了一些基础的js和xpath语法，如果对这两种语言不熟悉，可以提前先学习下，都很简单。
还记得我们在遥远的电商系列爬虫教程的第一课里提到具体写爬虫的几个步骤吗？我们沿着路径再来走一遍：

第一步：确定入口URL
暂且使用这个第一页的ajax的url链接：

[html] view plain copy
http://xueqiu.com/stock/cata/stocklist.json?page=1&size=30&order=desc&orderby=percent&type=11%2C12

第二步：区分内容页和中间页

这次大家有点犯难了，虽然说每一个股票都有一个单独的页面，但是列表页的信息已经蛮多的了，光爬取列表页信息就已经够了，那怎么区分内容页和中间页呢？其实我们只需要将内容页和中间页的正则设置成一样的既可。如下：

[html] view plain copy
http://xueqiu.com/stock/cata/stocklist\\.json\\?page=\\d+&size=30&order=desc&orderby=percent&type=11%2C12
在提醒大家一下，这里之所以转义符用了两个是因为在神箭手中，设置正则时，是字符串设置，需要对转义符再做一次转义。

第三步：内容页抽取规则
由于ajax返回的是json，而神箭手是支持jsonpath的提取方式的，因此提取规则就很简单了。不过这里要特殊注意的是，由于我们是在列表页抽取数据，因此数据最顶层相当于是一个列表，我们需要在顶层的field上设置一个列表数据的值。具体抽取规则如下：

[javascript] view plain copy
fields: [
{
name: "stocks",
selector: "$.stocks",
selectorType:SelectorType.JsonPath,
repeated: true,
children:[
{
name:"code",
alias:"代码",
selector:"$.code",
selectorType:SelectorType.JsonPath,
},
{
name:"name",
alias:"名称",
selector:"$.name",
selectorType:SelectorType.JsonPath,
},
{
name:"current",
alias:"当前价格",
selector:"$.current",
selectorType:SelectorType.JsonPath,
},
{
name:"high",
alias:"最高价格",
selector:"$.high",
selectorType:SelectorType.JsonPath,
},
{
name:"low",
alias:"最低价格",
selector:"$.low",
selectorType:SelectorType.JsonPath,
}

]
}
]

我简单抽取了一些信息，其他信息都类似。

好了，主要的代码基本已经写好了，剩下的还需要解决两个问题
1.爬取前需要先访问一下首页获取cookie
2.虽然可以直接加入下一页，但是一共有多少页并不知道。
首先对于第一点，我们只需要在beforeCrawl回调中访问一下首页即可，神箭手会自动对cookie进行处理和保存，具体代码如下：

[javascript] view plain copy
configs.beforeCrawl = function(site){
site.requestUrl("http://xueqiu.com");
};
好了，除了下一页基本已经没什么问题了，我们先测试一下看看效果：

数据已经出来了，没问题，第一页的数据都有了，那下一页怎么处理呢？我们有两个方案：
第一个方案：
我们可以看到json的返回值中有一个count字段，这个字段目测应该是总数据量的值，那没我们根据这个值，再加上单页数据条数，我们就可以判断总共有多少页了。
第二个方案：
我们先访问一下，假设页数很大，看看会雪球会返回什么，我们尝试访问第500页，可以看到返回值中的stocks是0个，那么我们可以根据是否有数据来判断需不需要加下一页。
两个方案各有利弊，我们这里选择用第一个方案来处理，具体代码如下：

[javascript] view plain copy
configs.onProcessHelperPage = function(page, content, site){
if(page.url.indexOf("page=1&size=30") !== -1){
//如果是第一页
var result = JSON.parse(page.raw);
var count = result.count.count;
var page_num = Math.ceil(count/30);
if(page_num > 1){
for(var i = 2;i<=page_num;i++){
site.addUrl("http://xueqiu.com/stock/cata/stocklist.json?page="+i+"&size=30&order=desc&orderby=percent&type=11%2C12");
}
}
}
};
好了，通过三课的艰苦奋战，终于完成了雪球沪深一览的征服。先看下跑出来的效果。

完整代码如下：

[javascript] view plain copy
var configs = {
domains: ["xueqiu.com"],
scanUrls: ["http://xueqiu.com/stock/cata/stocklist.json?page=1&size=30&order=desc&orderby=percent&type=11%2C12"],
contentUrlRegexes: ["http://xueqiu.com/stock/cata/stocklist\\.json\\?page=\\d+&size=30&order=desc&orderby=percent&type=11%2C12"],
helperUrlRegexes: ["http://xueqiu.com/stock/cata/stocklist\\.json\\?page=\\d+&size=30&order=desc&orderby=percent&type=11%2C12"],
fields: [
{

name: "stocks",
selector: "$.stocks",
selectorType:SelectorType.JsonPath,
repeated: true,
children:[
{
name:"code",
alias:"代码",
selector:"$.code",
selectorType:SelectorType.JsonPath,
},
{
name:"name",
alias:"名称",
selector:"$.name",
selectorType:SelectorType.JsonPath,
},
{
name:"current",
alias:"当前价格",
selector:"$.current",
selectorType:SelectorType.JsonPath,
},
{
name:"high",
alias:"最高价格",
selector:"$.high",
selectorType:SelectorType.JsonPath,
},
{
name:"low",
alias:"最低价格",
selector:"$.low",
selectorType:SelectorType.JsonPath,
}

]
}

]
};

configs.onProcessHelperPage = function(page, content, site){
if(page.url.indexOf("page=1&size=30") !== -1){
//如果是第一页
var result = JSON.parse(page.raw);
var count = result.count.count;
var page_num = Math.ceil(count/30);
if(page_num > 1){
for(var i = 2;i<=page_num;i++){
site.addUrl("http://xueqiu.com/stock/cata/stocklist.json?page="+i+"&size=30&order=desc&orderby=percent&type=11%2C12");
}
}
}
};
configs.beforeCrawl = function(site){
site.requestUrl("http://xueqiu.com");
};

var crawler = new Crawler(configs);
crawler.start();
网贷大数据哪里查？

之家、网贷天眼一类是垂直的网据平台。同盾是防护为主，也有网贷平台的数据，但不是全部网贷平台都有接入。

我昨晚点了十几个网贷，一个都没下，现在有没有实时大数据查询的方法？
实施征信和大数据一般有两种方法，一种是自己带着身份证去当地央行网点去查。另一种是在蓝冰数据，考拉征信，鹏远征信这类大数据平台去查，只要找到他们的公众号就可以了
经常查询网贷大数据会留下记录吗？
人为了保险起见，甚至会一天申请十几个，想着总能一个，但是这样只会适得其反，频繁提出贷款申请，申请网贷的次数太多，贷款平台会认为非常缺钱才会这样，特别缺钱的话短期内是很难还上贷款，很可能会逾期，就会拒绝你的申请。
这种情况下，只要好好控制自己的贷款申请次数，或者暂时停止申请贷款，网贷大数据过段时间就会恢复了。定期在微信搜索：仲马数据，看看有没有异常情况，发现问题时要及时向信用机构进行反馈，只要按照规定来，大数据是不会差到哪去的。
怎么查询网贷大数据
国内比较的有两种数据库贷数据库，央行征信
央行征信统行与正规网贷的借款数据。
网贷信息库一般统计那些上征信或者是不上征信的网贷，基本上不上征信的网贷都会上传到网贷信息库。
普遍来说，如果想要查询网贷信息报告，那么只需要结合查询网贷信息与央行征信即可。
1、查询央行征信去带身份证件去当地网点或者官网征信中心查询，官网查询需要第二天收一个验证码才能获取报告。
2、查询网贷信息库就比较简单了，微信查找：米维查。报告立等可取，该报告对接了市面99%的网贷平台，数据全面而精准。用户可以凭借网黑指数分来判断自身是否为网贷黑名单用户。

欢迎光临爱卡网 (https://7177.cn/)