大数据在P2P借贷上的四大要素

佚名 2014-05-23  阅读次数:

现在P2P借贷领域的许多人,包括我自己,都喜欢使用借贷平台提供的大数据来分析趋势和帮助自己更好地了解借款人,以及分析他们的行为,从而来控制我们在P2P借贷市场上的风险。借贷平台的网络属性使得许多早期的零售投资者是以技术为导向,因此一直存在着一种误解就是,要想成为一名成功的投资者,你需要学会了解并利用大数据。如果你愿意自学一些信贷和金融技术来帮助你在P2P借贷领域做出更好的投资决策,你就会知道事实并非如此,而且可谓是大错特错

大数据并不能解决所有问题,你需要了解在关于大数据在P2P借贷上的四大要素。

要素1:大数据只记录过去绩效

任何曾经从经纪人处卖出过(或曾打算卖出)互惠基金、股票、债券或则其他投资资产的人,都听说过或者接触过这个条款——过去的表现并不能预示未来的结果。这是真的,它确实无法预测。那些我们从历史记录得到的重要信息,如支付历史、FICO信用得分和贷款清单上的不良信用者,都只是向我们展示了我们的借款人的过去行为。他们是否有按时还贷的历史记录?这并不意味着他们将来就会按时清偿贷款,但的确,特别是在无重大变化发生时,如失业或者重大疾病等,清偿的可能性会比较高。没有人知道未来会发生什么,我们需要记住的是历史记录无法预测未来,它只是过去的记录。

要素2:贷款池小且新

以LendingClub为例,它从2006建立至2012年11月发行了它的第一个10亿美元的贷款。到2013年5月(6个月后),他们成功发行了第二个10亿美元的贷款。到2013年11月,即他们第一个10亿贷款发行一年后,他们发行了第三个10亿美元贷款,达到了30亿美元的总发行额。这意味着今年的5月至11月之间,他们发行了另一个10亿美元的贷款。所有这些都是从LendAcademy上的LendingClub月度交易量分析中得出的。这意味着所有贷款中,有2/3的贷款期限都不超过1年。有些人会说我们无法收集任何有意义的数据,但是许多人会同意,我们能从历史记录中获取最有意义的数据,并分析出早期支付违约的可能性。如果我们能够获取所有数据,我们会发现,我们可以用作参考的长期数据贷款池是很小的。

我们贷款资产组合面临最大的问题是早期支付违约,即前六个月以内的违约。我们建立了一个贷款期为六个月以上的20亿美元贷款数据库,用来查看哪些人延迟支付,以及哪些人早期违约了。而且,由于议定贷款的最新出现,造成获取那些有意义的数据十分困难。

要素3:大数据将那些相互影响的因素独立开来

数据的有效性十分重要,你可以研究在周二发放,且限定于FICO分数为750的CA借款人的债务重组贷款。大数据的一个好处是你可以使用它来研究任何有意义或具有潜在意义的变量。我们在此讨论的一些变量包括FICO得分,不良借款信息,公共文件,所在州,房产,受雇年限等等。对我们而言利弊兼有。好处是显而易见的,我们可以对这些我们认为重要的因素进行研究,来降低我们的风险。

问题

使用大数据研究所有的这些变量所存在的问题就是,它会孤立这些变量,正如如果我想通过公众文件来进行核实。起初这听起来这并不坏,甚至听起来是件好事。问题是,这些因素中的一些是彼此相关的,孤立他们来进行研究是没有意义的,孤立他们会减弱这些变量的价值。例如,信用得分就取决于很多我们之前讨论的因素,其中包括:最近支付记录、良借款人信息、公开呈报、信用调查、循环可用信贷和债务收入比等等。当我们通过信用评分筛选时,我们已经将这些因素考虑进去了,因此将这些因素割裂开来看实属多余,甚至对质量筛选有害。因此,如果我们需要高的信用得分及无不良记录,同时,我们也知道无不良记录会提高信用得分,那么我们也就是在重复计算这些因素,因而与其他信用相关的因素形成对立。

要素4:相互关系不是因果关系

科学家和研究者都深谙此道。也就是说两件事物相关并不意味着一件事物的发生会引起另一个事物的发生。举一个典型的例子:我关于通过所在州进行筛选的主题。我们提到CA拥有最高的违约率。它也拥有到目前为止最多的贷款数量,因此,如果你拒绝CA的贷款,你将会明显地减少你的可利用贷款池。这也意味着所有CA的贷款都会因为筛选标准而被排除在外。无疑是一棒子打沉一船人。信用得分就是个很好的例子。自然,公开呈报会降低借款人的信用得分,而且确实是这样。然而,这种影响无处不在,可大可小,取决于类别和时间。一个很小的来自五年前的信息同对一个六个月前的借款人的判断是不同的,虽然他们都是公开呈报。前者,由于是在六个月内,因此很明显地影响了借款人的信用得分,而后者,对分数只有很小的影响,正如同我们对借款人偿付能力的看法是一样的。

结论

你无需成为一个擅长于操纵数据的人,或许你不是这类人更好。因为,当我们考虑所有那些可利用的大数据时,所有人都会很容易掉入陷阱。当我们在进行数据分析时,如果能够记得所有这些因素:大数据只是对过去的记录而不具备预测性,而我们的贷款池小且新,大数据将相互依存的变量孤立开来,相互关系不意味着因果关系,我们就会在P2P借贷领域领先于其他投资者一步,并且非常清楚我们贷款组合所面临的风险。