独家|金融行业数据分析与建模的风控方法思享会纪要

独家|金融行业数据分析与建模的风控方法思享会纪要

独家|金融行业数据分析与建模的风控方法思享会纪要

[导读]清华大数据思享会数据分析系列之“金融行业基于数据分析与建模的风控方法”于2017年4月6日下午在清数D-LAB成功举办。本次思享会邀请了清数D-LAB首席数据科学家、美国中佛罗里达大学统计系数据挖掘专业主任、教授王中庆老师分享了他在金融行业数据分析与建模的案例,特别介绍了数据分析与建模的目的、数据基本情况、数据质量及处理方法、模型工具选择和模型表现与应用等内容。

独家|金融行业数据分析与建模的风控方法思享会纪要

来自银行、保险、小贷、互联网金融、消费金融、央行征信中心及其他金融大数据相关领域的30余位朋友参加了本次活动,大家结合各自的经验和背景积极分享和讨论业界的主要问题、现有解决方法等。会议纪要如下:

分享要点

数据基本情况描述:原始数据共十几万条,其中五六千条逾期数据,主要数据字段40余个,衍生数据字段30余个,部分外部数据。

数据分析的目标主要包括预测客户信贷违约概率、识别低风险高价值用户、给营销和市场发掘新用户提供依据三个方面。数据分析的结果是要服务于公司的业务人员,不仅仅是技术的问题,最终是要为公司发掘更多的新客户,降低公司运行的风险,长期使用模型来帮助公司运营,为企业创造更多的商业价值。

数据处理分析过程主要问题及对策:

  1. 缺失值:针对数据处理过程中存在的缺失值问题,首先需要理解字段的含义,有些数据的缺失并非无意义的缺失,相反可能代表的是“正常”状态。

  2. 离群值:个别字段数据可能少数几个异常值,数据建模分析过程中需要特别注意隐藏在数据中的异常值,通常需要将异常值剔除。

  3. 高基数变量:这类变量对决策树类的模型的影响不大,但对于神经网络类的模型影响非常大。

  4. 非线性数据:数据分析建模过程中,需要注意数据的非线性关系,对于非线性数据,使用线性模型的效果表现的瓶颈会很明显。

  5. 数据的时间维度:在不同的时间上,客户的属性可能发生变化,忽略数据的时间维度,模型的准确性可能受到严重影响。

模型选择方面,建议尝试多种不同模型,预设单一模型的效果往往不佳,也通过数据本身的特性选出最合适的模型。随着时间的推移,数据的特性可能也会发生变化,模型也需要进行相应的调整,或者是调整参数,或者是变更模型,来适应数据的变化,以保证结果效果、稳定性和准确性。

建模工具的选择方面,可用的有SAS、Matlab、Mathematica 等商业软件,也有Python、R等开源工具,各种工具都有不同的特点,适用于不同的数据,建模过程中可以尝试用不同的工具,让数据反馈最合适的工具。

独家|金融行业数据分析与建模的风控方法思享会纪要

讨论要点

  • 反欺诈是金融风控领域重要问题,骗贷利益相当可观,欺诈方式也层出不穷,特别是互联网借贷中不能面对面核实借款者,部分中介机构伪造客户信息的现象也时常发生,部分借款者或者诈骗团伙甚至可能通过“养账户”的方式提高信用额度之后进行骗贷,类似欺诈行为的有效甄别,是金融风控的反欺诈的重要内容。

  • 由于数据的获取困难,线上数据的真实性存疑,技术手段和数据分析能力欠缺,许多小贷机构仍然依靠传统的线下征信和风控手段,主要是根据借款者提供的证明材料、信用卡账单等,以及配合实地走访了解等方式,建立风控和反欺诈规则等进行线下人工比较严格的筛查,虽然风控成本较高,但总体效果基本可以,不过同时也拒绝了许多潜在的合格借款人。

  • 目前在风控方面结合大数据的技术和方法,在前端,可利用人脸识别,以及通过各种数据接口可以对借款申请人的各类信息进行核实;在后端,通过网银、电商等获取用户消费以及交易行为数据,并建立平衡卡模型等,通过技术改进贷款审核流程。

  • 当前大数据风控手段仍处于发展阶段,数据共享、市场监管和隐私保护等问题需要加强立法完善。

  • 车险业务平台覆盖了全国各个保险公司的车险业务,现在根据历史理赔数据等,研究推行车险业务的反欺诈系统,针对高价值车的碰磁事件分析等;大数据在车险定价改革方面的作用,包括区分营运车辆和自驾车辆,以及按年付费和按里程付费的支付方式差异等模式;车主也可以利用相应的大数据产品确定投保的车险险种等。

  • 税务数据在金融风控领域的作用显著,对税务体系内部的团伙作案退税可以利用多层次网络的大数据分析发现,前些年钢贸行业崩盘事件引发的银行信贷风险,在税务数据中实际早有发现,目前也已有部分银行的小微贷款已经跟税务数据对接进行风控。

相关推荐