法国里昂商学院教授Guillaume Coqueret：金融学中的监督学习技术综述

首席数字官
2020-12-18
来源:

文丨张齐齐编辑丨秦丽

来源丨首席数字官

2020年12月12日，“2020中国数字化年会线上论坛”之【法国里昂商学院全球商业智能论坛】圆满举行。论坛聚焦世界领先的智慧商业运营，并就智能制造、数字化转型过程中的创新技术、相关管理学前沿理论与实践的问题展开深度交流。

微信图片_20201218150651.jpg

对于金融行业，大约有五个领域可以运用人工智能，包括任务自动化、客户关系管理（尝试改善应对客户、与客户打交道的方式，例如使用聊天机器人、减少客户流失等等）、信用评分、欺诈检测和资产分配。论坛上，法国里昂商学院金融与数据科学教授Guillaume Coqueret以“金融学中的监督学习技术”为主题，为大家重点介绍了后三个领域的用例。本文由【首席数字官】总结，提炼演讲嘉宾的精华观点编辑而成，欢迎阅读和分享。

一、信用评分

信用评分是银行或金融机构的要求或需求，因为其业务是贷款给个人或公司。信用评分流程十分复杂，必须确保在为个人或公司批准贷款时，所提供的服务和所面临的风险相匹配。为了实现这个目标，需要分析有关借款个人或机构的大量数据，也需要收集大量数据。例如，对于个人而言，包括个人的年龄、薪资、财富状况以及关于以前贷款历史的大量数据，比如这个人是否按时还款、是否曾经拖欠还款、违约历史记录情况如何等。对于公司来说，也是如此，但是可能需要访问其他类型的数据。例如会计数据，公司的营业收入、债务情况、财务比率等，需要评估申请贷款的公司实体的总体状况。这代表了大量数据，所以运用监督学习背后的理念是自动化以及定量挖掘数据，从而协助了解概况和风险。

例如，Kaggle上的数据集。 Kaggle是一个网络平台，提出机器学习领域的挑战，并且至少存在一个与信用评分有关的挑战。用户登录Kaggle平台，就可以访问数据，查看在机器学习中使用的数据类型。每个人拖欠还款的历史，即该人员是否拖欠还款90天以上，以及该人员在以往贷款乃至当前贷款中的表现的数据都展示出来。每行数据都代表一名客户，所有列均为客户的特征。然后，使用这些数据来尝试构建算法，以确定是否要向新客户或现有客户授予贷款。

如果授予贷款，采用何种利率同样重要。该算法的输出之一通常是违约概率或给定违约损失，这是该行业常用的经典KPI。这个过程很简单。首先要拥有大量数据，或者可以获取外部数据，据此可以构建一系列算法或一个算法。有了新客户或新数据，就可以丰富数据库，可以用来决定是否要向某个特定客户贷款。如果概况资料不匹配，则拒绝贷款；如果概况资料匹配，则批准贷款。

信用评分领域存在哪些问题？就这些技术而言，就像机器学习中经常出现的情况，偏差是一大问题。要确保自己的算法是公平的，不会导致性别、种族或其他歧视。另一点则是可解释性，因为在机器学习中，工具犹如黑匣子。若想准确地了解算法在做什么，为什么会做出某个特定决定，需要求助于其他类型的工具，包括可解释的AI工具。而同时，AI工具大量存在，必须能够理解算法在做些什么，理解为什么计算机或算法会做出特定决定，这一点至关重要。

二、欺诈检测

欺诈主要分为两种类型。第一种欺诈很明显，即一家金融机构（例如银行）遭受欺诈，可能是由于黑客攻击，或人们丢失了信用卡，而坏人利用信用卡进行在线购买，或从银行账户中取走资金。这种情况会导致客户不满意，金融机构也希望对抗欺诈性的数据使用者。第二种欺诈是报告欺诈，这种欺诈不常见。报告欺诈指无论是否自愿，公司产生存在错误的文档，可能是会计文档或行政文档。如果并非自愿产生，那只是错误；如果是自愿产生，那就属于真正的欺诈。这种情况很糟糕，因为有时其他人可能会使用这些文档来做出重要决定，例如投资决定。

就像信用评分一样，为了进行欺诈检测，需要交易数据，因为通常与交易有关，包括交易的性质、明细和特征。其中包括客户信息，例如年龄、学历、账户余额、所在地点、最近的交易历史记录、交易类型、是否使用信用卡、是否在线购买、是否通过支票支付、交易发生地点、金额等等。

对于每笔交易，都可以获得大量数据，根据这些数据构建一个算法，尝试确定某项交易是否是属于欺诈。一种简单的方法是确保一切顺利，即当前交易与过去交易类似。对于第二种交易，检测报告交易中是否存在欺诈的一种方法是求助于文本分析。可以尝试简单的文本挖掘，有时简单精确，例如根据数字频率。如果更有经验，则可以采用更复杂、更深入的工作，例如自然语言处理。

在这种情况下，道德问题较少，由于我们要避免欺诈，因此总体是合理合法的。但有一个重要的技术障碍，即拥有和收集的数据非常不平衡。在银行的所有交易中，只有极少数属于欺诈，因此在所有数据中，实际上只有很小一部分有用，包含大量信息。这造成一定程度的技术障碍和困难，但同样也有很多方法可以规避或解决这些问题。

三、资产分配

如今我们能够访问很多数据，实际上数据已经是理财行业中的业务。与公司开展业务时，会获得很多信息，包括公司特定数据，包括彭博、汤森路透以及类似的数据运营商报告的会计数据。此外，最近出现的新话题是替代数据，包括情感数据，通过自然语言处理计算，从社交媒体中提取数据。因此，在直播公司活动时，可以看到公众对公司新闻、公告、收益以及类似情况的反应。还可以访问市场上的高频数据，如果从事特定市场，高频可能意味着非常高的频率，例如毫秒级别。如果想尝试预测宏观经济水平将发生的情况，也可以在复杂模型中纳入宏观经济变量。

还有其他一些类型的数据，超出上述范围。例如，卫星图像可以用来查看中东港口、辅助石油行业的工作；查看沃尔玛和超市停车场的卫星图像，了解人们是否外出消费；通过超市的信用目录试图了解消费者的消费习惯和趋势；企业可以预测会发生什么情况，并以某种方式尝试从中产生利润。因此，数据获取领域前景广阔。

资产分配领域存在哪些问题？同样涉及市场投机行为，道德问题十分复杂。如今，人们日益严肃对待这个问题，这就是ESG投资蒸蒸日上的原因。 ESG与道德投资有关，也是最近的一大主题。此外，利用数据来产生利润也非常困难，因为经济环境总是在变化，很难尝试从过去的模式中推断未来的模式。此外还有回测问题、信任问题。这与信用评分中存在的问题相同。人们希望能够了解模型内部正在发生的情况。

以上是人工智能和监督学习技术在金融行业中的一些用例。金融行业中的机器学习是一个正在蓬勃发展的研究领域，相信未来将会有更多研究成果出现。