一、监管政策要点梳理有哪些应用场景?

通过和大部分金融机构的沟通,我们发现目前大家普遍对金融监管政策要点的总结强烈需求。尤其最近几年持续强监管导致内控成本的增加促使银行加大合规领域科技投入,结合起来就是要求通过系统建设来降低合规风险和内控成本,支持业务可持续发展。

但是通过流程再造,把监管要点嵌入到金融机构各个环节,而且还能动态更新,需要一个强大的并且支持动态更新的外规库以及对监管政策要点的提取总结,目前为止市场上暂时还没有一家能做到。法询金融通过多年监管政策研究和数据积累,现正式推出相应合规咨询服务和法询智库系统API接口及植入式服务。

1、外规内化的基础性工作:制定和更新内部流程

通过情况金融机构都会将监管要点嵌入内部制度流程中并且严格实施。定期也有内部审计去监督执行情况,并出具审计报告。

但是时间长了之后,包括业务部门员工、领导到行内的管理层,都会逐步模糊化到底哪些是外部监管要求,哪些是内部的流程控制要求,哪些可以通过改进流程来做调整,哪些是不能调整的。

所以需要有一个独立于内部流程控制点的纯粹外部监管要点及管理系统。这套系统的内容需要动态更新,保持和内部流程的嵌入。

2、为何内控要点必须和监管要点分离?

内部流程或者叫内控要点需要和合规要点进行分离;内控要点和合规红线分离,对后续动态修订公司流程,支持业务创新,理清合规边界非常有帮助。需要让管理层和内控合规部门理解合规边界在哪里,内控边界在哪里,因为二者的弹性空间完全不一样。

3、内部审计和合规风险评估检查工作

内部审计和合规风险评估检查工作的主要任务之一是确保机构运营的合法合规。其要求来源主要是监管法律法规通知要求,自律机构的规定等。对此审计部门和内控合规部门需要建立外部监管要点库以及内部控制库并且进行不断更新,在此基础上进行相应检查以确保监管要求得以落实。但监管文件体系以及金融产品的复杂性决定了依赖于人工的模式必定会导致工作量巨大而且无法保证较高的覆盖。基于法询智库的外部监管要点及管理系统则方便使用部门省去了自己梳理外部监管要点的巨大工作量。

4、员工监管要点学习培训手册

对核心要点的梳理总结可以方便从业人员的学习,查阅,知晓监管红线到底在哪里,并且参考设计内部控制流程。我们可以协助银行制作纸质版监管要点手册。

5、业务系统嵌入,流程节点控制

我们的监管要点根据每家机构的不同需求分别制作,重新分类整合,设置个性化标签,嵌入业务流程中。

二、监管政策要点和专业词库

1、政策要点如何动态更新?

虽然此前也有很多咨询机构做过类似的特定领域的监管要点整理工作。或者金融机构内部也有类似excel的整理清单,但是没有动态管理的系统支撑,会导致无法多部门多人协同,无法实时更新,无法展现不同监管要求之间的关系和差异。

没有一个T+0或者T+1实时更新动态管理的强大外规库做支撑,监管政策要点就是一个静态资料,无法适应快速变化的监管环境。

法询智库不仅仅有一个专业且持续更新数据库系统,而且通过专业团队和机器学习更新监管文件分类,关联关系,有效性识别,模糊检索,确保外规库最专业水平。通过内部强大的系统管理平台和40人的专业团队进行内容生产和动态维护。

凭借这样的强大基因,我们再出发,开始进行监管政策要点的分析。

2、金融关键词库

此外法询自建搜索引擎,维护更新自己的金融关键词库,最终将20万关键词库和业务及流程相对应。通过自然语言机器学习,在模糊搜索、监管政策要点筛查、内部流程自动筛查、错别字识别等领域进行广泛运用。

这些最新技术的应用形成了法询强大的技术支撑,持续服务金融机构客户。

三、监管政策要点结合NLP应用

1、自然语言处理(Natural Language Procession,NLP)

作为人工智能的三大分支之一,自然语言处理是指用计算机对自然语言的等信息进行处理,包括对字、词、句、篇章的输入、输出、识别、分理解、生成等的操作与加工,实现人机间的信息交流。

自然语言的处理的具体表现形式形式主要包括:文本分类、文本聚类、文本校对、信息抽取、语音识别、机器翻译、问答系统、人机交互等。

2、监管要点数据结构

大部分监管要点文本具有规范性、客观性和权威性,监管要点文本作为一种规范化的客观性文本,在文本表意特点上:平实、严谨、直接、准确,一部完整的监管要点文本结构上可划分为:背景信息、结构信息、正文信息三大部分。

背景信息包括:标题、文号、颁布机构、颁布日期、生效日期、到期日期、有效性等;

结构信息包括:执行主体、目录、章节条款、附件、表格、声明注脚等;

正文信息包括:监管要点词集、词频、词粒度、词性、语法状态等。

3、模糊搜索及智能法规摘要识别

法询自建的搜索引擎包含精准搜索和模糊搜索,精准搜索具备翻译功能,而模糊搜索在基础上领域具备互译、近义词、词性等映射库,运用端到端对应、实体抽取、情感分析等系统对文章、词向量进行分析。摘要部分利用seq2seq来建立文本模型,以及其中的注意力机制,运用特征工程选取关键特征,取得不错进展。

4、专业精准规则及数字化模型

法询具备多个专业金融领域AI工程师,每一份资料都会有行业专家审阅并进行纠错、打标签,并对相关标题、文号、机构进行编辑、补充、分类,然后使用数字模型进行拟合,实现模型推测和人工校对。不断的通过更对数据调优模型,达到智能推测的各项应用。

5、AI神经网络和大数据支持

法询在专业数据库的支持下,充分调用词嵌入模型连接nlp神经网络,对内容进行词性标注、命名实体识别、文本分类、实体聚类、QA等大量实验,在gpu上缩短时间并逐级提高相应准确率,使得文章内容、段落识别、实体抽取等一系列的准确性大大提升,同时也会对PDF等文档进行内容识别,更好、更准确、更相关的内容展现给大家。

三、法询提供一整套服务方案!

法询提供的方案主要是:

1、外部法律法规数据库系统

法询智库包括丰富的数据内容(金融类法律法规、处罚案例、监管动态、分类法规、金融类判决文书),具体服务方式分为API接口和植入式两种方案,都能实现全行覆盖,本地系统部署(提供源代码或不提供源代码两种模式)。

并且我们还可以根据客户需要,进行部分个性化定制功能开发和改造,法询外规库系统和本行行内其他管理系统的衔接,以及法询内部管理模块部分机器学习功能嵌入。

2、监管要点拆分

基于法询在金融机构本地部署搭建的外规库系统,法询协助进行监管要点的拆分、分类体系搭建、分类标签、有效性识别、后续每周动态更新。

具体工程量按照机构需要,选定特定领域做监管要点拆分,为后续其他应用场景服务。法询提供一整套系统工作平台支持,包括分析图谱、要点拆分、关联关系和分类逻辑。

3、流程梳理和外规内化

基于法询建立的外规库系统+内容+监管要点拆分和分类,协助金融机构打造包括包括内部流程再造、和内部流程嵌入和体检、定期内部邮箱信息推送、内部系统超链接引用、风控或者流程节点控制等应用场景。

四、关于银行如何建立自己外规库和外部供应商筛选?

1、如何衡量银行业金融机构法律法规库的数据量?

金融机构需要真正搞清楚怎么识别数据量,如何统一对比口径:

经过8年多时间的不懈努力,法询智库已经包括了近10万部金融相关法律法规(如包括监管批复,监管处罚,监管动态则接近100万部)。如果把非金融类的法律法规也纳入统计口径,则可以再增加几十万部监管文件。

我们在招标过程中,部分银行要求填写具体每个颁布机构对应的法规数量,通过这种方式排除不相关的法律法规,可以同一个口径对比不同供应商的数据。

同样是银保监会发文,如果把部分行政批复混杂进去充数就可以达到10多万法规数据(其中批复9万);央行发文,如果把公开市场操作及各种公告放进去,也可以高达3万的数据(但是实际意义的法规就几千部)。

此外还有大量游离于规范性文件通知和监管动态之间的文件,比如今天开了个会,明天做了表态,后天出了个新闻稿。

关于确定法规数据量,笔者建议通过筛选10-20个关键词,正文内容及标题进行检索,对比不同供应商的命中数量以及质量。因为一个关键词输入进去返回结果可能就10-50个,可以把这50个法规都点开看看,有没有混进去毫无价值部分,直观对比具体的数量和质量。

比如截至2022年2月,输入“员工行为”,法询智库的返回结果是418条记录,而且每条内容能够经受住考验。

2、如何识别法律法规库的文件质量?

质量大概分为几个层次:

(1)错别字和格式错乱,这个一般正规大型供应商不太会出现;但是小供应商如果只是简单用爬虫会比较常见。

(2)法规附件是否完整,表格是否完整。大部分供应商做不到对数万个文件的附件做校验入库,表格进行规范。然而有很多文件表格才是正文的灵魂所在。

(3)法规之间的关联关系,尤其是法规联想及图谱功能,目前市场上能做好的几乎没有。相对而言,目前其他供应商可以把明确的法规引用做好,而法规联想需要大量专业人员,叠加NLP技术支持才能逐步完善的一项工作。

(4)法规有效性识别。有效性识别实际是所有服务商的通病,根源是监管机构只有动力发文,但废止失效往往严重滞后,所以导致大量法规实际已经失效,但仍然在数据库里面显示为有效,这种唯一解决方案就是人工专业识别,加备注方便金融机构从业人员自行判断。

3、处罚案例

处罚案例虽然数据的获取比较容易,但校验数据错误,建立和法规的关联关系,抓取金额,都需要消耗大量人工的工作。一行两会一局8万多的处罚案例,做了3年,最终才能形成一个像样的产品。

比如光看数量,央行有18万处罚案例,但是绝大部分都是和金融没有关系,我们就需要做筛选,最终筛出来9000多和金融相关的处罚。

比如分类,我们需要根据非常有限的处罚案由,对银保监会2.4万处罚案例做分类处理,抽离出500多个分类标签。

4、关于查询

如果只是通用的做一个普通的开发,通常银行选择外包方或者自己行内提需求,也就是是法规名、文号、颁布机构、正文内容、颁布日期等字段查询。

但是现实情况是用户真要查的时候,很可能并不确定所查询的关键词对不对,这个时候对法规的标签、分词处理等长年累月的基础性工作至关重要,在这些基础上才能有联想和模糊查询。虽然我们目前也只是在法规联想匹配上做了很多工作,在模糊查询这一块做得也不够好,但是相信2021年底能够实现相对精准的模糊查询(通过自然语言学习,拆解关键词做查询结果模糊匹配)。

其他细节还包括比如移动端兼容、查询响应速度要控制在0.5秒以内,基本要求如果是靠谱开发机构应该都能实现(但笔者也见过至少3家银行自建的系统,就连这些基本要求都达不到)。

5、外规内化和法规条款梳理

合规建设年,很多金融机构又重提此前不断尝试但不断失败的“外规内化”,本质上是要将纷繁复杂的且动态变化的法规要求嵌入到内部流程中,这需要两项艰巨的任务:

(1)能够梳理出所有监管要求(包括监管要点清单),这个能涉及到上万部各种文件,数万个要点。梳理过程中也会遇到更新或者废止,同时不同条款之间的关联关系、勾稽关系也需要注意。单就这项工作尚未看到任何一家供应商或者金融机构能够完成,包括我们自己也只是尝试梳理了几千部法规文件和不到2万条监管要点而已。

(2)内部流程的再造

本质上是需要根据业务流程和风险控制,在法规和风控所划出的域里面来给业务做规范。现有流程肯定需要重新规划,该合并的合并,该拆分的拆分,而且需要和法规条款进行重新比对,确保流程控制对合规风险已经做了足够的控制,如果有剩余风险应该如何做应对措施。

但是首先第一步,需要判断这个流程到底可能触碰多少合规要点,后续万一更新了怎么办?

之前之所以失败,是因为从来没有一个外部供应商能够把外规的要点梳理清楚,内部不论是人力投入还是视野都远没有这个能力做这个事情。

6、能否通过AI实现法律合规基本问题的智能判断?

笔者接触过的银行保险机构至少有3家尝试过,而且是真刀真枪真资源投入,很遗憾结果也是非常失望。

包括某中大型股份制银行和深圳当地的一家机构合作开发的智能合规机器人,选择了一个非常聚焦的细分领域(仅针对零售的销售环节),大幅度缩小范围,确定对话场景,结果也只能是仅仅能用,但从监管处罚角度看,缺失遗漏部分就可能产生巨大的风险。要达到真正的业务合规判断及审核,复杂度不在一个量级,还是对正确率的要求也更高,还有大量法律法规未明确的灰色模糊地带。

我们虽然也在应用NLP做法律法规的条款分析,梳理法规条款之间的关联关系,做一些系统的初级判断再人工识别,但我们深刻意识到至少在合规这个领域尚未不成熟,3-5年之后的时机或许更好。在自然语言技术成熟之前需要在数据积累,条款分析以及基本的自然语言学习技术方面做好准备。

目前计算机技术取得了巨大发展,从易到难先解决了确定的重复问题执行难题,但在像金融合规领域这种不确定情景下的决策和判断,还无法替代人类智力的判断。

关键词: 银行4万监管要点 金融机构 自然语言处理