上交所前总工白硕：如何破解ai金融领域里“人智义尽”的困局？ | 雷峰网-亚博电竞网

知识图谱 ai金融

作者：余菲

2018/09/19 18:01

雷锋网ai金融了解到，伴随着人工智能应用于金融行业的热潮，“高度同质化”问题愈加凸显：一方面很多公司推出的产品定位都很相似，另一方面风投们对创业公司的技术期待也大同小异。人工智能在金融领域似乎已经“人智义尽”——人工智能的语义处理、创意都走到了尽头。

“这不是一个好事情”，在近期举办的“2018恒生技术开放日”，上海证券交易所前总工程师、中科院博士生导师、区块链及人工智能领域专家白硕这样说道。在他看来，正是种种思维误区导致了这种“高度同质化”。对此，白硕从大数据、自然语义、知识图谱三方面，详解了当下行业内存在的同质化思维误区，并逐一提出了不同见解。

雷锋网ai金融对其演讲内容做了不改变原意的精编：

大数据：共享误区

现在一提到大数据就是要汇聚、要共享，如果数据不从小规模变成大规模，不进行汇聚，都不好意思说自己在做大数据和人工智能。这其实是有误区的。

其实很多应用单位并不情愿把数据拿出来共享，可能是因为共享的收益有限，甚至没什么好处。不敢共享，因为这些数据一旦共享出去，便不再为你所掌控。不能共享，因为会有监管、政策、法律等方面的考虑。

这就在事实上形成了一些由边界围出来的数据藩篱，再者随着中国人数据主权意识的觉醒，数据完全共享面临的障碍短期内较难消除。

这里有三种亚博电竞网的解决方案思路：

第一，交换模型。把自己一方数据训练出来的模型交换给另外一方，另外一方把原始数据训练出来的模型交换给我，不传原始数据，而是传模型，在传模型的迭代过程中逐渐地实现联合学习。

第二，同态加密。神经网涉及到线性组合，里面有加有乘，一种还不够，需要两种，有一种全同态，这两种运算放在一起是否可以模拟成一个神经网络？也不够，因为还有非线性，这个非线性不能用加和乘来做，就要用多项式逼近，一逼近就产生误差，误差会有怎样的传播和累计这个问题没有得到解决。需要注意的是，同态的方式只能加密输入，不能加密输出，输出必须是公开的。

第三，传假数据。把自己一方的数据训练出模型，利用自己一方的模型生成同类型模型的假数据，把假数据传给对方。在这方面，我参与了中科院计算所研究的工作，这项研究叫做“合作学习”，本身数据不是很复杂，就是数字的识别。

左边是样本，不交叉的，标签互相不交叉，学习结果都会有提升，一方是100%，一方是0%，这边是一方是90%是0、1、2、3、4，10%是5、6、7、8、9，传假样本的方式传递数据的量非常小，要达到接近95%以上的指标，传输很少的数据就可以达到，我们用传模型的方法和每次迭代升级假样本的全集方法量非常大，现在用样本池非常小。

自然语言：端对端学习存在四大问题

目前的主流是端到端嵌入学习，把词嵌入到项链，到把整个句子和整个符号串嵌入到项链。而端到端存在四方面的问题：

首先，对语言的复杂结构和承载能力还是未知数。

第二，如果单位用户的需求复杂，靠这种学习能否应变、马上就改，尤其是涉及到客服、涉及到对外窗口，这个话明显已经错了，想改对，靠学习改对是非常困难的。

第三，对领域知识和领域专家作用的轻视，总觉得数据是完整的，觉得专家的知识经验好像可以绕开。这是不正确的，凡是自己有算法找你要数据，有数据就可以很好地合作，就可以解决痛点，这样的思路是错的。

第四，与结构化的知识怎样对接，这也是端到端嵌入方式的难点，不是说不可能，是有难点。

我现在回归符号来做，（上图）左边说“这只股票买过的都说太烂”，右边说“这只股票买过的都说太亏”，谁亏？谁烂？，说亏了是指买过股票的人，说烂指向股票，这样一个指向怎样通过符号解析的方式做出来？在这方面我们做了很大的改进，有一个新的方法，能够非常精准地解析。

知识图谱：过程性、动态性不够

知识图谱的问题是横向共同面对的问题，大家都说知识图谱可以做很多事情，但是同样是知识图谱，对知识图谱这个概念的把握和应用的时候使用的技术是千差万别的。

（上图）左边是知识图谱发展的历史，从描述语义的动机开始到为整个互联网上的资源进行体系化的标注，再到本体，再到目前这样一种很丰富的技术站形态，而且这个技术站没有其他的技术路线可以替代的，这是不容易的，但是不够。

来看一下我们想要做的事情，目前我们把语义要素分成第一层实体、第二层属性或/状态，第三层关系、第四层事件，第五层时空，第六层场景，第七层主观认知。知识图谱能够做上面三层和底下四层，我们把这些语义分成本体性、过程性、辅助性，最关键的是过程性，目前好多研究工作都没有往这个方向去做，这是不正常的。

最近我看哈工大发布了知识图谱的版本，叫做“事理图谱”，把刚才那个图从上面三层向第四层推进了一步，这是事理图谱在哈工大版本的呈现，就是事件和事件的推理关系、顺承关系有了基础的刻画：

第一，需要带参数。带参数就是事件参与的这些实体两两之间有关联，比如说前面这个事件是处罚事件，后面是整改事件，这两个事件有交叉都共同指向这个原点，就是他们所共享的参数，如果不能在事件之间传递这个参数，就说明其实我们对事件的把握还很不够。

第二，推理。大家都知道证监会中从业人员的子女、配偶和子女的配偶是不允许买卖股票。在违规买卖事件中，违规的人和交易当事人之间有一种亲属关系。（下图）左边是事理图谱，右边是传统的知识图谱，事理图谱的推理过程反应到右边要读取相关的数据，甚至还可能改变数据。比如说撤职，在右边的知识图谱里，张三可能有书记、主任、会长等一系列头衔，这些是他的任职，当左边事理图谱里一个事件发生了，就要在右边把主任这个职位撤掉，我们认为这个事件是动态性的，左边的事件激发、影响到右边的关系，右边的关系又会影响到左边事件之间的顺承关系、推理关系和推进。

第三，激发作用链。激发会有一个作用链，从违规到处罚、到整改，中间有一些对象是共享的，比如说违规的主体就是被处罚的主体，也是整改的主体。

所以，很多公司想利用知识图谱技术去做行业的产业链分析、行业的基本面描述，但是在这个描述过程中如果不引入知识图谱的动态性，事情就无法做到位。

（雷锋网）