收起
1分钟1小时1天1周1个月

直播 | “区块链100分”线上分享第九期——分享嘉宾闾海荣

中关村大数据产业联盟“区块链100分”线上分享交流活动,将于今晚20:30正式上线第九期。

2019年11月21日 18:30 大数据 区块链技术

中关村大数据产业联盟“区块链100分”线上分享交流活动,将于今晚20:30正式上线第九期。

主办方:中关村大数据产业联盟“区块链100分”& 31区

本期主题:《数据共享和隐私保护应用》

本期主持人:中关村大数据产业联盟秘书长 赵国栋

主持人介绍:

赵国栋,中关村大数据产业联盟秘书长、国家大数据战略1142工程副组长、现任上市公司朗新科技、富邦股份、奥维云网独立董事、工信部专家库成员,中国计算机学会大数据专家委员会委员,首辅智库理事,盘古智库发起人兼学术委员。北京邮电大学经济管理学院特聘导师。《大数据时代的历史机遇》、《产业互联网》、《数字生态论》、《区块链世界》、《区块链与大数据》作者。

本期分享嘉宾:闾海荣

分享者介绍: 

闾海荣博士,清华大学自动化系副研究员,清华大学数科院医疗健康大数据研究中心副主任。专注于人工智能、区块链和边缘计算在医疗健康领域的应用研究,发表了40多篇论文;作为负责人或主要参与人,承担多项国家项目和地方政府项目。回清华大学任教之前,曾任IBM研究院研究员以及荣科科技(股票代码300290)副总裁。

好兵:我们准时开始,有请本场主持人赵国栋秘书长进行主持。

赵国栋:大家晚上好。

赵国栋:11年的时候,我提出了数据资产这个概念。当时只是想唤起大家对数据的重视。但是就数据如何才能变成“资产”这件事情本身,没有深入研究。

赵国栋:假如手里有些有价值的数据,如果直接就“卖”给别人,事实上只能成交一次。尽管原始的数据拷贝还在你的手里。但是别人买走的那一份拷贝,同样也能继续“卖”。

赵国栋:买走你数据的人,成为你的竞争对手。这是一个悖论。

赵国栋:近期,我们注意到,大数据行业人人自危。涉及个人隐私的公司,纷纷出事。刚刚出事的考拉征信,说是缓存了大量的身份证数据,给一些公司提供“返照”服务。

赵国栋:就是根据身份证号码,返回身份证照片的服务。

赵国栋:身份证其实人们的隐私数据,但是却被一些公司收集起来成了谋利的工具。人家卖了钱,身份证的主人们却一无所知。

赵国栋:所以,在数字世界,如果真的可以做“数据”的交易的话,首先就应该把数据确权,并能够变成可以被“保护”的资产。而不是被随意的售卖。

赵国栋:这些问题,利用区块链、边缘计算等技术,或有解决的方案。今天闾总,就来分享这个方面的话题。

赵国栋:在某种意义上说,有了区块链,数据才能真正成为资产。如何实现呢?且听闾总分解。

闾海荣:大家晚上好。

赵国栋:数据共享与隐私保护平台。

闾海荣:我是清华大学自动化系的老师闾海荣,同时也在负责清华大学和福州市政府合作的福州数据技术研究院。在回学校当老师之前,我在企业工作了十来年,尤其是对医疗行业比较熟悉。今天讲的很多想法的源头就来自于我们在医疗领域碰到的挑战。


闾海荣:为什么数据的汇聚共享应用这么困难?我们分析,大致有以下几个因素:

闾海荣:痛点一:源头共享意愿低

闾海荣:数据的主权问题和使用边界暂不明细,导致各个机构数据共享的意愿较弱。

闾海荣:目前数据的所有者、提供者、使用者、受益者等角色相互割裂,高质量的数据所有者,共享的意愿很低。另外,什么数据能够允许共享,数据使用的权限由谁分配并不明晰。

闾海荣:痛点二:中心汇聚难度大

闾海荣:各系统条块分割、相互独立,导致直接进行数据共享的难度呈指数级上升。

闾海荣:由于系统各自开发、自行建设,导致各系统条块分割、相互独立。以医疗领域的系统为例,职工医保、居民医保、计划生育信息管理分别由人社、计生部门开发建设。已投入应用的系统中,有的由卫生部开发建设,有的由省卫生厅开发建设,有的由医院自行开发建设,标准不统一,流程不规范。是造成目前数据共享举步维艰的重要技术原因之一。

闾海荣:痛点三:安全隐私泄露易

闾海荣:原始数据一旦共享出去,就失去了隐私及控制权;中心化节点被攻击后数据泄露的风险和范围极大。

闾海荣:痛点四:应用生态建设难

闾海荣:纵向未到边,横向未到底,大多是死数据,缺乏有活力的激励措施和应用生态。

闾海荣:医疗健康大数据来自各个主体,包括医院、个人、企业、科研机构等,即便通过完成了数据汇聚工作,由于数据的所有权不清晰及授权问题,很难汇聚高质量的数据,更难进行大规模的商业化应用。

闾海荣:所以,我们说,在目前的应用状态下,数据的价值是一次性的,很难成为资产或者生产要素。


闾海荣:虽然存在着数据共享和隐私保护的痛点,但是数据共享和隐私保护又仿佛是“冰与火之歌”,同时,也像是一个天平的两端。如何在冰与火之间找到平衡的中间点,是我们要努力寻求的解决方案。


闾海荣:面对数据共享的三大瓶颈,我们可以通过四个步骤来完善和优化。

闾海荣:数据的应用可以形象地比喻为一道菜从准备到上桌的过程:

(1)数据汇聚——买菜

我们先要把要准备用的菜(数据)买回家。但是是不是毫无计划地买呢?肯定不是。我们都是一种一种去买。

所以数据汇聚也一样,要从由“大一统的数据汇聚”(没有规划地买一通)模式逐步转变为“多模态数据汇聚”(有计划、分类地)平台。

(2)数据治理——择菜

那么数据有了,也就是菜也有了。是不是所有菜(数据)都能够直接拿下去炒(直接用)呢,肯定也不是,那我们应该先怎么办,首先,我们应该将菜里面的不太好的烂的叶子,或者被虫蛀的叶子清理掉。那这一步其实就指的是数据的治理。这里我们需要根据顶层设计的数据标准典范,配合技术力量着手治理数据。

(3)数据融合——炒菜

接下来,菜也是已经处理好了,这时候该下锅了。在炒菜的时候,我们心里肯定会有一道菜名,而这个菜名,对应到我们数据治理里面,相当于就是建立同一对象为索引的线索。这样的话,我们的数据才能碰撞出火花,融合也才能够更充分。

(4)数据输出——上菜

最后,菜炒好了,对应着我们的数据也融合好了,这个时候我们就应该上菜了。那么我们上菜的时候呢,其实上的是已经炒好了一个菜,并不是把原来生的菜放上桌。其实对于数据输出来说的话呢,我们也有一个理念,我们的应当从原来的获取原始数据的一种方式,逐渐的转变到获取分析结果的方式。也就是说我们要上熟的菜或者说是分析好的结果,给大家进行应用和分享。

闾海荣:也就是说,我们未必非要把别人的原始数据拿到手。

闾海荣:从现有的以“获取原始数据”为主的累积型大数据建设模式稳步转换到“获取分析结果”为主的应用型大数据建设模式。


闾海荣:在具体应用方面,我们围绕医疗大数据推广应用中面临的实际问题,提出一个全新的兼顾数据确权和隐私保护的数据共享体系架构,探索相应的理论体系,建立构建数据共享、确权和隐私保护的标准,设计并开发一套高效、可靠的医疗大数据数据生产、流通、应用挖掘的软件平台,并在多家医院开展应用示范。

闾海荣:我们给自己搭建的平台取了一个名字叫做SOLAR(Smart Online Limbic Alliance Renaissance)基础技术平台,起自五个英文单词。

闾海荣:Smart:分布式智能、Online:万物互联、Limbic:边缘架构、Alliance:数据治理、Renaissance:数据主权复兴。

闾海荣:寓意着数据共享的小太阳,星星之火可以燎原。


闾海荣:在我们的数据共享与隐私保护平台里,区块链只是技术之一,还用了联邦学习、边缘计算相关的技术。具体有三块,分别是区块链、EDH和ECP。其中区块链技术主要保证了数据的主权和不可篡改性;ECP是团队研发的边缘计算平台,因此我们不要求获得用户的原始数据,计算过程在边缘计算平台完成,分布式协同计算、联邦学习都在这个模块里;EDH主要用于边缘数据的存储,也在部署于用户本地。


闾海荣:目前,我们在医疗数据的应用医疗领域主要有三大应用场景:分别是科研数据共享(B端,主要给医院和医院联盟使用)、专科联盟共享平台(G端,主要给政府监管部门使用)、个人健康数据保管箱(C端,主要给老百姓使用)。

闾海荣:想要达到针对数据存储、流通、确权、隐私保护和安全的需求,用团队自己研发SOLAR(Smart Online Limbic Alliance Renaissance)基础技术平台,建立数据共享开源联盟。

闾海荣:具体案例稍后我会展开。


闾海荣:这是我们科研数据共享的场景。

闾海荣:做医疗行业的人可能都见过很多厂商的科研平台,我们的做法有点不一样。

闾海荣:我们在和很多这个医院或者是科研机构进行交流的时候,发现他们说其实都有去写高质量的论文的需求,那么高质量的论文他怎么来呢,它必须是依靠大量的数据来作为支撑。

闾海荣:以前的方式,一般是这家这家医院提出一个申请,然后信息科将数据导出来给到这个医生。但是,给到这个医生之后,这个数据到底是怎么用,去了哪里,有没有转给其他人,这些都是我们不知道的。那这些问题呢,正好会是我们数据安全的极大的隐患,所以我们根据这个痛点作为切入点,设计了一个叫科研数据共享平台。

闾海荣:这个系统,主要能够解决不同团队之间数据共享的问题。举个例子来说,现在如果我们需要数据共享,首先我们可以先达成协议,但是数据必须在这个科研数据共享平台上流转。比方说A医院,他提出了数据申请需求,那么B医院响应请求,我们会将共享B医院的数据的目录进行上链,那么A院使用了这家的B院什么数据,使用的次数,有没有被他中途转给第三方A医院都能够一清二楚。

闾海荣:在这样的一个环境的保护下,就可以比较好地保护不同项目之间数据共享的问题,总体呢将会达到下面的一个四个效果:

(1)数据的使用在边缘中心,不外泄

(2)数据的使用可追溯

(3)数据的隐私保护

(4)数据的价值评估


闾海荣:在妇幼专科数据共享方面,也和几家妇幼医院进行共建了专科联盟数据共享平台。这个平台不仅可以将妇幼数据进行线上安全共享,我们还自己搭建了边缘数据分析平台,可以将数据处理放在数据拥有方本地,可视化地完成数据的计算和共享。

闾海荣:肝胆疾病数据共享平台,这个还没有部署。

闾海荣:联盟监管机构可以监控联盟间数据的使用情况,确保数据的安全流转。节点医院可以进行院内数据全流程追踪管理。


闾海荣:个人健康数据保管箱是我们在C端人群的尝试,我们在解决个人全生命周期中,健康数据的采集、传输、存储、大数据分析算法以及健康服务的全流程问题上研究。

闾海荣:数据的存储采用的成熟的信息安全机制+区块链分布式账本+边缘计算技术等。

闾海荣:目前,我们有一套基于分布式账本的孕妇糖尿病管理的小程序,可以解决孕期妇女糖尿病高发,需要实时监管但是数据,以及数据监管的工作职责精确到个人。

闾海荣:我们的平台和技术已经在福建省的一些医疗机构进行试点应用。

闾海荣:另外,除了医疗领域,我也在其他领域做一些尝试。

闾海荣:我们在参与建设一带一路数据共享(国家级)联合实验室。

闾海荣:并在筹划做跨境贸易平台数据共享。


闾海荣:基于项目团队自主研发的SOLAR系统,融合运用区块链、边缘计算等技术,实现“一带一路”沿线国家进行跨境贸易时单据流转的安全性及不可更改性。同时,用区块链的智能合约来降低跨境金融机构间的对账成本及争议解决的成本,实现合约的自动执行,并且保证相关合约只在交易对手方间可见,而对无关第三方保密。

闾海荣:此外,也参与了一些行业标准、方案和地方法规的制定。

闾海荣:如协助福州市大数据委起草《福州市政务数据资源共享开放考核暂行办法》等。

王维:好棒。

闾海荣:我们主要还是集中在一些核心技术研发上,做了一些应用试验,还有很多要改进和晚上的地方,请各位大咖指正。

闾海荣:今天的分享就到这里,谢谢各位。

赵国栋:谢谢海荣的分享,内容很精彩。

赵国栋:一开始以为你是厨师,后来发现是太阳神(哈哈哈)。   

好兵:分享真的太棒了。

闾海荣:理想很丰满,现实很骨感,真正把各种技术融合用起来并落地,挑战还是很大的。

赵国栋:这个方案,其实不仅仅是用在医疗和科研领域。

闾海荣:对的。

赵国栋:其实是一个同样的数据共享方案。不知道这个方案有多大的可扩展性。

闾海荣:我们打算先在医疗落地开花,把技术和方案打磨的更成熟稳定一些 。

闾海荣:底层是应用无关的。

赵国栋:我感觉你在做一个底层的有普适性质的平台。

闾海荣:各个应用领域的需求还是不一样的,目前也不敢说普世,需要一点点的迭代 。

颜阳:Federated Learning进行联合建模,这种应用应该只是几方事先约定后固化后进行的,也即是说针对特定的应用场景。

颜阳:目前来讲,联合建模,还难以实现通用场景的应用。

闾海荣:对的。

颜阳:其实,我们在金融场景的应用都是一样,如果银行的风控模型,比如需要调用外部的数据,如银税互动,也是只能做到一对一或一对多事先固化好后进行建模。

颜阳:因此,现在都是在垂直的细分领域里去做。不过,已经不错了。

闾海荣:各种分布式协同算法,很难做到通用化,我们也只是实现了部分的算法分布化 。

颜阳:对的。我们现在在政务、金融的做法,都是这样。

群友:关于统一电子病历系统有研究吗?美国的进展如何,有跟踪掌握吗?

闾海荣:这块没有研究,我的团队分布在两个方向,一个是刚才讲的数据共享相关的技术,一个是医疗AI相关的。

好兵:今天的时间差不多了,再次感谢海荣的分享,明晚同一时间再会。直播到此结束。

闾海荣:谢谢各位指导,希望以后常有机会交流 。