品牌建设
当前位置:首页>>品牌建设>>科创之星

郑大科创之星 || 计算机领域的顶尖科学家韩家炜:一直行走在数据挖掘的最前沿

浏览量 : 3516次 发布时间:2022-04-26


文丨冯嘉(郑大科技园发展规划部助理研究员)

1978年12月,中国刚刚结束十年动乱,改革开放的大门渐渐打开。如何推进改革开放事业、融入国际体系成为知识界为之焦虑的主题之一。来自中央的扩大派遣留学生的战略决策成为中国与世界接轨的前章。这一时期的留学生中,有全面地解决了已有半个多世纪历史的“尼尔森不动点猜测”的姜伯驹,有参与了我国水利水电工程建设多项关键技术研究的中科院院士张楚汉,也有后来在数据挖掘领域取得杰出成就的韩家炜。他们取得了享誉世界的成就,也成为了中国与世界进行科技交流的一座桥梁。

1949年,韩家炜出生于上海的一个中产家庭,在文革后期以工农兵身份就读于郑州大学外语系并于1978年毕业,后在中科院读研期间考取了公费留学美国的名额。当时,正是美国各个大学开始逐步建立计算机系的时期,韩家炜首次接触到了系统性的计算机知识,并选择进入数据库领域。

2021年,Guide2Research网站公布了世界顶尖1000名计算机科学家排名,韩家炜位居华人科学家之首,综合排名世界第4,也是唯一名列世界前五名的华人科学家,先后在加拿大西蒙—弗雷泽大学和西北大学任教,现为美国伊利诺伊大学香槟分校计算机系教授。

在一次公开演讲中,韩家炜说:“当时(1978年前后)国内大学基本没有计算机系,去海外留学的中国人大都是从零开始学计算机。但如今的情况已经很不一样,即使是来自北美或是欧洲的论文,很多也是中国留学生写的。只过了二、三十年,中国人在科研领域中所起的作用,已经变成了重要力量。”

1、国际上最早涉足数据挖掘的科学家之一

图片

当我们在讨论所谓的大数据时,到底在讨论什么?或者说,大数据到底是什么?对此,一般认为可以从两个方面给出解释。

一方面,大数据并不属于产品或技术领域,而是伴生于数字化社会形成过程中的一种数据爆发的产物。综合Gartner、麦肯锡、IBM以及众多科学家对其的梳理和定义来看,大数据有以下几个特点:首先是体量大,通常指10TB规模以上的数据量,其中仅计数网络产生的数据已经进入到EB和ZB阶段,从而对现有的数字基础设施的处理和计算能力构成了挑战;其次是形式复杂,包括结构化(如表格数字等能用二维表结构来进行表达的数据)、半结构化(如HTML文档等有结构但结构容易变化的数据)和非结构化数据(如图片、视频、音像等难以用二维逻辑表表达的数据),难以判断和寻找有效信息;第三是流动性高,是随时间延续而无限增长的流式数据组合,并且往往具有突发性和时效性,难以预测其变化。

这些特点客观上都加大了捕捉、利用大数据的难度。

另一方面,在大数据领域,相较于数据本身,更为重要的是如何应用数据。中国科学院院士梅宏曾将大数据的应用分为三个层面:描述性分析、预测性分析和指导性分析。

简单而言,第一个层面是通过机器学习使用、处理大量数据而得到某些可供分析的材料,如通过分析共享单车app的数据能得到使用者的出行路线、年龄和性别等多种信息,属于基本算术运算的结果。第二个层面则是依靠算法,进而预测未来有可能发生的情况,提升相关活动的可预见性。第三个层面则是针对推算出的可能性提供建议并由此影响某些领域、行业和人物的决策性行动。比如,在2012年与2016年的两次美国大选中,奥巴马团队与特朗普团队都曾通过大数据和AI分析选民的情绪与偏好、影响“操控”选民,并击败了竞争对手,成功当选总统。

对于各行各业的发展而言,这种预见性都将是颠覆性的,因此,《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。

从大数据中获取有价值的“知识”(信息、规律等)的这个过程就被称为数据挖掘(Data Mining)。

“数据挖掘从某种程度上,可以帮助我们更好地重新理解,或者说认识这个世界。”韩家炜说。

韩家炜是国际上最早涉足数据挖掘这一领域的科学家之一。上世纪70年代末到80年代,他在美国首次接触到数据库技术,并开始研究演绎数据库(关系数据库与逻辑程序设计相结合的技术)。

“当时我学的是数据库方面的东西。从整个大环境来看,数据库当时是一个非常热门的研究方向,很多公司都在用它,而且从工艺上来说,关系数据库已经是一个比较成熟的、产品化的系统。”韩家炜说。

但在研究过程中,韩家炜很快发现,在海量数据应用上,数据库技术所能起到的作用是相对有限的,原因主要包括三个方面:

其一,数据库技术主要用于存储、检索大数据,也就是说其能将原本大而凌乱的数据转化为按照某种次序排列的整齐数据,但难以获取数据内在的联系和隐藏信息,难以应对多元化的使用需求。

其二,关系数据库进行处理的数据是结构化数据,但其在数据总量中的占比正在逐年降低,而无结构化数据才是“重头戏”(据国际数据公司IDC预测,到2025年全球产生的数据量将会增长到175ZB,其中超过80%的数据都会是无结构化数据)。

其三,演绎数据库技术需要由科研人员先行设计好逻辑规则,才能进行推理,这样得出的结果存在明显的局限性。他开始意识到从数据本身入手去获取知识,即数据挖掘的重要性。他的博士论文就立足于数据挖掘。

截至2021年,韩家炜已经在KDD(国际数据挖掘与知识发现大会)、VLDB和SIGMOD(世界数据库业界三大会议之二)等上发表高水平论文400余篇,先后获得2004年国际计算机协会知识发现与数据挖掘(ACMSIGKDD)最佳创新奖、2005年电气电子工程协会(IEEE)计算机学会技术成就奖和2009年IEEE计算机学会 Wallace McDowell奖等,其所著《Data Mining:Concepts and Techniques》(《数据挖掘概念与技术》)是数据挖掘领域第一本系统性教材(该书后被郑州大学范明教授译成中文版引入郑大,郑大因此成为国内少数几个较早开展数据挖掘研究的高校之一),并因其对“知识发现和数据挖掘”的贡献被评为ACM和IEEE双院士。

2、参与组织了第一届KDD国际学术会议

图片

据郑州大学邱保志教授(下图左)介绍:“数据挖掘是随着计算机技术进步而进步的一个领域,是一门交叉性学科,融合了人工智能、数据库技术、模式识别、统计学和数据可视化等多种理论和技术的学科,因此,它的成熟是建立在其他计算机技术成熟的基础之上,可以被广泛地应用于任何有数据收集的行业。”

也就是说,数据挖掘的诞生是计算机技术日渐发展成熟的结果,而在80年代,它还是一个未被开掘的领域。从时间维度来看,对于当时韩家炜那批中国留学生而言,这是一个在起点上与包括美国在内的其他国家相差无几的赛道,也是一个有可能追赶上发达国家的新领域。

“当我们最初来的时候,威斯康星大学实际上对我们这几个学生特殊看待,而不像其他正式的研究生一样,因为他们无法对我们做出判断。”韩家炜在一次采访中说道,“有一个威斯康星大学的教授告诉我,他们之所以敢于接受这批学生,是因为他们看到中国曾经是一个大国,现在也是一个大国,那么肯定有很多有才华的人。”

威斯康星大学的判断很快得到了印证,在计算机领域涌现了诸多优秀的中国留学生,如韩家炜和李凯(中国工程院外籍院士、美国工程院院士,是韩家炜就读中科大时的同学),他们不但较早的展露出华人在计算机领域的能力与天资,而且,在新兴的数据挖掘领域更是表现出了卓越的一面。

1989年,第11届AAAI学术会议首次提出KDD(基于数据库的知识发现),韩家炜投稿了一篇自己的学术论文并参加了此次研讨会。

“当时每个参会的研究者都感觉数据挖掘是条‘大鱼’,一个大的研究方向。”韩家炜后来回忆道。六年后,他参与组织了在加拿大蒙特利尔召开的第一届KDD国际学术会议,成为数据挖掘领域最早的核心人物之一。

1998年,韩家炜应邀回国参加一场由复旦大学举办的数据挖掘研讨会。

四川大学教授唐常杰认为,“如果说,在那以前,中国的数据挖掘研究还只是星星之火,那么,在那以后,就逐渐开始了燎原之势。” 

“一个国家的发展,必须和世界各国进行交流,学习对方先进的东西。在美国高校做科研的中国留学生也都比较聪明和勤奋,对于美国的科研其实是增加了很大的力量;同时在学成之后,也有很多中国留学生在北美和欧洲任教或做科研,不时回到国内交流或是讲学,这个交流本身就促进了新一代学生的培养。”韩家炜说。

3、依然行进于数据挖掘研究领域的最前沿

图片

据AMiner(清华大学计算机科学与技术系教授唐杰所研发的科技情报大数据挖掘与服务系统平台)平台数据显示,近年来,世界范围内数据挖掘领域高水平学者主要集中在以美国为首的北美洲,以英国、意大利为首的欧洲,和以中国为首的亚洲。中国也是数据挖掘领域高水平论文总被引频次最高的国家。

市场方面,据2019年胡润研究院在世界互联网大会上发布的《2019胡润全球独角兽榜》,18家上榜的大数据企业中有一半为中国企业,从应用规模、数据体量和处理能力上看,中国的互联网头部企业都已成为世界级企业。

“从今天来看,中国在数据挖掘方面,无论是理论还是应用层面都已经比较成熟,居于世界领先水平。”邱保志教授说。

据麦肯锡预计,到2025年,物联网11.1万亿美元的年产值中,将有60%来自于对数据的整合和分析。“数据挖掘技术可以应用到任何地方。”韩家炜说。

但无论从理论还是从应用层面来看,数据挖掘领域的科技创新之路都远远没有走到终点。

在应用方面,研究数据挖掘的企业主要分为两类,一类是专门研发数据挖掘系统的企业,另一类则是原本的互联网企业为利用数据而研发并在已成熟产品上搭载数据挖掘技术。因此,在国内,数据挖掘领域的竞争将始终伴随着新生企业分割原有互联网巨头企业“数据领土”现象。

与此同时,随着全社会数字化转型的深入,基于越来越多的新型基础设施建设和应用而出现的大数据应用,已经超越了传统的消费互联网,将其应用场景扩张到了传统产业(如江苏油田所研发的“EDIBC”系统为石油生产、勘探和石化研究提供“决策支持与业务支持”),产业互联网的发展方兴未艾,可以说,对数据挖掘的广度和深度将会面临前所未有的挑战和机遇。

在理论研究方面,数据挖掘与计算机前沿技术的进步紧密相关,其中,最热也是最前沿的研究方向,是与人工智能的融合。

“在这条路上,我们现在只是找到了几个口子可以往前走。现在这还不是一条大路,只是一条小路。要想变成一条康庄大道,需要大家共同努力。”韩家炜说。