欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
沈华伟:乘时之风 寻源探路

来源:  发布时间:2018-07-09

  ——记中国科学院计算技术研究所研究员沈华伟


  本刊记者  刘 贺
  
  

 


  这是一个信息井喷的时代。当浏览网站、打开链接、转发微博等一连串的行为发生后,作为一个个体,你制造的数据已被悄无声息地保存。在全球一体化的今天,无数个像你像我的个体被网络用光纤互联,来源于世界各角落数以亿计的信息正以无法想象的速度堆积、汇聚。毫无疑问,记录了人类社会“数字足迹”的在线社交媒体大数据正以奔腾之态席卷而来。
  然而,在线社交媒体数据中,虚虚实实,真真假假,哪些是切实有用的信息?哪些是恶意传播的谣言?如果单凭个人的阅历经验作出判断,很难确保“事实”的准确性。为此,中国科学院计算技术研究所研究员沈华伟针对网络谣言的成因给出了一番解释。“通常人们感觉到的真相和真实的真相之间是有偏差的。依据自身的主观意念,每个人会选择传播自己相信的‘真相’,而拒绝接受事实本质的真相。”这种现象的因由,有人归结为社会学,有人归根为计算科学,也有人认为是心理学症结不过身为社会媒体计算研究人的沈华伟并不纠结于此,长期以来他看重的不是实时新闻、娱乐八卦等网络碎片化内容的本身,而更加关注传播内容背后的渠道和走向,通过挖掘网络结构、研究群体行为,进而用数据的精度去分析化解大数据带来的“真相各异”的普遍难题。
  

寻迹传播


  在网络信息高速传播的今天,尤其是网民的参与热情空前高涨,一条热点消息仅仅需几小时便可流向城市、乡村的大街小巷中任何一个信号覆盖区。这种司空见惯的散播速度早已不值得大惊小怪。这也恰恰印证了沈华伟所说的话,“未来的数据是网络化的。比起某一碎片消息,个体用户转发、扩散之间的互联关系将会比文本本身更具价值,也更有可能成为未来的研究发展趋势。”
  任职于中国科学院网络数据科学与技术重点实验室,沈华伟对大规模网络化数据的建模和分析处理多有研究,旨在将社会媒体计算作为网络化数据分析处理的重要应用出口。作为实验室在社会媒体计算方向的学科带头人,他依据领域特征提炼社会科学关键问题,围绕开放环境下的时空数据建模与预测展开研究。“空间代表网络化的结构约束,时间则是指网络上承载的信息流。社会网络结构的真实形态、活跃网络群体的形成、信息传播的预测以及个体在网络空间内如何度量,这些是我们日常研究的问题,也是社会媒体有效利用和科学管理需要明确的地方。”
  人们常说科技助推时代进步,但沈华伟却表示,之于很多社会媒体发展产业,技术似乎并不是主要的依赖源头。“微博的火热,微信、支付宝等移动支付的爆红并不是依靠技术取得的胜利,而更倾向于一种商业模式的创新,是基于简单技术进行的用户群开发及散播。”面向大众用户,不管是政府机构还是国企、私企,一个好的门面、好的形象是需要塑造和维护的。如何规避抹黑自身形象的谣言产生?如何预测和把握网络舆论传播走势?如何识别谣言,从传播上彻底打假?这是长期以来任何机构和企业都极为重视的问题,也是沈华伟科研深挖的关键所在。“所有消息的传播都需要考虑3个方面:消息本身的真假,作为传播人的‘你’认为的真假,以及前两者之间的有效结合点。第三点也就是使传播扩大的根本缘由。”
  近年来谣言扩散率持续升高,传统粗犷的网络管理方式已经与日新月异的网络传播速度、质量不相匹配。提高社会媒体的科学管理水平和有效利用能力,有秩序、有根据地发挥网络空间潜力是大势所趋,也是国家和企业健康发展长期以来的特殊关注点。此外,现有的移动端、PC端和网页信息流、软件信息流等多尺度网络社区重叠现象严重,然而针对其的发现方法却相对贫乏单一,实在难以满足需求并达到有效发现和度量的水平。“在微博、社交网站、博客、网络论坛等在线社会网络中,个体间存在多种类型且相互影响的社会关系,这种异质关系网络中存在着大量不同尺度的社区结构,而社区结构与用户群体行为密切相关。”
  为此,沈华伟率领团队立足多尺度网络划分特征,提出了基于尺度变换的多尺度重叠社区发现方法,并使用极大完全子图代替节点作为社区的基本单元,解决了多尺度重叠社区的有效度量与快速发现问题。得益于前期研究积累,他们开发出一款多尺度重叠社区发现工具EAGLE。该工具被全球数百个研究同行使用,并被复杂网络分析开源平台Cytoscape作为网络社区发现的3个常用方法之一,集成在其网络结构挖掘工具包ClusterViz中。解决完发现方法的难题,沈华伟再接再厉,针对网络结构规则类型未知给识别带来的技术挑战,通过分析网络信息扩散过程的局部均衡态,揭示了网络信息扩散局部均衡态与结构规则之间的稳定关联关系,进而提出了基于局部均衡态的网络结构规则识别方法。截至目前,该方法被评价为最准确的社区结构识别方法之一。
  他说:“真相往往藏在传播背后。我们无法根据内容辨别谣言真假,但可以通过传播方式的数据差异来识别谣言。”
  

量化影响


  明星代言伴随着粉丝效应,企业广告究竟要如何投放才能反馈最大的价值效益?网络诈骗层出不穷,运作方式存在怎样的规律?在深入挖掘网络结构的同时,沈华伟不忘将网络影响力的度量纳入研究之列,运用清晰的数据流辨别分析,通过监测、追溯网络背后的账号群展开简单和复杂的识别。
  “影响力最大化和个体影响力度量是两个问题。影响力最大化目的是寻找满足约束条件且影响力最大的一组用户,需要兼顾求解算法的精度和速度;个体影响力则主要关注团队合作中如何度量个体影响力的大小,关键在于找出影响力在个体间的分配机制。”
  长期以来,针对影响力最大化贪心算法面临的精度、速度无法兼顾的矛盾,沈华伟提出了影响力最大化静态贪心算法StaticGreedy,通过严格保证目标函数的单调性和子模性,使计算速度在同等精度下比传统贪心算法提高了两个数量级。不仅如此,他还进一步提出基于自洽排序的影响力最大化启发式算法IMRank,使求解速度再次提升近100倍。而面向个体影响力缺少判据而难以度量的难题,他集思广益,发现一种基于“被感知贡献”的个体影响力度量方法,并以86%的高度准确率成功预测诺贝尔奖得主。相关成果文章发表于《美国科学院院刊》(PNAS,SCI IF=9.674),成为同期发表的6篇亮点工作之一,被ScienceDaily等多家学术媒体报道,引起了广泛的讨论热潮。
  目前,紧贴时空数据的建模和预测,沈华伟正在积极拓展着与其相关的研究领域,由关注智能金融和智能交通,到将空间从社会网络拓展到交易网络、交通网络,以及把信息流拓展到风险流和交通流。跟随行业发展,立足应用产能,沈华伟的思考越来越深、越 来越远。
  

两次转身


  谈及思考的魅力不得不提的是两次选择、两位恩师。用沈华伟自己的话说,“是他们点燃了我的科研之火,让我坚定了走科研道路的决心”。
  本科就读于西安邮电学院计算机系,因喜欢而坚持,沈华伟是同届学生中少有几个放弃大好就业前景,一头扎进科学研究的人。在中国科学院计算技术研究所的几年,他写代码、做项目,累积了基础经验但也因为科研理想与现实研究的微妙差距萌生了退意。“当时有些想法不能实现,做的底层工作也和科研的联系不大,就打算毕业后入职企业。”这个想法刚一冒头,沈华伟便遇到了出国访学归来的程学旗研究员。“那时候,程老师刚从英国回来,想找一个学生和他开展一个全新的方向。”边回忆边表达着对恩师的感谢,沈华伟自此转身投入网络数据科学和社会媒体计算研究的怀抱,与程学旗研究员一起在一片相对空白的领域勤耕不懈。
  熬过最初的几年,他不无感慨,“因为导师和我都是从头开始,没有经验可以借鉴,在最开始的几年既没有显著成果,发表文章也比较困难。直到2009年,我才发表了第一篇论文,不过那也是我个人最满意的文章之一。”
  2012年,沈华伟获评副研究员,与之同来的还有他陷入胶着的思考。社会媒体进步似乎不依赖于技术发展,那么社会媒体计算的应用出口应该在哪里呢?为了找到答案,沈华伟踏上了异国之旅,在美国东北大学见到了为他答疑解惑的第二恩师——“网络科学之父”艾伯特·拉斯洛·巴拉巴西(Albert-László Barabási)。沈华伟说,他的科研之火被再次点燃,坚定了科研的信念,明白了应该做什么、又该如何做。
  带着一腔热血,回国之后的沈华伟展开了影响力度量和网络信息传播预测研究,与国家机构和企业展开项目合作,提供技术支持。与此同时,将研究范畴拓展到社交、金融、交通网络之中,以他为首的研究团队在影响力度量、网络信息传播预测、金融市场风险监测等方面开展了系列研究。在网络信息传播预测方面,针对基于特征工程的预测方法面临的预测精度低、泛化能力差的问题,他们提出了基于自增强泊松过程的预测方法,预测精度显著超过了基于特征工程的预测方法。这个方法被公认为信息传播预测领域采用的基准方法之一,为后续许多网络信息传播预测方法提供了基础。在级联预测方面,他们提出了基于用户表示学习的人际影响力建模方法,解决信息传播过程中“同一用户扮演着影响者和被影响者双重角色”的现象。“通过将个体影响力和易感度分开建模,我们可以有效克服传统人际影响力建模方法存在的‘过表达’和‘过拟合’问题,使得其预测精度显著超越经典点对型人际影响力建模的方法。”
  

一次转型


  2000年前,人们靠目测夜观天象预测天气,后随着数学、物理、天文学等发展,在湿度、风速、温度等传感器数据多重作用下,天气预测的准确率有了极大的提升。这是自然科学的魔力之一,是运用技术手段预测未来不断取得突破的结果。
  “社会科学不是客观规律,而是一个统计规律。”随着社会媒体预测分析的深入进行,沈华伟越发了解研究的局限与困顿。在他看来,对于社会科学体系中的预测而言,预测与预测结果是相互作用的。人的感知行为会直接造成预测结果的偏差或叠加。“比如说,我今天预测明早某大街会出现交通拥堵,得知这一消息的人群就会选择避开该干道出行,这样极有可能最终的结果变成了不拥堵。或者以人们最为关心的房价为例,一旦权威结构发布预测房价上涨通知,人们出于提前规避的心理很有可能会扎堆购买,进而造成预计涨幅的提高。”
  对于社会科学,既然未来是难以预测的,那不如创造未来。在一个开放的环境中,预测只能展现一个静态分析,而为了紧抓时代局势,沈华伟放弃预测结果,而转型决策。说起来这更像是他前期各项研究的综合创新,以一个循序渐进、引导方式的系列化过程影响尚未发生的结果。
  “首先,我们基于先前的、现有的数据进行测量分析,再根据分析预测未来可能的走向,进而依据当前的状态采取行动进行改造,让结果朝着最理想化的方向发展。”沈华伟解释说。该决策方法是一个高度连续的过程,需要不停地收集反馈数据以便及时更新行为,沈华伟团队目前也正在社会媒体计算、智能金融、智能交通等行业试行应用。
  倡导科研与教学并重,沈华伟已指导8名博士生、3名硕士生顺利毕业,同时为阿里巴巴、腾讯、百度等企业输出一批优秀的就业人才。他坦言和学生的关系亦师亦友,在提供宽松自由的科研环境和学术氛围的同时,会特别注意学生独立科研能力的培养。从自身的心路历程汲取经验,传道授业,他想给予他热爱的事业最饱满的激情。
  
  
专家简介:
  
  沈华伟,中国科学院计算技术研究所研究员、博士生导师,中国中文信息学会社会媒体处理专委会副主任。其长期致力于社会媒体计算方向的探索,在网络数据挖掘、影响力度量和信息传播预测等方面深挖10余年,取得了一系列高影响力成果。共发表论文80余篇,累计SCI引用600余次,Google Scholar引用2000余次,成果应用在多个国家重要部门的业务系统中,提升了社交网络和社会媒体的有效利用能力和科学管理水平。其研究荣获中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、中国电子学会电子信息科学技术奖一等奖、北京市科学技术奖二等奖等;个人获得中国科学院院长特别奖,还被评为首批中国科学院青年创新促进会优秀会员。

分享到:
杂志
本期封面

2024年4月

上一期 下一期