2025全球数字经济大会(GDEC)经国务院批准,由北京市人民政府、国家互联网信息办公室、国家数据局、新华通讯社、联合国开发计划署共同主办。7月2日,2025全球数字经济大会第五届中国数据要素50人论坛在北京成功举行。
重庆邮电大学副校长 张清华教授
在2025全球数字经济大会(GDEC)第五届中国数据要素50人论坛上,重庆邮电大学副校长张清华教授围绕“数据思维与数据科学”发表主题演讲,以下为演讲主要内容:
当前大数据赋能各行各业高速发展,2024年12月31日,为贯彻落实党的 二十届三中全会关于建设和运营国家数据基础设施,促进数据共享的部署要求, 国家发展改革委、国家数据局、工业和信息化部发布《国家数据基础设施建设指引》,指出:数字中国、数字经济、数字社会建设提出了数据资源化、要素化、价值化要求,国家数据基础设施围绕打造可信流通、高效调度、高速互联、安全可靠的体系化能力,持续赋能各行业数据融合与智能化发展,总体实现“汇通海量数据、惠及千行百业、慧见数字未来”的美好愿景。
《政务数据共享条例》将在今年8月1日开始实施,旨在加快数据共享,通过突破数据孤岛、跨平台整合难题,在隐私保护与数据开放的动态博弈中找到平衡点,加快数据跨界融 合,大数据已进入“智能化决策+场景化落地”新阶段,技术迭代与行业渗透将加速社会数字化转型。
无论是数据清洗、数据加工、数据流通、数据资产、数据确权,还是数据要素、数据挖掘、数据利用,都需要一门支撑大数据、人工智能的学科——数据科学,我们需要从数据科学的视角,分析数据从产生、到流通、再到被分析利用的全数据生命周期面临的关键科学问题和关键技术。从方法论的角度来讲, 数据科学是大数据时代的到来而促进的科学研究范式的转变。
人类的科学研究经历了经验科学、理论科学和计算科学三种范式,图灵奖得主Jim Gray认为现在进入了第四范式“数据科学”范式,即数据密集型科学研究。在基于前三种范式的科学研究中,人们解决问题的方法基本可以总结为:通过反复地观察自然或者做模拟实验得到一定量的实验数据,再分析这些数据得到结论,称之为定理或知识,遇到问题时通过利用知识来解决问题。前三种范式统称为知识范式,即思维模式都是“从数据中获取知识,运用知识解决问题”。第四范式的基本思想是数据驱动科学发现,即把数据看作现实世界在数字世界的映射,通过利用和分析数据可以揭示现实世界所蕴含的科学规律,通过数据挖掘出来的知识,可能是人类无法理解但是机器能理解并且客观存在的“知识”,直接解决问题(可能人脑无法理解),这种范式将极大拓展人类的认知疆域。
面对纷繁复杂的数字世界,我们需要数据科学进行治理。简要回顾一下,我们如何进入到这个虚拟的数字世界?从电子计算机发明的那一天起,信息数字化的帷幕就已经拉开,人类逐渐从现实世界走进数字世界,在两个世界维度自由穿梭、协同发展。互联网的发明让机器的互联互通成为可能;移动通信与互联网的结合使得数据传输从固定终端转移到移动终端,让信息共享变得更加及时高效;物联网通过传感器,使人与人之间、人与物之间、物与物之间构建起万物互联的数据世界,让现实世界精确映射到数字世界成为可能。数字世界是现实世界的映射(希望成为镜像),其基本要素是数据。要探索数字世界、治理数字世界,就必须发展数据科学。从数据要素的角度,需要思考三个问题:
第一,数据聚合效应。数据科学研究中的数据往往来自不同的领域,不同领域之间的数据通常具有较大的差异性,将这些来源不同、类型不同的数据在一定准则下自动聚集、自动融合、自主分析,可以挖掘更多有价值的信息,为质变提供量变基础。
数据聚合有两种效应:一种是数据叠加,即数据简单地叠加变成更大的数据,从而挖掘出小数据中挖掘不到的知识,类似于现实世界中的物理变化;另一种是数据融合,即数据按照一定的规律重新结合成新的数据,数据的量不一定增加,但是所蕴含的信息已经不同于之前,类似于现实世界中的化学变化。
第二,数据成像原理。大数据之所以有用,是因为数据累积到了一定数量,到大数据临界点时可以发生质变,通过数据挖掘其背后的规律,进而还原“真相”,即还原数字世界中事物本身存在而人类可能无法事先知晓的客观规律。大数据用户画像便是数据成像的一个例子。先收集各种类型数据,包括网络行为数据、用户内容偏好数据、交易数据等,当数据足够大,足够有代表性,覆盖够全面时,便可以对用户的行为进行建模,抽象出用户的基本属性、行为特征、兴趣爱好等标签,使得用户的形象越来越完整和立体,从而不断地逼近现实中人的特征。
第三,数据态势感知。大数据通过聚合分析,发掘其背后的规律,还原真相后,主要用于预测分析,即采用态势感知、关联分析等方法对数据进行计算, 挖掘数据之间的内在关联,不仅能还原真相,更要预测未来。可以尝试通过关联分析进行行为分析与预测,或者通过多粒度随机抽样进行层次化统计预测。如果数据态势感知问题得到解决,并应用到地震预警、流行病预估、慢性病预判上,将在推进社会进步方面取得重大突破。
然而,在万物互联的数字时代,数据要素的关键在于流通,而且是高效的流通,数据流通依靠网络基础设施。《国家数据基础设施建设指引》中指出,打造低成本、高效率、可信赖的流通环境,便于人、物、平台、智能体等快速接入,在符合统一目录标识、统一身份登记、统一接口要求的基础上,实现数据在不同组织、行业之间安全有序流动,精准匹配数据供需关系。而高效弹性的传输网络可为数字金融、智慧医疗、交通物流、大模型训练和推理等核心场景 数据传输流动提供高速稳定服务。
我们需要尽快应建成支持全国一体化数据市场、保障数据安全自由流动的流通利用设施,形成协同联动、规模流通、高效利用、规范可信的数据流通利用公共服务体系。首先,在算力底座方面,应构建多元异构、高效调度、智能随需、绿色安全的高质量算力供给体系;其次,在网络支撑方面,应构建泛在灵活接入、高速可靠传输、动态弹性调度的数据高速传输网络;另外,网络空间安全是数字世界中面临新的挑战,网络空间越发达,安全隐患也越多。我们需要依托数学科学和网络空间安全科学等构建整体、动态、内生的安全防护体系,确保在数智化进程中每个人、每个家庭和每个组织的安全可靠。同时,在应用方面,数据科学需要思考如何建立支持传统行业从数字化到数治化,再到数智化的转型升级,在不同领域催生新质生产力,赋能各行各业蓬勃发展。
