2025全球数字经济大会(GDEC)经国务院批准,由北京市人民政府、国家互联网信息办公室、国家数据局、新华通讯社、联合国开发计划署共同主办。7月2日,2025全球数字经济大会第五届中国数据要素50人论坛在北京成功举行。
在2025全球数字经济大会(GDEC)第五届中国数据要素50人论坛上,国际先进技术与工程院院士、美国国家人工智能科学院通讯院士、世界人工意识协会理事长段玉聪教授围绕“主权AI下的大模型与高质量数据集”发表主题演讲,以下为演讲主要内容:
国际先进技术与工程院院士 段玉聪
近年来,人工智能(AI)技术风起云涌,尤其以大模型和生成式AI为代表的创新应用迅速走进大众生活。从自动驾驶到智能问答,AI在医疗、教育、金融、政务等领域的深度渗透既带来了效率和创新,也暴露出数据安全、算法偏见、文化安全等新挑战。我们认为,在全球数字化浪潮中,维护语义主权、打造高质量数据集已成为国家战略的重要组成。主权AI既意味着基础设施、算力和算法的自主可控,更强调在AI系统中植入本国文化价值和战略意图,确保技术发展与国家利益高度契合。
所谓语义主权(Semantic Sovereignty),是对传统数字主权的延伸和深化。它强调国家对自身语言、文化、价值观及知识体系在全球数字环境中被准确、完整且公平表达的权利与能力,是维护国家意识形态和文化安全的重要举措。段玉聪教授等学者提出,“语义主权”视角下,监管者可以深入AI内部,从数据、信息、知识、智慧、意图等多语义层面对AI行为进行监督和校准,确保系统输出始终符合国家战略意图和伦理底线。语义主权要求在AI系统的全生命周期中实现语义透明:无论是数据标注、算法推理,还是系统决策,都要允许审查和纠偏。例如,通过白盒测评和多维度的偏见识别,可以揭示大模型在各语义层面的偏向源头,及时纠正有害倾向。
语义主权的提出,为国家参与全球数字治理提供了新的话语框架。与传统数字主权关注基础设施和数据控制不同,语义主权强调语义内容与价值取向的自主权,即国家有权决定本民族的文化、历史、价值观在AI系统中如何被表达和应用。这一理念与各国越来越重视“数字主权”背景下的文化安全目标相契合。正如欧盟提出数字主权要覆盖物理层、代码层和数据层一样,语义主权进一步扩展了“代码层”的含义,强调对AI输出“意图层”的控制。在全球范围内,数字主权格局加剧了中美欧之间的技术博弈。面对外部舆论和信息影响,只有强化自主创新能力和语义控制,我们才能在全球话语体系中保持文化话语权和话语主动权。
从国际竞争角度看,语义主权恰好切中了文化安全和价值话语权的关键。欧盟虽然推动文化多样性保护,但其主张更多体现在“数字文化产业”保护方面;语义主权则更进一步,强调对AI输出内容的控制。有学者指出,国际上对AI的监管大多还停留在数据隐私和算法透明层面,尚未形成针对语义层面的完整体系。因此,我们有机会引领这一领域的标准制定。例如,通过制定全球数据交换的语义协议、知识令牌(Knowledge Token)等标准,可以将中国方案融入国际规则体系,塑造对我有利的新技术规则环境。
英伟达CEO黄仁勋提出的主权AI主要指,每个国家需要发展自己的AI基础设施来“保护自己的文化和经济安全”。段玉聪教授进一步定义,主权AI是指由国家自主开发、训练和控制的综合性AI系统,具有高级学习、推理和自我认知能力,能够在特定文化背景下作出决策和互动,充分体现本国文化、社会和伦理价值观。也就是说,在主权AI框架下,AI不再是单纯的工具,而是一个嵌入了国家意志的自主智能体。因此,我们既要重视算力、芯片、算法等“硬科技”层面的自主可控,也要关注训练数据、知识图谱、语义模型等“软实力”层面的掌握与输出。这就将建设大模型和高质量数据集纳入主权AI整体战略:构建具有自主知识产权的数据资源和语义基础模型,是保障AI系统符合国家利益和文化价值的前提。
为构建国家级的主权AI语义体系,我们建议:首先,加大对核心技术和语义基础设施的投资,完善AI算力和芯片布局,落实DIKWP平台技术的研发和部署。鼓励产学研合作,设立“语义区块链”“AI白盒测试”专项研究计划,突破高效语义推理、跨语言知识融合等瓶颈。其次,系统建设高质量中文数据集,涵盖多领域、多模态的主权语料。政府可牵头建立集中式语料库,以法律手段促进政务数据和科研数据共享,同时严格隐私保护。应借鉴主权AI技术报告建议,将优质中文语料广泛用于大模型训练。再次,制定落地性的技术和管理标准:推动DIKWP语义区块链、知识令牌等标准化,要求产业链上下游共同遵守;制定白盒评测和语义审查的行业指南,将其纳入AI系统安全评估体系。最后,加强政策协同和监管,完善对AI算法的法律评估和安全审查机制,确保主权AI既符合国家法规,又有效服务于人民需要。
语义主权不仅关乎国家自身的发展路径,也为中国在全球数字治理中提供了新的话语权机遇。我们倡议:首先,积极在国际组织和多边论坛上推广语义主权理念,将其纳入全球AI治理讨论议程。可以与“一带一路”沿线国家开展技术合作,联合开展语义区块链与语义数据平台试点,展示中国模式的可行性和价值;同时参与全球标准制定,与他国协同设定跨境数据流通和算法评估的共同规则。其次,构建开放、透明的全球语义治理生态:鼓励学术界、产业界开展联合研究,推出开源的DIKWP工具和测评数据集,让合作伙伴共享中国在语义领域的研究成果。第三,加强对外话语体系建设:“数字主权”被多国提倡,但“语义主权”则是我们原创的概念。应结合中国传统文化和当代治理经验,系统总结并对外阐释这一理念,让世界理解中国对AI治理的独特思考。正如我国《新一代人工智能发展规划》所强调的,我们要“加快人工智能国际合作,建设开放型世界科技共同体”。语义主权倡议正是这一战略的具体实践:在尊重多样性的前提下推动共赢合作,使AI成为增进共识、造福人类的新动力。
在这一进程中,我们要坚持依法治网、依法治数的原则,加强国际法治合作,确保各国在语义治理中权责对等。我们愿与各方一道,探索建立多元平等的全球语义治理机制,让每种文化都能在数字时代发声,让技术进步真正惠及全人类。在全球数字治理的变革大潮中,中国的语义主权倡议必将成为构建人类命运共同体的有力支撑,为全世界展现大国的智慧与担当。
