2025 07/06 14:01:11

段玉聪：主权AI下的大模型与高质量数据集

字体：小中大

图片2.png

2025全球数字经济大会（GDEC）经国务院批准，由北京市人民政府、国家互联网信息办公室、国家数据局、新华通讯社、联合国开发计划署共同主办。7月2日，2025全球数字经济大会第五届中国数据要素50人论坛在北京成功举行。

在2025全球数字经济大会（GDEC）第五届中国数据要素50人论坛上，国际先进技术与工程院院士、美国国家人工智能科学院通讯院士、世界人工意识协会理事长段玉聪教授围绕“主权AI下的大模型与高质量数据集”发表主题演讲，以下为演讲主要内容：

图片1.png

国际先进技术与工程院院士段玉聪

近年来，人工智能（AI）技术风起云涌，尤其以大模型和生成式AI为代表的创新应用迅速走进大众生活。从自动驾驶到智能问答，AI在医疗、教育、金融、政务等领域的深度渗透既带来了效率和创新，也暴露出数据安全、算法偏见、文化安全等新挑战。我们认为，在全球数字化浪潮中，维护语义主权、打造高质量数据集已成为国家战略的重要组成。主权AI既意味着基础设施、算力和算法的自主可控，更强调在AI系统中植入本国文化价值和战略意图，确保技术发展与国家利益高度契合。

所谓语义主权（Semantic Sovereignty），是对传统数字主权的延伸和深化。它强调国家对自身语言、文化、价值观及知识体系在全球数字环境中被准确、完整且公平表达的权利与能力，是维护国家意识形态和文化安全的重要举措。段玉聪教授等学者提出，“语义主权”视角下，监管者可以深入AI内部，从数据、信息、知识、智慧、意图等多语义层面对AI行为进行监督和校准，确保系统输出始终符合国家战略意图和伦理底线。语义主权要求在AI系统的全生命周期中实现语义透明：无论是数据标注、算法推理，还是系统决策，都要允许审查和纠偏。例如，通过白盒测评和多维度的偏见识别，可以揭示大模型在各语义层面的偏向源头，及时纠正有害倾向。

语义主权的提出，为国家参与全球数字治理提供了新的话语框架。与传统数字主权关注基础设施和数据控制不同，语义主权强调语义内容与价值取向的自主权，即国家有权决定本民族的文化、历史、价值观在AI系统中如何被表达和应用。这一理念与各国越来越重视“数字主权”背景下的文化安全目标相契合。正如欧盟提出数字主权要覆盖物理层、代码层和数据层一样，语义主权进一步扩展了“代码层”的含义，强调对AI输出“意图层”的控制。在全球范围内，数字主权格局加剧了中美欧之间的技术博弈。面对外部舆论和信息影响，只有强化自主创新能力和语义控制，我们才能在全球话语体系中保持文化话语权和话语主动权。

从国际竞争角度看，语义主权恰好切中了文化安全和价值话语权的关键。欧盟虽然推动文化多样性保护，但其主张更多体现在“数字文化产业”保护方面；语义主权则更进一步，强调对AI输出内容的控制。有学者指出，国际上对AI的监管大多还停留在数据隐私和算法透明层面，尚未形成针对语义层面的完整体系。因此，我们有机会引领这一领域的标准制定。例如，通过制定全球数据交换的语义协议、知识令牌（Knowledge Token）等标准，可以将中国方案融入国际规则体系，塑造对我有利的新技术规则环境。

英伟达CEO黄仁勋提出的主权AI主要指，每个国家需要发展自己的AI基础设施来“保护自己的文化和经济安全”。段玉聪教授进一步定义，主权AI是指由国家自主开发、训练和控制的综合性AI系统，具有高级学习、推理和自我认知能力，能够在特定文化背景下作出决策和互动，充分体现本国文化、社会和伦理价值观。也就是说，在主权AI框架下，AI不再是单纯的工具，而是一个嵌入了国家意志的自主智能体。因此，我们既要重视算力、芯片、算法等“硬科技”层面的自主可控，也要关注训练数据、知识图谱、语义模型等“软实力”层面的掌握与输出。这就将建设大模型和高质量数据集纳入主权AI整体战略：构建具有自主知识产权的数据资源和语义基础模型，是保障AI系统符合国家利益和文化价值的前提。

为构建国家级的主权AI语义体系，我们建议：首先，加大对核心技术和语义基础设施的投资，完善AI算力和芯片布局，落实DIKWP平台技术的研发和部署。鼓励产学研合作，设立“语义区块链”“AI白盒测试”专项研究计划，突破高效语义推理、跨语言知识融合等瓶颈。其次，系统建设高质量中文数据集，涵盖多领域、多模态的主权语料。政府可牵头建立集中式语料库，以法律手段促进政务数据和科研数据共享，同时严格隐私保护。应借鉴主权AI技术报告建议，将优质中文语料广泛用于大模型训练。再次，制定落地性的技术和管理标准：推动DIKWP语义区块链、知识令牌等标准化，要求产业链上下游共同遵守；制定白盒评测和语义审查的行业指南，将其纳入AI系统安全评估体系。最后，加强政策协同和监管，完善对AI算法的法律评估和安全审查机制，确保主权AI既符合国家法规，又有效服务于人民需要。

语义主权不仅关乎国家自身的发展路径，也为中国在全球数字治理中提供了新的话语权机遇。我们倡议：首先，积极在国际组织和多边论坛上推广语义主权理念，将其纳入全球AI治理讨论议程。可以与“一带一路”沿线国家开展技术合作，联合开展语义区块链与语义数据平台试点，展示中国模式的可行性和价值；同时参与全球标准制定，与他国协同设定跨境数据流通和算法评估的共同规则。其次，构建开放、透明的全球语义治理生态：鼓励学术界、产业界开展联合研究，推出开源的DIKWP工具和测评数据集，让合作伙伴共享中国在语义领域的研究成果。第三，加强对外话语体系建设：“数字主权”被多国提倡，但“语义主权”则是我们原创的概念。应结合中国传统文化和当代治理经验，系统总结并对外阐释这一理念，让世界理解中国对AI治理的独特思考。正如我国《新一代人工智能发展规划》所强调的，我们要“加快人工智能国际合作，建设开放型世界科技共同体”。语义主权倡议正是这一战略的具体实践：在尊重多样性的前提下推动共赢合作，使AI成为增进共识、造福人类的新动力。

在这一进程中，我们要坚持依法治网、依法治数的原则，加强国际法治合作，确保各国在语义治理中权责对等。我们愿与各方一道，探索建立多元平等的全球语义治理机制，让每种文化都能在数字时代发声，让技术进步真正惠及全人类。在全球数字治理的变革大潮中，中国的语义主权倡议必将成为构建人类命运共同体的有力支撑，为全世界展现大国的智慧与担当。

【责任编辑 -王雪】

扫描二维码分享到手机