段玉聪演讲(梅映天 摄)
近年来,人工智能(AI)技术快速发展,以大模型和生成式AI为代表的创新应用已广泛融入日常生活。从自动驾驶到智能问答,AI技术在医疗、教育、金融和政务领域的深入应用显著提升了工作效率和创新能力,但同时也带来了数据安全、算法偏见和文化安全等新的挑战。在全球数字化浪潮中,维护语义主权、建设高质量数据集已成为国家战略的重要内容。主权AI不仅强调基础设施、算力和算法的自主可控,更注重将本国的文化价值观和战略意图融入AI系统之中,确保技术发展与国家利益的高度契合。本文基于主权AI理论框架,着重探讨在主权人工智能视域下构建高质量数据集与大模型的具体路径,并提出相应的政策建议。
语义主权:理论基础与内涵
所谓语义主权是传统数字主权概念的深化和延伸,强调国家在全球数字环境中对自身语言、文化、价值观与知识体系进行准确、完整且公平表达的权利与能力,是维护国家文化与意识形态安全的重要举措。在语义主权视角下,监管者可深入AI系统内部,从数据、信息、知识、智慧、意图等多个语义层面对AI行为进行监督与校准,确保AI系统输出始终符合国家战略意图与伦理底线。语义主权要求AI系统在全生命周期内保持语义透明,无论数据标注、算法推理还是系统决策均需接受审查与纠偏。例如,通过白盒测评与多维偏见识别,可有效揭示并及时纠正大模型在各语义层面的潜在偏差。
语义主权的提出为国家参与全球数字治理提供了全新话语框架。与传统数字主权强调基础设施与数据控制不同,语义主权关注语义内容与价值取向的自主表达权,即国家拥有决定本民族文化、历史、价值观在AI系统中表达方式的权利。这一理念与国际上对文化安全日益关注的背景高度契合。例如,欧盟提出数字主权需覆盖物理层、代码层与数据层,而语义主权进一步强化了对AI系统“意图层”输出的控制。在全球数字主权竞争背景下,加强自主创新能力和语义控制成为中美欧等大国保持文化话语权与主动权的重要战略选择。
主权AI概念正是在此背景下被提出。如英伟达CEO黄仁勋所言,各国需要发展自身AI基础设施以保护文化与经济安全。进一步而言,主权AI指的是由国家自主开发、训练、测评并控制的综合性AI系统,具备高级学习、推理与自我认知能力,能在特定文化背景下实现互动、参与决策,并能全面体现国家文化、社会情况与伦理价值观。因此,主权AI不仅是技术工具,更是嵌入国家意志的自主智能体。这意味着既要在算力、芯片、算法等“硬科技”方面实现自主可控,也需加强对训练数据、知识图谱与语义模型等“软实力”的掌控与输出。构建拥有自主知识产权的大模型与高质量数据集已成为确保AI系统与国家利益、文化价值高度一致的重要战略内容。
DIKWP认知模型与AI语义评测体系
为实现上述目标,可以借助DIKWP认知模型,即在经典的DIKW(金字塔模型:数据——信息——知识——智慧)基础上增加意图(Purpose)层,以系统解释AI的语义认知过程。
在DIKWP模型中,数据层(Data)为输入层,包含原始信息;信息层(Information)是经过筛选与标注后的有意义内容;知识层(Knowledge)以规则、模型或知识图谱的形式表达对信息的深层次理解;智慧层(Wisdom)代表从知识中提炼出的洞察与决策建议;意图层(Purpose)则体现系统背后的目标、价值与战略导向。这个模型以五维网状结构进行组织,从原始数据到意图目标均形成结构化记录,为数字内容的确权奠定基础。
DIKWP模型不仅技术上明确了AI行为的多层次表达,更为AI系统评测与监管提供了有效框架。基于此,可构建DIKWP白盒测评体系,强调AI系统的可解释性、透明度与伦理一致性。不同于传统“黑盒”评测仅关注输入输出准确性,DIKWP白盒评测要求逐层打开AI模型内部,详细检查各层级表现:数据层监测训练数据是否存在偏差,知识层确认推理逻辑的严谨性,意图层评估输出结果是否符合预设价值观。有媒体报道指出,这种评测方法能够全面解析AI大模型的决策过程,显著提高AI输出的可靠性。
DIKWP白盒分析能够及时发现和矫正模型中的有害倾向。例如在数据层发现偏见样本、信息层识别信息缺失或知识层发现推理漏洞时,均可制定具体矫正措施。由此,DIKWP框架实现了从结果评估向过程监控的跨越。特别是在意图层,需确保AI系统的目标与国家价值观高度一致,避免出现与主流意识形态相悖的输出。因此,以语义为核心的多维度监测与白盒评测机制,已成为确保AI技术可信、公正与可控的重要保障。
语义区块链与DIKWPaaS:技术实现路径
为实现语义主权实践,需要建立相应的技术体系,其中DIKWP语义区块链和DIKWPaaS平台是核心基础设施与服务框架。DIKWP语义区块链将传统区块链与DIKWP模型结合,将区块链内容分为数据、信息、知识、智慧和意图五个结构化层次,使区块链演变为多层次语义账本,实现链上内容的深层次理解与交互。
每个区块都记录了从数据层到意图层的完整语义内容,形成可追溯的记录路径。这种架构具备可追溯性、资产化交易与机器理解性,可实现跨组织自动推理与可信决策。例如,上游组织提供生产数据和质检信息,下游组织读取链上内容后据此决策,链上记录明确目标意图,由此形成可信任的智能账本体系。
实际部署中需兼顾系统性能与治理需求。一方面,可采用分层和边缘计算架构,在边缘节点本地完成DIKWP处理,将提炼知识上传主链,降低主链负担;另一方面,对于复杂推理任务,可采取链下推理与链上验证模式,确保结果可追溯。此外,通过多链分片技术,分别满足数据与意图层的不同需求,各子链实现语义互通。同时,共识机制中应加入语义治理环节,进行逻辑一致性和偏见检查。
与语义区块链配套的是DIKWPaaS平台。该平台将DIKWP模型分解为服务化模块,从数据采集、语义标注到知识提取、推理决策,每个环节均开放服务接口,帮助机构快速部署语义驱动的大模型应用。平台全程记录语义审计信息,确保过程透明可控。
DIKWPaaS平台实现从数据到意图的全流程可视化,清晰展示数据到信息的标注转化、知识推理过程及最终决策目标的实现路径,每一环节配备质量控制指标,有助于监管团队精确监测语义流程,保障数据利用的有效性与安全性。
语义防火墙与白盒测评:偏见跟踪典型实践
在主权AI框架下,技术与法治融合的应用案例至关重要。以语义防火墙和白盒测评为例,这些技术能强化AI系统的可控性和合规性。在工业领域,对于无人物流或设备预测维护等关键控制系统,引入白盒测评机制可有效提高算法行为的透明性和安全性。具体做法包括在测试环境中模拟多种工况,通过多场景的白盒和对抗测试,确保模型行为透明、可控。此外,建立语义审查流程,模型选型和上线前需经过专门团队使用DIKWP白盒评估工具对性能及偏见进行严格的检测,通过严格评测的模型方能投入生产使用。这种做法类似质量检验,将技术纳入法治监管体系。例如,关键医疗AI项目应提交DIKWP白盒评测报告,验证模型在不同临床场景下的安全性;智能司法辅助系统则应接受偏见审查,确保输出结果不含敏感偏见。
DIKWP白盒测评流程为:测试人员对模型内部各层进行详细语义分析,逐层检查数据偏差、信息缺失、推理逻辑和意图输出等方面的表现。测评报告详细记录了各层指标和风险点,并提供了针对性的改进建议。通过这种全链路监测,可及时发现并纠正模型的合规和伦理问题。目前,国际上如美国国家科学基金会已开始推动AI白盒测评,强调模型内部的可解释性与可信性。我国也正在加快制定工业AI白盒测评标准,明确相关检测规范。可以预见,随着语义主权理念的推广,白盒AI监管将成为主流趋势,增强AI的可信性。
同时,语义区块链也可广泛应用于数据资产交易和合规监控领域。例如,在智能制造的供应链协同中,可建立语义区块链联盟链,记录上游供应商的生产数据(数据层)及质检结论(知识层),供下游合作方依据链上信息协同决策。区块链的不可篡改性保障了数据真实性和责任明确性,语义结构则促进了跨组织的数据互认。这体现了语义主权在工业数据治理中的作用:保障各参与方的语义自主权,并利用技术手段维护了行业的公平透明。
全球视角:主权AI的国际对比与借鉴
主权AI与语义主权的提出与全球数字主权趋势高度契合。当前,中美欧等主要经济体在AI治理上采取了各自不同的策略。欧盟积极推动AI监管,出台《人工智能法案》对高风险AI应用实施强制合规评估,强调透明度和公平性,数字市场监管也体现出对软件自主权的诉求,注重数据与算法控制。同时,西方企业也推动本土化AI基础设施建设,减少对外部技术的依赖,以保护自身文化和经济安全。
美国的AI治理传统上倾向于创新驱动和企业自律,但近年来开始关注算法透明度与风险防范。美国政府发布《人工智能权利法案蓝图》,强调保护公民免受算法歧视,并提高算法决策过程的透明度。
中国则通过《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法规,实施国家主导的监管模式,强调数据主权与信息安全。此外,中国率先实施了生成式AI服务管理办法,明确算法推荐规范,体现出“开放合作”与“自主可控”的双重治理诉求。
从国际竞争视角来看,语义主权的提出聚焦于文化安全与价值话语权的关键领域。虽然欧盟倡导文化多样性,但主要集中在数字文化产业保护,而语义主权进一步强调对AI输出内容的控制。国际上对AI治理仍多停留于数据隐私和算法透明度的层面,尚未形成完整的语义监管体系。我国可通过制定全球数据交换语义协议与知识令牌等标准,积极引领国际规则制定,增强我国在全球AI治理中的话语权和竞争优势。
技术与法治:政策与标准框架
在国内,《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国国家网络空间安全战略》等法规已构建网络空间主权保护体系,明确数据跨境流动与算法监管要求。近期出台的《互联网信息服务算法推荐管理规定》、《生成式人工智能服务管理暂行办法》等也强调了算法可解释性和内容合规性。这体现出国家在AI监管上的法治思路,但仍侧重事后监管。
未来,应进一步完善技术与合规标准体系。一方面,在国家层面推动统一的知识图谱格式和区块链语义协议,实现系统间语义互操作;另一方面,积极推动将DIKWP白盒评测标准纳入国家标准体系,增强AI技术一致性与可验证性。
政策执行层面,可设立跨部门协作机制,将语义内容审查纳入整体AI治理框架。建议关键AI项目上线前进行语义审查与白盒评测,鼓励行业协会制定语义评估指南;推动算法设计阶段嵌入可解释性和测试性,避免算法“黑箱”风险;强化公民隐私与数据安全的加密和匿名化技术。通过技术手段与法规标准协同,确保AI发展安全合规。
为构建国家级主权AI语义体系,建议加大核心技术和语义基础设施投入,推动DIKWP平台技术研发与部署,鼓励产学研合作开展专项研究;建设多领域高质量中文数据集,政府主导建立集中语料库,推动数据合规共享;制定落地性技术标准与管理规范,推动DIKWP语义区块链标准化,建立白盒评测与语义审查指南,加强AI算法法律评估与安全审查机制,确保主权AI符合法律法规并服务社会。
2025全球数字经济大会第五届中国数据要素50人论坛会场(郭红伟 摄)
结语
语义主权不仅关系到国家自身的发展路径,也为中国在全球数字治理中赢得新的话语权提供机遇。首先,应积极在国际组织和多边论坛上推广语义主权理念,将其纳入全球AI治理议程。与“一带一路”倡议共建国家开展技术合作,共同实施语义区块链和语义数据平台试点,展示中国模式的价值与可行性;积极参与全球标准制定,与各国共同确定跨境数据流通与算法评估的统一规则。其次,构建开放透明的全球语义治理生态,鼓励学术界与产业界的联合研究,推广开源的DIKWP工具和测评数据集,分享中国在语义领域的研究成果。
此外,应加强国际话语体系建设。虽然“数字主权”已获多国认可,但“语义主权”作为中国原创理念,更需要结合中国传统文化与治理经验加以系统阐释,让国际社会更好理解中国对AI治理的独特视角。我国《新一代人工智能发展规划》提出的“加快人工智能国际合作,建设开放型世界科技共同体”,正体现了这一战略方向。语义主权倡议旨在推动共赢合作,使人工智能成为增进国际共识与人类福祉的重要力量。
在此过程中,必须坚持依法治网、依法治数原则,加强国际法治合作,确保各国在语义治理中权责对等。中国愿与各方携手探索建立多元平等的全球语义治理机制,确保不同文化在数字时代拥有平等话语权,让技术进步真正惠及全人类。语义主权倡议必将成为构建人类命运共同体的有力支撑,彰显大国的智慧与担当。(国际先进技术与工程院院士、塞尔维亚国家科学院外籍院士、美国国家人工智能科学院通讯院士、世界人工意识协会理事长 段玉聪)
【本文刊载于《人民法治》杂志2025年7月下(总第206期) 受权发布栏目】
