区块链与数据安全全重实验室成果发布：深度合成语音检测平台

发布者：何璐发布时间：2024-04-15浏览次数：1247

导读

近年来，生成式人工智能技术迅猛发展，深度合成技术作为其重要组成部分，从文本到图像，从音频到视频，无不展现出强大的表现力与创造力。因其具有“低使用门槛、高使用效率、高生成质量”的特性，深度合成技术在众多领域实现了广泛应用。合成语音、视频换脸、虚拟数字人的出现，充分展示了深度合成技术的强大能力。这种技术还催生了以ChatGPT为代表的能够理解并输出多种模态内容的产品和服务，推动了人工智能技术的创新与发展。

然而，深度合成技术犹如一把双刃剑，在引领科技产业变革的同时，也带来了不容忽视的安全隐患。利用深度合成技术进行诈骗的案件屡见不鲜，且呈现出高发、频发、数额巨大的趋势。在社会和国家层面，这种技术还可能被用于制造政治和社会矛盾。例如2024年“假拜登”给选民打电话影响大选投票，2023年日本首相岸田文雄出格言论的伪造视频，以及2022年乌克兰总统泽连斯基劝降士兵的伪造视频，都充分证明滥用深度合成技术会对国家形象和国家安全造成严重危害，对深度合成技术的管控刻不容缓。

为应对深度伪造带来的技术威胁，2022年国家网信办、工信部和公安部联合发布《互联网信息服务深度合成管理规定》，推动了深度合成技术的依法、合理、有效使用；2023年国家网信办等七部门联合发布《生成式人工智能服务管理暂行办法》，为生成式人工智能向上向善发展提供了细致具体的实施标准。法规的落地需要深度合成检测技术的支撑。

浙江大学区块链与数据安全全国重点实验室大模型数据安全团队面向深度伪造检测领域平台化能力缺失的问题，积极响应国家号召，围绕深度伪造检测展开关键技术攻关，以提升相关法律法规场景化监管力。团队本次成果发布主要聚焦音频深度伪造检测领域，推出深度合成语音检测平台VOcert，以应对实战场景下语音伪造技术的威胁。

一、深度合成语音检测平台VOcert

VOcert是由浙江大学区块链与数据安全全国重点实验室大模型数据安全团队开发的全栈式深度合成语音检测平台。平台的开发旨在应对生成式人工智能的健康发展和规范应用需求，专注于音频深度合成数据的风险管控，可应用于电信AI诈骗反制、互联网音频内容真伪检测、司法取证音频真实性检测以及声誉侵害维权等场景。

1、平台介绍

VOcert的核心功能是语音数据的真伪判别，即检测信号是真实人声录制还是由人工智能模型合成生成。与已有的深度合成语音检测技术相较，VOcert聚焦检测泛化难、检测模型鲁棒性不足等问题，在未知数据鉴别率低、模型持续学习能力不足、低质量音频检测性能下降、不适用于中文语音等瓶颈方面取得了有效突破。

平台框架图

VOcert由四个部分构成，如图所示，分别是数据底座，语音数据处理模块，语音合成检测模块与检测结果输出模块。数据底座支撑平台能力，语音数据处理模块提取待检语音数据的特征，语音合成检测模块通过特征分析输出真伪判别分数，并且定位合成痕迹位置，检测结果输出模块展示检测结果与可视化报告。下图展示了VOcert检测流程，单条/批量检测音频通过网页上传或API调用输入VOcert，经过信号处理和特征提取后，通过多专家模型进行智能联合决策，即为每条音频选择合适的专家模型进行检测打分，再运用堆栈泛化（Stacked Generalization）技术给各专家模型智能分配权重，融合得到最终检测置信度。VOcert计算等错误率（EER）确定系统最佳工作阈值，将最终检测置信度与阈值比较，输出最终真伪判别结果。

VOcert检测流程与评分标准

2.VOcert特色优势

VOcert注重能力内核与平台前端的共同建设，在深耕数据及算法积累、核心检测技术构建与多功能检测服务三个方面具备独特优势。

平台底层架构

数据及算法广域化积累

构建深度合成检测模型的基础在于高质量数据和优秀算法的双重积累。VOcert广泛汇集代表性、多样化数据，支撑模型高效训练，使其具备对各种深度伪造技术的识别能力。同时，优秀的检测算法能够深入理解数据的内生特征和外生关联，从而准确地识别出潜在的伪造痕迹。由于实际的待检音频质量通常并不理想，会受到多种复杂环境影响，因此还需要对数据进行场景化增强，赋予系统鲁棒的检测性能。

（1）多元化数据及算法底座

VOcert平台注重语音深度合成数据与算法的广域化积累，从数据层面筑牢语音检测模型根基。针对检测模型可用训练数据算法种类稀少、语料成份单一的现状，VOcert平台针对性构建了算法多源、分布广泛的数据底座。在算法侧，平台自主构建了100+种异构语音合成算法与检测算法，具备实时热扩展能力，以支撑检测模型泛化性迭代提升。在数据侧，平台基于20+种主流公开数据集构建合成语音检测专项语料库，注重均衡语种、方言、性别等方面的分布差异，以引导模型专注精炼伪造痕迹。

（2）场景化数据增强

平台数据底座在拥有丰富的合成算法和数据集的同时，还针对性设计了场景化数据增强体系，重点围绕模型的鲁棒性和泛化性进行拟真化提升，以推进VOcert平台实战性能。数据增强主要依赖加噪、时频遮蔽等技术：加噪处理可以模拟真实环境中的背景噪声，如事件声、环境回声和设备混响等；时频遮蔽技术可以模拟音频信号在时域和频域存在部分信息丢失的情形，比如音频中存在的不定长静默情况，或在信号传输过程中部分频段损失的情况。

数据和算法底座

核心检测技术构建

现有检测技术存在两大技术瓶颈。首先，检测模型训练数据集绝大部分基于英文语种构造，中文数据集数量和涵盖合成算法种类均高度稀缺，无法支撑高质量中文检测模型的训练；其次，现有的单一模型只能捕捉到训练数据中的一部分模式和特征，建模能力有限，导致在复杂的数据集上表现不佳。同时，单一模型对数据中的噪声和异常值比较敏感，可能导致过拟合或者欠拟合，容易出现预测偏差。针对这两个制约检测性能的关键问题，VOcert研发了检测能力本土化迁移技术，并设计了适配音频检测场景的多专家模型智能联合决策策略。

（1）检测能力本土化迁移

平台首次对语音检测模型的跨语种问题进行深入研究，在前期部署测试了10种以上的开源检测模型，提出现有算法普遍存在跨语种检测能力不足的问题。针对深度伪造领域中文语音数据匮乏的现实挑战，团队提出借助英文伪造算法与数据进行伪造痕迹的迁移学习。在中英数据配比高度不平衡的情况下，构建基于跨领域自适应的检测模型训练框架，强化模型对中文数据集中缺失数据类型（相较于英文数据集）的检测能力，构建具备高泛化性的中英通用伪造检测模型。

跨领域自适应检测模型训练框架

2. 多专家模型智能联合决策

VOcert平台集成了多个专家模型，运用智能化的联合决策机制，实现对伪造音频的精确鉴别。不同专家模型擅长不同的检测方向，其中全视角检测模型（All-in）覆盖平台全量真伪音频训练数据，着重拟合真伪数据的整体分布规律; 精简视角检测模型(Part-in) 则由经典真伪音频数据训练而成，重点面向主流语音合成技术的鉴别；高质量音频检测模型（High-quality）则聚焦于精炼高质量的合成音频，重点攻关高度逼真合成音频的检测。在此基础之上，平台进一步采用堆栈泛化（Stacked Generalization）、混合专家模型（MoE）等先进的集成学习技术，以最佳的方式动态融合各专家模型的检测结果，从而实现智能联合决策。

专家模型智能联合决策

多功能检测服务

VOcert致力于为用户提供灵活、多样化的服务，满足用户在不同场景下的需求。检测平台支持单条语音与大批量语音检测需求，合成检测模块会提供详实的分析和检测报告，报告中不仅对音频给出判定结果和总置信度，还详细说明了三个专家模型分别对音频的置信度打分，以及组成该段音频的各细粒度部分的真伪置信度。透明的决策过程和可视化的报告呈现，使得用户能够清晰了解到平台的决策逻辑，从而更加信任平台的选择和决策。

VOcert平台音频批量检测效果演示

VOcert检测能力

VOcert具有业内领先的真伪检出能力。在公开数据集上与知名开源检测模型相比，具有更优检测性能。相比于公开数据集，商用语音合成数据通常质量更高，也将为检测模型带来更大的挑战，因此团队使用VOcert与三个知名开源模型，对百度与讯飞语音合成引擎生成音频进行检测，检测结果如下图所示，VOcert在两个商用模型合成数据上展示出领先的检测性能。

为了进一步展示VOcert对于未知合成算法的检测泛化能力，团队对近期较流行的明星语音合成产品展开测试，包括字节跳动旗下的火山引擎、知名语音合成引擎Voice.ai以及微软Azure的最新AI语音模型。其中微软Azure的合成语音引擎于4月初刚完成升级，被评价为目前听感最真实的AI语音，在韵律节奏和说话人习惯等细节上都已真假难辨。团队使用未见过三类商用合成音频的VOcert早期版本进行合成语音检测测试，评估结果如下图所示，VOcert面对Voice.ai和火山引擎取得了较高的检测准确率，且性能明显优于开源检测算法，面对微软Azure的AI语音检测效果略有下降，但依然好于对比模型。

二、未来规划

随着生成式人工智能技术逐渐应用到社会的各个领域，其安全性正受到广泛关注。在这个背景下，浙江大学区块链与数据安全全国重点实验室大模型数据安全团队聚焦深度合成内容安全，构建千万级伪造内容数据底座，研发及复现深度合成算法百余种，持续推进涵盖音视图在内的多模态深度合成检测平台和检测算法性能评估平台场景化落地。VOcert作为聚焦音频的深度伪造检测平台，将在5月上线试用。VOcert基于广域化数据及算法底座、集成领域前沿检测技术、开发用户友好型平台服务，能够有效弥补现有音频模态深度合成检测方案的不足，提升AIGC合规管控能力，为AI安全领域的研究和应用提供助力。

随着深度合成音频技术的不断发展，VOcert也将持续致力于提升其检测能力和呈现形式，以更好地满足用户需求并应对未来的挑战。首先，团队将持续扩充数据底座，迭代更新检测技术，实现伪造特征的更精准定位和识别，提高面对微软Azure等最新语音合成产品的检测准确率。同时，团队将致力于提升对抗场景下的检测鲁棒性，应对各种形式的音频伪造。其次，团队将优化VOcert检测结果的呈现形式，注重提升检测结果解释性，使用户能够更直观地理解检测结果与检测逻辑，提升平台使用体验。最后，VOcert将拓展适配场景，满足不同用户的需求。

以需求为导向，VOcert将不断创新发展，为用户提供更安全、更可靠的音频检测服务。我们诚挚欢迎各界技术人员、安全研究者、开发者以及企业合作伙伴试用，并给我们提出宝贵的意见，共同推进人工智能安全技术的发展。同时，我们也热忱期待能与高校、研究机构以及产业界建立深入合作，促进学术研究与产业实践的紧密结合，为网络空间安全贡献力量，欢迎通过VOcert@outlook.com与我们联系。

接下来，VOcert将依托浙江大学区块链与数据安全全国重点实验室，积极与社会各界沟通与合作。我们欢迎各界相关业务人员通过邮箱联系我们，获取测试账号，在VOcert网站直接体验语音检测等平台功能；如果您有进一步的自动化部署需求，可联系获取API接口，实现VOcert远程调用；同时，我们欢迎企业、机构的特定业务需求方与我们联系，我们可提供针对特定业务场景的定制化合成语音检测服务。此外，我们热切期盼各界技术人员与安全研究者对VOcert提出宝贵意见，诚挚邀请高校、研究机构以及产业界与我们在科研与产学研转化等方面深入合作，为生成式人工智能的安全发展贡献力量，欢迎通过VOcert@outlook.com与我们联系。

——————————————————————————————

浙江大学区块链与数据安全全国重点实验室于2022年11月正式获得国家科技部批准成立。实验室由陈纯院士领衔担任主任，聚焦区块链与数据安全国际科技前沿，以实现高水平科技自立自强和打造具有世界一流的战略科技力量为己任，围绕产学研一体融合，开展系统性创新性科技攻关。实验室的研究方向主要包括区块链技术与平台、区块链监管监测、智能合约与分布式软件、数据要素安全与隐私计算、AI数据安全与认知对抗、AI原生数据处理系统、网络数据治理、智能网联车数据安全、可信数据存储与计算技术等。

浙江大学区块链与数据安全全国重点实验室大模型数据安全团队由常务副主任、计算机学院院长任奎教授牵头，在科技部科技创新2030-“新一代人工智能”重大项目、国家重点研发计划项目、国家自然科学基金委区域创新发展联合基金重点项目、浙江省领军型创新创业团队项目、浙江省重点研发项目、浙江省领雁计划项目、浙江省自然科学基金重大项目等多个国家级/省部级项目的支持下，面向大模型数据，研究数据安全与数据隐私基础理论，构建大模型数据安全评测平台和安全组件，为建设大模型数据安全生态提供理论支撑、合规检验及安全加固服务，保障大模型的训练、部署及使用的全流程数据安全。

学院新闻

区块链与数据安全全重实验室成果发布：深度合成语音检测平台