三只羊“录音门”实为AI伪造,背后技术公司扑朔迷离 [复制链接]

30
 
21世纪经济报道记者肖潇 王俊 实习生韩佳序 北京报道
直播带货公司“三只羊”的风波又起。一段疑似集团创始人卢文庆醉酒后的音频流出,音频提到客服投诉、竞争对手和三位女主播关系,一时引发了大量讨论。
9月26日,安徽合肥市公安局高新分局确认,相关网传音频为AI伪造,在犯罪嫌疑人(男,25岁)的电脑、手机和制作AI音频的网站中发现了伪造相关音视频的证据,并经部、省专业机构检验鉴定。目前犯罪嫌疑人被依法采取刑事强制措施。
27日凌晨,深圳言域科技有限公司发文称,三只羊事件使用的是“Reecho睿声”大模型,由卢文庆30秒的直播片段克隆生成,现在在加强安全管控措施。
  一石再激千层浪。逼真的语气、脏话、安徽口音让许多人不可置信音频为AI生成,而这家似乎“名不经传”的公司则扑朔迷离——去年12月成立,注册资本100万元,面向C端的产品能够瞬时克隆声线,声音市场中已经有刘亦菲、杨幂等角色可以加进“购物车”……
AI声音克隆发展到哪一步了,是不是普通人就能随意完成“以假乱真”?AI内容的标识办法即将出台,这次深度伪造事件又意味着哪些法律挑战?
天眼查数据显示,深圳言域科技有限公司在去年12月刚刚成立,注册资本100万元。产品官网显示,商业伙伴已经有Keep、央视网等。
21记者实测了旗下To C产品“Reecho睿声”,克隆声音的流程非常简单:首先上传一段音频文件,作为训练素材;随后AI自动学习这段音频,生成一个克隆角色;最后就可以输入文本,用克隆角色的声音念出任何内容。
简单来说,这是一套不用十分钟可以完成个性化定制的文生音模型。如果是“瞬时克隆”,用户只需要上传5~8秒的声音样本;如果是精度更高的“专业克隆”,需要1分钟~60分钟的训练素材。
专业克隆的成本门槛不高,198元就可以定制一个角色,千元出头能定制6个角色。
   但这套技术和产品模式可能要打上一个问号。
AI技术博主数字生命卡兹克在文章中分析,目前的声音克隆技术主要有两种:一种叫TTS(Text-to-speech),即文生音。只需要几十秒的素材训练AI模型,再让大模型念出指定文本。优点是成本低、时间快,而缺点是情绪、停顿、语气都不够逼真。
另一种为SVC,也可以理解为AI变声。区别是并非把文本简单转为音频,而是需要真人先录制一段音频,再用AI替换声线。去年爆红的AI孙燕姿唱歌,使用的便是SVC克隆技术。
一位看到新闻后去试用了睿声产品的AI业内人士告诉21记者,“他们的大模型质量一般,(生成的音频)10秒以内的还能听,10秒以上就不行了。”
他分析,要达到伪造卢文庆音频的逼真效果,AI无法做到一键生成,但如果用户有心“一段一段生成去硬凑,也是可以做到的。”
长期用该产品配音的用户踯躅说,生成音频的重音、语气并不自然,“原始音频是什么语气,后面(生成的)台词就是什么语气,我都是生成之后用修音软件重新处理”。而睿声的主要吸引力是可以完全模仿音色。
更大的问题或在于此——在这款向所有人免费开放的产品里,用户可以“模仿”任何人的音频文件,并且能公开发布。
睿声产品首页专门有一个“声音市场”板块,21记者在9月27日下午进入市场时,已经看到了杨幂、刘亦菲、丁真等人的声音。尽管生成的音频听起来不够自然,但使用非常方便,只要像加入购物车一样,把克隆声音添加到角色库里即可。
    “其实在国内,基本没有可以随心所欲克隆声音的产品开放(给用户)的。”前述业内人士有些惊讶于这款产品的“野蛮”。
业内更常提起的模范生做法是剪映和豆包。今年年初,剪映和豆包AI分别上线了音色克隆功能,卖点都是几秒内创建自己的克隆声音,但在使用过程中,用户需要点击话筒,实时录制一段自己的声音。
前述业内人士表示,“这样就限定了条件,你只能克隆你自己的声音,没办法随心所欲克隆别人。”而睿声允许用户上传任何已经录制好的音频文件训练AI,无疑埋下了隐患。
目前国内的深声科技、小米、华为、百度、字节跳动等公司,都有布局人声克隆技术,但少有已经成形的产品。像深声科技的声音定制服务,产品面向的也是企业端,而非所有普通用户。
垦丁律师事务所联合创始人欧阳昆泼分析称,声音克隆可能涉及民事侵权,声音也属于一种人格权益,具有人身专属性。未经授权的情况下使用他人声音可以构成民事侵权。今年4月,北京互联网法院一审就开庭宣判了全国首例AI生成声音人格权侵权案,认定在具备可识别性的前提下,自然人声音权益的保护范围可及于AI生成声音。
问题不仅仅在于声音侵权,而是更广范围内应用的不可控性。
“随着AI技术发展,生成合成技术不仅在逼真程度上日臻成熟,技术工具的可及性及易用性极大提高。当人人均可低成本地制作、传播深度伪造的内容时,现实与虚拟的界限不再显而易见,互联网信息传播的基本逻辑遭到挑战。”欧阳昆泼指出。
Data Bridge市场研究分析,在2021年到2028年间,声音克隆的市场规模将达到约4446.08亿美元,并以接近26%的复合年增长率增长。如何将这些深度合成技术关进笼子已经成为全球范围内的课题。
欧阳昆泼向21记者解释称,关于平台的责任认定,目前仍主要以红旗原则和避风港原则为参考。一方面,为了促进技术发展和表达自由,对于平台课加的义务仍应是克制的。
另一方面,也随着平台对社会公众的影响力越来越大,加之AI、算法等的发展,平台对其上内容的监管正变得越来越重要。
中国施行的《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》中均对利用AI技术实施违法犯罪行为进行了规制,旨在要求深度合成服务提供者应当落实信息安全主体责任。
具体来看,平台具有事前预防的义务,《深度合成管理规定》设立了安全评估、算法备案、内容审核等事前预防措施;此外,平台也有事后应对义务——如果深度伪造的谣言没有在生成之前被拦截,则需由服务者设置的用户申诉和公众投诉、举报入口,并通过已经建立的辟谣机制采取及时措施进行辟谣。
深圳言域科技有限公司声称,在收到合肥警方调查取证后,公司启动了内部审核机制。记者在产品的使用文档中看到,如果要用专业克隆功能,现在需要进行支付宝人脸实名认证,但仍然没有约束实名制用户克隆声音的范围。
使用文档的底部,有提示用户——“请勿使用我们的服务克隆或生成任何侵犯版权的内容”“我们生成的所有内容均带有详细日志,自动/人工复审,以及可溯源的隐形音频水印,若发现您违反了相关规则,我们保留终止您的服务并上报公安机关等机构的权利。” 但在使用界面,记者没有看到有关提醒。
值得一提的是,21记者也没有在互联网信息服务算法系统上,找到深圳言域科技有限公司的备案信息。
欧阳昆泼表示,睿声公司若没有履行备案义务,对内容审核、安全评估等义务也没有做到位的情况下,是有可能被监管机关追究相关法律责任的。
欧阳昆泼还补充道,对于深度合成技术的标识义务,已有相关法规要求在使用合成内容时进行标识,各个社交平台也已采取了相关措施,会在AI生成的内容旁标注类似于“本内容为AI生成”的内容。然而,在实际操作中,对AI生成内容标识仍存在一定挑战。例如,合成内容经二次传播后,标识就可能被省略或忽视,导致接收方对内容来源产生误解。这会是接下来各个平台需要处理的课题。
30
举报

本版积分规则

创意玩法 更多玩法>
玩家测评 加入测评>
统计
本周明星用户
  • admin
    发帖达人
    admin

    每天发N帖,记录在社区成长的点滴

  • 嘉嘉嘉
    火爆写手
    嘉嘉嘉

    敏锐洞察者,产品达人,激情小马达,新晋大神。

  • 彭明
    人文骚客
    彭明

    博古通今,人肉百科全书,文人气息浓郁的本宝宝。

发表主题 回复

加入贴单

贴单,为家庭互联网而生

Copyright 2015-2024 贴单网 陕ICP备2023003579号 All Rights Reserved