万维读者网 > 信息时代 > 正文  

霉霉说中文视频火了,背后这个AI工具强大到可怕

www.creaders.net | 2023-11-15 23:04:26  爱范儿 | 0条评论 | 查看/发表评论

作为国际巨星,“霉霉”在中国有不少粉丝,粉丝都知道“霉霉”不会讲篇幅很长的中文,想听她说中文那像盼过年似的。

让“霉霉”随时讲中文?AI帮“霉粉”们实现了。

下面这个视频里的“霉霉”用自己的音色和语气,自然流畅地用中文接受采访,就连口型都是中文口型。

有“霉粉”表示看完这个视频一时分不清真假。

翻译和配音演员要失业了实际上,这段视频原本是“霉霉”全程使用英文参与一个访谈节目。她之所以可以讲出自然流畅的中文,是因为一款名为 HeyGen 的一键翻译视频 AI。

这个功能可以一键把视频的语音内容翻译为其它语言,同时保持口型完美符合相应语言的发音。

目前,HeyGen 网站允许用户上传不超过 5 分钟、大小不超过 500MB 的视频文件生成翻译视频,支持 mp4、quicktime 和 webm 格式。

AI 先获取了“霉霉”说的英文内容翻译成中文,再模拟“霉霉”的音色,接着替换掉“霉霉”的口型,最后合成一个以假乱真的视频,实现了让“霉霉”说中文的效果。

AI 霉霉的视频创作者是 Gorden Sun,据他说,生成 AI 霉霉的视频仅用了 40 秒。

以前,我们想听一个外国人说中文,需要内容校对,专人翻译和选人配音三个步骤,最后得到的是有点儿违和的翻译腔语音,体验并不好。

那么不同母语的人说任意其它语言,可以吗?

当然可以。

只要你想,你可以用 HeyGen 的一键翻译视频功能让苹果 CEO 库克讲印地语,音色、口型和抑扬顿挫难辨真假,几乎让人觉得库克本人就会讲印地语。

霉霉说中文视频火了,背后这个AI工具强大到可怕

真是 AI 一出马,苹果公司的印度身份藏不住了。

这项技术的商业前景想像力充足,可用于译制国外大片和影音资料、转播新闻、直播发布会和直播带货等等。

AI 语音大爆发今年 1 月份,微软发布了一款人工智能工具 VALL-E,具有上下文学习的能力,只需一个人 3 秒的特定音频作基础,即可模仿这个人的声音开始长篇大论,复制出这个人的音色、环境混响、情绪和语气。

到了今年秋天,AI 语音更进一步,iPhone上的“个人声音”功能支持用户把 iPhone 放在约 1.5 米远的地方录制约一个小时的音频,接下来用户就可以使用“另一个自己的声音”和他人交流。

可以预见,未来苹果生态中许多功能会和“个人声音”功能产生联动,例如 Vision Pro 的虚拟形象等。




国内企业也在发力 AI 语音功能,百度地图推出了 AI 向导,由文心一言提供大模型服务,集行程助理、本地向导、聚会达人、办事专家、城市导游、专属陪练和专属向导为一体,已经大大超越了传统语音导航的体验。

网易推出了 Hi Echo 英语口语教练小程序,口语水平极高,知识面极广,发音无限拟真,交流几乎无场地和时间限制,像人类一样有智慧,还不需要高额学费,让曾从事 K12 教育行业的我为英语教师捏了一把汗。

AI 声音有了“灵魂”谈到 AI,绕不过去的就是 ChatGPT。

前不久,ChatGPT 上线了语音功能,和以前一些 AI 机械声不同,它的声音拟真到了令人毛骨悚然的地步。


它说话时,会加上一些组织语言的“emm”再说话,出现短暂停顿和轻微的呼吸声,更会结合语境进行语气处理,让语言有自然流露的情感和态度立场。

它甚至有口音,有口齿音,有卷平舌和鼻音边音瑕疵,有重音,会调节不同字词句的语速。

你还可以告诉它,“假设你是一个渣男,用渣男的语气和方式哄正在生气的女朋友开心”。

前一秒还是“正经人”的 AI 立即换成渣男气泡音,叫女朋友宝贝,哄女朋友喝水,还给女朋友画饼带她出去吃好吃的。

只要我们给 AI 一个人设,它接下来的应答都会匹配合适的声音,真实感几乎以假乱真。

它不是“花瓶”如果 AI 止步于此,倒也不会令人多么惊奇,如果它有了智慧呢?

对于不少人来说,在职场重大场合如何敬酒讲话是个大难题,不过这完全难不倒 AI。

有人测试过,让 AI 在有 5 个领导的场合下敬酒说话,AI 是这样回答的:

“王总,您的远见卓识引领着我们不断前进,李副总,您的勤奋和聪明才智是我们的宝贵财富,张经理,您的创新和决策能力推动着团队的进步,刘主任,您的细心和责任感保障着我们的品质,陈处长,您的领导和支持是我们取得成功的关键,再座的各位领导,感谢你们的辛勤付出和无私奉献,为了我们共同的未来干杯。”

这番回答通过细微地用词不同暗示了各位领导的地位,也点明了各位领导的团队贡献,除非有领导故意穿小鞋,否则挑不出什么大毛病。

即使拟人声音、角色扮演和智慧应答融为一体,可是还是有人会说和真人还有差距,往往我们忽略了一点:

在评判 AI 和真人差距时,我们总会以能想象的人类最高水准作为及格线去评判 AI,可具体到现实世界的一个个普通人,我们真能在仅仅几秒的思考后,每次都情绪稳定、字正腔圆、语音声调恰当、表意近乎完美地去说出一番话吗?

扪心自问,毫无准备的情况下至少我做不到,至于正在看这篇文章的你,内心应该有个答案。

客观来说,AI 在某些方面已超过绝大多数普通人类,只是我们不承认而已。

在享受 AI 语音为我们带来便利的同时,不少人也开始担心一些问题。

真假难辨几年前为防范诈骗,很多人在收到文字转账或借款消息时,往往会打一个电话确定对方是不是本人,现在这个方法渐渐失灵了。

随着算力和算法的进步,现在仅需秒级音频即可无限拟真,复制一个人的声音这件事变得越来越简单,衍生了诸多问题。

今年 10月,TikTok 上“AI 奥巴马”用着奥巴马的人类思维方式、脸和声音,驳斥着有关他的阴谋论。

这个 AI 奥巴马的声音是使用一款名为 ElevenLabs 公司开发的工具生成的,该公司去年年底推出了免费的人工智能文本转语音工具,能够在几秒钟内生成逼真的音频。

颇具黑色幽默的是,ElevenLabs 公司还有一款 AI 检测工具,能够识别 AI 内容,似乎和 PC 时代的杀毒软件有异曲同工之妙。

《纽约时报》进行了一番测试,ElevenLabs 的 AI 检测工具可以成功识别 TikTok 帐户中的 AI 音频,但如果 AI 音频中添加了音乐或者音频文件有一定程度失真时,检测就失败了。


由此可见检测工具道高一尺,AI 技高一丈。

在日益复杂的互联网生态中,类似这样由 AI 生成的视频内容越来越多,拟真度也越来越高。

AI 应答、AI 人脸和 AI 图像犹如女娲一样捏出了“新人类”,现在出现的极度成熟的 AI 声音则给“新人类”注入灵魂。

一方面,我们享受着 AI 孙燕姿、AI 霉霉、AI 向导、AI 英语教师等带来的便利。另一方面,如何防范 AI 使用者扭曲内容本意或造假内容变得越来越困难。

利弊几何,不如请“霉粉”们来说一说,你们是想要一个说着英文的真人“霉霉”,还是想要一个说着中文的“AI 霉霉”?

   0


24小时新闻排行榜 更多>>
1 40岁男相亲竟嫌女方丑 网友看到两人照片后
2 “刚刚,美国最后的阵地全线溃败”.....
3 传老军头要集体逼宫 中共军报发文“弹压”
4 这个大国可能要变天
5 中国女篮是怎么被撵下专机的?

48小时新闻排行榜 更多>>
1 信号越来越危险 天真的要塌了
2 改变世界版图!习普重磅交易曝光
3 撒贝宁宠了7年的加拿大老婆 真面目被揭穿
4 朱令案现转机 中共最高检罕见受理
5 情报显示 朝鲜正准备在中国等地发动恐怖袭
6 北京有得追了!昨天,一次历史性的飞行发生
7 4条高铁 票价最大幅度上涨 不少网友大
8 中俄首次!习普重磅交易开始显露锋芒
9 华人当场傻眼 出借Costco会员卡 惨被警察
10 40岁男相亲竟嫌女方丑 网友看到两人照片后
热门专题
1
以哈战争
6
中共两会
11
秦刚失踪
2
中美冷战
7
台湾大选
12
火箭军悬案
3
乌克兰战争
8
李克强猝逝
13
台海风云
4
万维专栏
9
中国爆雷
14
战狼外交
5
美国大选
10
李尚福出事
15
普里戈津
一周博客排行 更多>>
1 曾华
2 灭掉胡锦涛团派 邓江习一脉相 胡亥
3 冥冥善恶终有报——回顾世纪审 流岛
4 吕洪来:中共二十届三中全会的 老陆
5 三峡风光 闲士9264
6 “都是我的好学生!” Winston Sm
7 1944年,飞虎队员拍摄的彩色昆 弓长贝占郎
8 误入美帝歧途的海华有救了/人 体育老师
9 Woo!990万! Winston Sm
10 妖妖旧贴汇总第10-1页 屙文哲
一周博文回复排行榜 更多>>
1 二战后,但凡涉及大国的战争, 随意生活
2 误入美帝歧途的海华有救了/人 体育老师
3 妙趣横生看台湾圆山大饭店 花蜜蜂
4 抗俄援乌:美国史上最划算一场 马黑
5 马斯克的无人驾驶系统即将修成 雷歌747
6 灭掉胡锦涛团派 邓江习一脉相 胡亥
7 川普比他的支持者们精明得多! 右撇子
8 俄乌战争何时了,军援值多少? 随意生活
9 有一种自由叫车厘子自由 体育老师
10 中共这次该倒大霉了! 山蛟龙
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. CyberMedia Network/Creaders.NET. All Rights Reserved.