英国科学期刊《自然》二十四日发表最新研究指出,美国加州大学旧金山分校(UCSF)研究团队在受试者的大脑植入电极,运用实验性的脑波纪录器,结合人工智慧(AI)、机器学习与语音合成技术,将他们的大脑讯号解码,转换为合成语音,未来有望令咽喉癌、脑部受伤、帕金森氏症等疾病变成哑子的人士"表达心声"。
美解码大脑讯号 转换合成语音
研究针对五名男女进行试验,他们都能正常讲话,成为受试者是因患有严重癫痫,脑部已被植入电极来勘测癫痫发作源头,准备日后手术移除。这项研究分为三步骤,首先,研究人员要求他们大声阅读数十个句子,以电极纪录他们的大脑运动皮质发出的神经脉冲讯号,最后纪录到大脑皮质用来控制嘴唇、下颚、喉咙、舌头等约百条肌肉动作的相关脑部讯号。
接下来,研究人员设计出神经系统网路,将这些讯号转译为肌肉活动,接着再转换为合成语音,这个过程花了一年。
最后,由电脑把讯号合成句子,再由志愿者识别这些字词。研究发现,这些合成语音的精准度约达七十%,约是每分钟一百五十字,为正常说话速度。过去医界曾以追踪无法言语者的眼球、脸部肌肉活动的装置,让他们费力逐个拼写生字,但此种方式速度很慢,通常每分钟少于十个字。
这项研究形同辨别受试者的声道活动,为他们创造出"虚拟声道"。研究主笔、UCSF教授张复伦(Edward Chang)指出,他们使用的方法是基于"虚拟人体声道"的概念,大脑会把思想转变成声道运动,"我们就是要解码这个运动"。张复伦来自台湾移民家庭,出生在内华达州。
这项研究是首例,展现可以依据个人脑部活动,产生完整的口语句子。华尔街日报引述专家看法指出,这项技术要落实到临床使用,可能还需十年或更久。研究共同作者夏提尔(Josh Chartier)强调,研究人员正致力使合成语言更清晰、较不含煳,未来若改进所使用的演算法应可取得更好结果,下一步则打算对无法说话的人士测试这项科技。研究团队也表示,这项科技依赖控制嘴唇、舌头、喉头及下颚的大脑部位正确运作,因此部份中风患者可能无法受益。