您现在的位置:
高峪网>科技>同盾科技语音合成论文入选国际旗舰学术大会ASRU2019

同盾科技语音合成论文入选国际旗舰学术大会ASRU2019

2019-10-22 10:14:30   【浏览】250

近日,由同登科技和西北工业大学联合发表的论文《通过自我注意和可学习高斯偏置改善普通话端到端语音合成》被纳入2019年ieee自动语音识别与理解研讨会(以下简称asru)。

Asru是ieee语音和语言处理技术委员会的旗舰技术活动,该委员会是世界上最大的非营利性专业技术协会。它每两年举行一次。来自世界各地学术界和工业界的顶级专家和研究人员将对当前演讲领域的研究热点进行深入讨论。Asru 2019将于12月14日至12月18日在新加坡圣淘沙举行。童墩也是此次会议的发起人之一,旨在促进生产、教学和研究的合作。

图1纸张主页

指出与传统语音合成方法相比,端到端语音合成技术具有更简单的预测过程和更自然的声音。此外,与直接使用字符作为输入的英语相比,汉语需要更复杂的前端特征,如语法词边界、韵律词/韵律短语边界等。,由于更复杂的语言现象。作者创造性地提出了一种新的结构sag-tactron,它在编码端引入了自我注意结构而不是cbhg结构,并增加了可学习的高斯偏差。主客观实验表明,该方法只需在后端使用拼音信息,无需复杂的特征工程,就能达到复杂输入的综合效果。

目前,该方法已经在大量的在线语音合成系统中得到应用。通过对接各种智能客服场景,客户可以体验到更加自然流畅的合成语音。

图2 sag-tactron系统框架

同登智能语音实验室的相关技术人员表示,使用自我注意结构作为编码器的优势在于它很好地考虑了上下文信息。编码器读入输入数据,并使用逐层自我注意结构来获得考虑到每个音素输入的上下文信息的新表示。然而,与此同时,自我注意结构对全局信息的关注也会分散注意力,引入可学习高斯偏差来强化局部信息可以有效解决这一问题。

“在句子中,与当前音素更密切相关的音素经常出现在周围,但是普通的注意结构不能做到这一点。我们的想法是,我们应该鼓励自我注意结构给予相邻音素更多的权重。为此,我们将根据相邻位置分布的高斯先验概率添加到原始权重中,以改变自注意结构的权重分布,从而更有效地建模句子的局部结构。”

自我注意结构和可学习高斯偏置的组合被用作端到端语音合成的编码器。实验表明,在尽可能减少输入信息的情况下,以韵律信息作为输入信息可以达到相当的效果。这大大简化了韵律模型的训练过程,而韵律模型在合成之前需要大量的数据和人工设计。

图3高斯偏置的例子(d=3)

依托金融科技领域行业经验的积累,同登智能语音技术实现了针对金融业务不同场景的智能互动应用。

据悉,同登科技于2018年成立了人工智能研究所,开发智能语音等领域。目前,它已经推出自主开发的全过程对话机器人技术,如语音合成、语音识别、声纹识别和语义理解。智能语音实验室的相关研究人员都来自一线语音企业和微软、nuance、腾讯、西北理工大学等研究机构。同登与西北工业大学成立联合实验室,邀请谢磊教授担任同登科技语音实验室首席科学家,形成生产、教学、研究的闭环。这份文件也是双方良好合作的阶段性成果。童盾还积极参与行业标准制定和技术研讨会,包括亚投行中文语音合成服务系统评估标准的行业标准。

(责任编辑:李春辉)


上一篇:英国首相自比“绿巨人”表脱欧决心 欧盟官员:幼稚
下一篇:关于调整娄底市首届文化创意设计大赛有关奖项设置的公告