摘要:
提出了一种基于双层码本的语音驱动视觉语音合成系统,该系统以矢量量化的思想为基础,分别根据语音特征与视觉语音特征的相似性两次对样本数据进行自动聚类,构造同时反映语音之间与视觉语音之间相似性的双层映射码本。数据预处理阶段,提出一种能反映视觉语音几何形状特征与牙齿可见度的联合特征模型,并采用遗传算法在语音特征LPCC及MFCC基础上提取视觉语音相关的语音特征模型。合成的视频中图像数据与原始视频中的图像数据比较结果表明,合成结果能在一定程度上能逼近原始数据,取得了很好的效果。
关键词:
通讯作者信息:
电子邮件地址: