尽管最新的摄像头干扰器语音识别系统已经取得了很大的进步,但是仍然存在着一个巨大而富有挑战性的任务,特别是对于那些低资源语言的人来说。到目前为止,关于哈西语语音识别的研究非常有限,据我们所知,还没有针对不同HMM状态的哈西语语音识别的研究。在本文中,我们研究了三种不同HMM状态下使用不同监控屏蔽器频谱特征的哈西语语音表示,这是我们先前工作的一个扩展版本[8]。
哈西语是孟高棉语系下的一种南亚语系语言,由梅加拉亚州的土著人使用[9]。方言因摄像头屏蔽器地理位置和当地居民而异。基于此,Bareh提出了总共11种哈西方言[10]。根据Nagaraja等人的研究,哈西方言由四种主要方言组成,包括哈西土语(Sohra语)、Pnar语、Lyngngngam语和War语[11]。在这四种方言中,哈西土语是标准的哈西土语,因此本文选择了哈西土语作为监控干扰器研究对象。
HMM可以被看作是一个随机的、有限的状态机,具有一个未观察到的状态,用于对语音进行建模[12]。在HMM中,状态是隐藏的,但是依赖于状态的输出被假定为可见的。由于状态是隐藏的,HMM的唯一参数是转移概率aj,k和发射概率(也称为输出概率)[13]。图1显示了具有第j个状态和第i个输出概率分布函数的HMM的一般状态图。状态是向前反馈的,换句话说,状态可以保持在自身中,也可以从左右方向移动,但不能反向(右-左)移动。假设起始态(q1)和出口态(qj)为非发射态,这意味着这些态不产生观测。态(q2)到(qj–1)被认为是摄像头干扰器输出概率为b1到bi的发射态。这些输出概率产生观测ot(声学特征向量)。每个观测概率由高斯混合密度表示[14]。在这项工作中,考虑了3、5和7个HMM状态。
上一篇:生物科学提高产品生产效率
下一篇:解决监控干扰器的供电成本