随着人工智能的发展,语音识别与特征预测已成为智能控制、教育、说话人识别、情感分析等领域的重要研究方向之一,具有广泛的应用前景。汉语诗歌阅读具有丰富的连续发音特征,如语气、情感、节奏、抒情和艺术表达等,预测汉语诗歌朗读的发音特征对发展高水平的机器智能具有重要意义。由于诗歌朗读发音特征的复杂性和高度非线性,准确的发音特征预测面临挑战。对于目前的许多方法而言,Mel频率倒谱系数(MFCC)是目前用来表示诗词语音特征的一种重要方法。但它们忽略了MFCC中的空间和时间特征。此外,这些方法在长期预测方面具有一定局限性。为了解决这些问题,我们提出了一种时空图神经网络模型(STGM-MHA),对发音特征的复杂的空间相关性和时间相关性进行建模,有效实现汉语诗歌语音特征预测。STGM-MHA采用编-解码结构。编码器将数据压缩为隐藏空间表示,而解码器将隐藏空间表示重构为输出。通过实验,将所提出的模型与其他方法进行比较,体现了所提出模型所具有的优势。
研究成果目前以“A Spatial-Temporal Graph Model for Pronunciation Feature Prediction of Chinese Poetry”为题发表在人工智能、神经网络与学习系统领域国际顶级期刊《IEEE Transactions on Neural Networks and Learning Systems》,福建师范大学为第一单位,硕士研究生王庆为第一作者,陈冠楠教授为通讯作者。该工作得到了福建省自然科学基金、福建省卫生教育联合攻关计划和中央引导地方科技发展专项资金等项目的资助。
论文链接:https://ieeexplore.ieee.org/document/9761264