基于卷积神经网络的音乐艺术教学质量评测系统基于卷积神经网络的音乐艺术教学质量评测系统

【www.zhangdahai.com--其他范文】

江育光,卢盛荣,黄理明

(1.闽西职业技术学院;
2.龙岩学院 福建龙岩 364000)

根据中共中央办公厅和国务院办公厅印发的《关于深化新时代教育督导体制机制改革的意见》以及福建省教育厅发布的《新时代福建省义务教育质量监测实施方案》,要求进一步深化教育督导管理体制改革,加强对学校的督导,引导学校办出特色、办出水平,促进学生德智体美劳全面发展。充分利用互联网、大数据、云计算等开展督导评估监测工作[1-2],从监测内容、监测频度等方面加大对学校音体美教育的督导力度,其中一点就是对中小学生的声乐演唱水平进行客观量化评价。然而音乐测评不同于传统的语数英考试,歌唱是一个主观性较强的活动,如何通过客观量化评价方法实现主观性活动测评,是当前研究的重点和难点。

移动数字技术的蓬勃发展和国内版权保护意识的提高,使得音乐流媒体产业有了长足的增长。国内外诞生了一系列音乐流媒体巨头如腾讯音乐、网易音乐,国外的如Spotify和Apple Music等。2020年世界唱片行业协会公布的数据显示,全球音乐相关的商业收入同比增长9.7%,其中流媒体音乐营收超过89亿美元,占比达到47%[3]。海量的音乐曲目库使得用户在音乐信息检索上面临巨大挑战。音乐可以视作一种语音信号,但更为多样和复杂化,由不同的节拍、和声和旋律按照一定规则组合而成[4]。深度学习的出现,使得音乐分类技术进入了新的发展阶段。深度学习在语音识别和图像处理上的成功,使得其利用在音乐评价领域上成为未来的发展目标。目前该领域的子研究方向包括音乐流派识别、音乐情感识别和音乐作品推荐等[5]。其中,流媒体(音乐)推荐已成为当下电商系统中不可或缺的重要组成部分,抖音、豆瓣、网易云音乐的成功都离不开流媒体推荐算法的优化应用。

基层考场情况复杂,具备丰富实践经验的IT技术人员不足,在考试组织上存在不小风险。通过使用SaaS服务,可以大幅度减轻客户IT基础设施构建和运营成本风险压力。义务教育艺术质量监测系统采用B/S架构,部署在云端,以SaaS(Software as a Service,软件即服务)的方式向客户(考试组织者)提供服务。使用的主要开发语言包括Java和Python,利用的相关技术和框架有Spring Boot、VUE3以及LIBROSA和MUSIC21。考生在考场通过指定考试机按曲目要求进行歌曲演唱(声音由声卡读入),数据加密后,通过互联网传入义务教育艺术质量监测系统服务器中,在后台对目标音频文件(学生成绩)进行算法评价,并给出量化分数。基层考场情况复杂,具备丰富实践经验的IT技术人员不足,在考试组织上存在不小风险。通过使用SaaS服务,可以大幅度减轻客户IT基础设施构建和运营成本风险压力。该系统的成功上线运行,对人工智能技术的落地实践、产学结合、电子商务音乐流媒体技术的应用以及对其余中小学学科,如美术和体育等的量化评价研究,都具有很大的启发意义和广阔的市场发展空间。

1.1 系统整体流程

图1是义务教育艺术质量监测系统的整体流程图。教师/管理人员可以登录教师系统管理端,上传考试曲目(原音、曲谱、伴奏带),设置评分权重(不同级别学生要求不同),维护学校、学生信息(以学校为单位进行考试)、创建考试等功能。学生可以在考场教师指导下,登录考试机,按考试题目要求进行声乐演唱。系统会自动回收试卷(音频文件)并提交考试内容,通过互联网远程传回服务器,由义务教育艺术质量监测系统服务器端对考试内容进行量化评分。教师可以导出考试成绩并进行教学反思研究。从考生角度而言,基本操作流程可分为以下五个步骤:

图1 系统流程图

(1)考生登录考试端,进行设备调试,确认录音设备没问题。

(2)考生查看必唱曲目和选唱曲目。

(3)考生进行试唱准备。

(4)考生进行正式演唱,可根据节拍提示(MIDI文件)进行调整。

(5)数据提交后台服务器。

1.2 部分考试流程

图2是设备调试环节图。考生输入账号密码进行登陆。系统展示考试流程,提示考生进行规定的页面操作流程,而后进行录音功能调试,确保设备无任何障碍(耳机、声卡)。系统播放考生录音结果,根据调试结果转向相应环节。

图2 设备调试环节图

图3是正式演唱环节图。在这部分,考生可先进行试唱而后进行正式演唱。系统会播放音乐伴奏带(配有节拍),考生在热身试唱后,试听自己的演唱效果,而后进行正式考试。在考试结束后,成绩(音频文件)自动上传后台服务器进行评分。

图3 正式演唱环节

2.1 音乐元素的基本构成

人的耳朵构造(耳蜗)可以视为一种信号滤波器,即使在环境音复杂的情况下(噪音)也能识别出目标声音。耳蜗中的基底膜会根据传入声音的不同频率,对人脑进行不同神经电路刺激。声波在被接收转换后,可近似用数字信号理论进行等同处理,这也是数字音乐处理的基本生理物理原理[6]。音乐处理的基本特征有音高、响度、音色等。音高(音调)是人们能够最直观感受的参数,由声乐信号的频率决定,单位是赫兹(Hz)。音高越大,声音感受越尖锐,这就是日常生活中女生声音尖锐程度普遍高于男生的原因。响度(音量)直观上体现声音的大小,单位为分贝(dB)。声波的振幅决定了响度的大小,振幅越大,发出的声音也就越大。各种音乐元素的有机组合,如男女生合唱、多乐器演奏等,组成了不同的音色以及音乐流派。另外,义务教育艺术质量监测系统也采集了其他音乐特征,如短时过零率和色度向量等。

2.2 梅尔频谱图

从考生成绩音频文件中可以读出波形信号,波形图涵盖了音乐信号随着时间递进的响度值(振幅)变化,如图4(a)。其中横轴表示音乐时间,纵轴为对应该时刻的振幅值。但这往往不够,法国学者傅里叶提出的傅里叶变换(FAST Fourier Transform, FFT)是一种线性转换积分器,可以进行声音信号在时域和频域的转换,通过音乐频谱来进一步分析音乐文件质量,具体如图4(b)。其中横轴表示音乐演唱的各频率值,纵轴表示对应频率下的振幅值。频谱图参考全生命期的音乐频谱来计算各频谱成分的占比,然而该子频谱单元的有效依存时间往往并不一定等同于完整音乐信号生命期,所以基于全局的傅里叶变换无法准确描述各时间段的频率分布情况。短时傅里叶变换(Short-Time Fourier Transform, STFT)通过对音乐信号进行分割加窗和离散傅里叶(Discrete Fourier Transform, DTT)操作(把长时音乐信号转换为短时等长音乐信号片段,而后对每个片段进行傅里叶变换),可以更精确描述实际情况,具体如图4(c)短时傅里叶频谱图[7]。其中,横轴表示时间,纵轴表示频率,颜色深度表示振幅值的大小,颜色越深暗表示分贝值越高。

STEVENS等在1937年发现,人类的听觉是一个复杂的非线性系统,对音高的感受并不是简单的声音频率线性关系[8]。人耳的构造更像一个低通滤波器,对低频的敏感度远高于对高频段的敏感度。但是可以通过一个对数转换,生成一个与人类音调感知强度变化相符合的参数,即梅尔刻度(Mel Scale)。梅尔刻度同音乐信号频率的转换可以通过式(1)实现。其中fmusic表示音乐信号频率,fMel表示梅尔刻度值。图4(d)是对应的梅尔频谱图。

(1)

t/s(a)波形图

频率/Hz(b)频谱图

t/s(c)短时傅里叶频谱图

t/s(d)梅尔频谱图图4 梅尔频谱变换序列图

2.3 音乐评测中部分参数的设计方法

在2020年的中小学音乐测试中,按照音乐考试组织者的意见,对不同级别的学生应该在测试难度上有所区分。考虑到小学组的童音、中学组男女生在生理发育期,嗓音喉道处于变声期的关键时刻,声乐演唱效果及其评判标准应有不同对待。对学生的演唱音速、音强以及音调做了阈值调整区间,在具体应用中可以根据不同级别的考试性质,提供不同尺度评判标准。

(1)音速调节控制

对学生演唱歌曲节奏速度进行轻微加速或变慢至原来的a倍,a的值在(0.7, 1.3) 内进行选取,对多出或缩短的演唱时长进行等效剪切或填补。这种处理方式的动机是: 学生的演唱速度往往不一致,可以针对较低年级的学生放宽标准。

(2)音强调节控制

音强调节是指对录音音乐的响度做轻微的改变,可以将原始音乐演唱的响度增加或减少bdB。

(3)音调调节控制

考虑到男女生的声带结构不同,轻微的改变音调不会对原来的曲风带来显著的改变,故可以对音乐的音调进行调节。本文采取的方法是对音频增加或减少c个半音。

在以往,传统的机器学习往往采用手工提取的目标特征进行模型训练,在音乐领域中主要是响度、频率、节拍等基本数据。但不同流派的音乐往往差别巨大,乐器、节奏和和声等声学抽象特征很难用手工进行设计提取。商业音乐流媒体爆发式增长,使得通过人工标注进行音乐推荐在商业成本上变得不具可行性。深度学习通过多层隐藏层连接产生的非线性关系,能够自动捕捉目标的高级抽象特征[9]。随着CPU、GPU运算资源的大幅度提高,该理论变得具备实践可行性。2014年,SIMONYAN K等人提出了牛津大学组VGG-16(Visual Geometry Group)卷积神经网络模型组,通过提高卷积神经网络(Convolutional Neural Networks, CNN)的深度,可以大幅度提高图像分类的准确度。本文尝试通过训练卷积神经网络读取梅尔频谱图,进行音乐风格判断。

图5是VGG-16的结构图。该网络基本结构由输入层(Input Layer)、卷积层(Convolutional Layer)、池化层(Pooling Layer)和全连接层(Fully-connected Layer)组成。输入层负责接收数据,尤其是高维数据。卷积层通过不同尺寸的卷积核(Convolutional Kernel)进行特征提取,实现一种局部权值共享的效果。面对参数爆炸带来的巨额运算量问题,池化层负责对卷积层运算结果进行降维操作和防止过拟合操作,主要的方法包括均值池化和最大池化。全连接层也叫Dense层,负责将高维数据映射成一维数据。输出层负责最后的结果判断,本文在这里是多分类设计。

图5 VGG-16结构图

本文使用GTZAN数据库进行音乐分类训练,GTZAN音乐数据库是按照曲风划分的公开数据库,由1000首音乐片段组成,10种曲风类型主要涵盖雷鬼、金属乐、嘻哈、迪斯科、流行乐、蓝调、古典乐、摇滚、乡村乐、爵士乐等[10]。每种曲风由100个片段组成,时常为30 s,采样频率为22050 Hz,单声道。图片分辨率采用224×224,激活函数选择ReLU,输出层函数选择softmax进行曲风最后分类判断。

训练周期Epochs设置为100,批次BatchSize设定为64,使用Adam作为卷积神经网络训练收敛过程中的梯度优化下降方法。采用2.2节方法得到的梅尔频谱图共1000张,按照时间为10 s每张图割成3张子图,共3000张梅尔频谱子图。而后按照训练集和验证集7∶3进行划分。作为小规模数据量训练,把VGG16的卷积层作了适当裁剪,选取13个中的前5个。训练集和验证集的准确率变化如图6所示。大概在40轮次时候达到基本收敛,验证集的准确率接近于90%。

训练轮次图6 训练集和验证集的准确率变化图

本文依据《新时代福建省义务教育质量监测实施方案》要求开展新时代义务教育艺术(音乐)的量化评价机制的指导意见,设计了一款基于SaaS的义务教育艺术质量监测系统。使用的主要开发语言包括Java和Python,利用的相关技术和框架有Spring Boot、VUE3以及LIBROSA和MUSIC21。音乐测评不同于传统的语数英考试,歌唱是一个主观性较强的活动。系统通过读入基本音乐信号特征如音强、音高、节拍等进行量化分析,并利用CNN分析音乐图谱,进行初步的艺术感分析。该系统的成功上线运行,对人工智能技术的落地实践、产学结合、电子商务、音乐流媒体推荐、提升用户体验度以及响应政府“企业上云”都具有参考意义。电子商务的营销方式愈来愈离不开基于人工智能的推荐算法支持,后续将在音乐艺术感分析作进一步探索,如声乐演唱的情感分析以及自动谱曲等。

猜你喜欢 频谱卷积考试 基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02一种用于深空探测的Chirp变换频谱分析仪设计与实现空间科学学报(2021年6期)2021-03-09卷积神经网络的分析与设计电子制作(2019年13期)2020-01-14从滤波器理解卷积电子制作(2019年11期)2019-07-04基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20FCC启动 首次高频段5G频谱拍卖通信产业报(2018年40期)2018-01-22Japanese Artificial Intelligence Robotto Take Entrance Examinations中学科技(2017年5期)2017-06-07动态频谱共享简述移动通信(2017年3期)2017-03-13你考试焦虑吗?中学科技(2015年6期)2015-08-08准备考试小樱桃·童年阅读(2014年11期)2014-12-01

推荐访问:卷积 神经网络 教学质量

本文来源:http://www.zhangdahai.com/shiyongfanwen/qitafanwen/2023/0611/610098.html

  • 相关内容
  • 热门专题
  • 网站地图- 手机版
  • Copyright @ www.zhangdahai.com 大海范文网 All Rights Reserved 黔ICP备2021006551号
  • 免责声明:大海范文网部分信息来自互联网,并不带表本站观点!若侵害了您的利益,请联系我们,我们将在48小时内删除!