服务热线

18707319516 18707319526

人工智能语音技术的未来



我们其实可以从和同学们关联更多的学习角度理解。每天,同学们都能用上与人工智能相关的产品,甚至在日常学习上,也会有很多体验,比如语音识别的语音遥控器、蓝牙语音技术的蓝牙语音遥控器、语音分析、语音合成、口语测评、图像识别、手写体识别、自然语言理解、人机对话、作文批改等等,并且新技术的水平都在不断提升。

过去20年中,信息时代已跨越了数字化时代、云技术时代、大数据时代,来到了人工智能时代

而我们每天都会接触的这些教学产品,也经历了“电子书包”和习题光盘、网络多媒体学习内容、通过大数据分析的精准化分析建议和教学内容推送,直至如今的人工智能个性化互动训练的阶段。比如研发人员把多种人工智能技术应用在外语教学中后,也给学生带来了全新并有效的训练形式:拟人化智能互动语言能力训练。

第一代信息化教学产品一般是传统教学内容电子化,而智能化互动训练是完全个性化的,针对学生说什么,智能教学产品可以像真人一样,能听、能说、能看、能对话、能聊天、能评价能纠正,并且通过个性化智能互动提升学生语言能力。

不过同学们肯定更关注,这种新型的人工智能互动语言训练,能对自己在外语学习等方面带来多大帮助?

看了同学们的这些疑问和希望,我们也发现,人工智能设备最大的特点之一,就是可以和同学们进行交流,也就是我们常说的“人机对话”。

 

智能设备,是怎么学会对话的

那么人工智能是怎么工作的呢?20多年来,人工智能的工作方式已经从专家系统、决策树,发展到统计模型和最新的多层神经网络模型——也称为“深度学习”。这个深度学习和我们日常认为的深度学习完全不同,它指的是模拟大脑神经元连接方式的人工神经网络的层数可能多达十几层甚至上百层的大数据模型方法。

比如人机智能对话在教学应用中,就得首先用到语音识别技术。为了让机器(智能老师)听懂人话,研发人员需要收集几万小时甚至十几万小时的学生语音去“训练”这个多层神经网络模型。

10万个小时的学生声音需要多大的存储呢?一分钟的声音大约需一兆字节的存储,10万小时的声音需要6TB(6000G)的存储空间,整个训练过程需要多台计算机多个CPU和GPU并用,分布协同工作连续运行约一周时间。可以看出,机器学习是一个很消耗算力的工作。

除了使用语音识别技术,智能机器还得接受发音分析技术的训练。

 

在这个任务中机器已经知道学生说了什么,然后需要判断学生说的是不是和标准的声音相似。语音识别任务的目标是为了容忍并听懂各种糟糕发音,而发音分析是为了挑出发音中的问题。这个貌似简单的任务其实很不简单——人可以轻松地把一个女孩儿说的A和一个成年男性说的A判断为“发音相同”,聪明地忽略他们因为性别、年龄差别对声音其实带来的巨大不同,但这对机器智能是一个挑战。


在各种智能互动训练任务中,语音合成技术也起到了重要的作用。有了这个技术,计算机才能对人说话,不仅避免同学们总是看屏幕文字,而且互动更加自然,也保护了视力。语音合成技术的背后可以使用不同的技术方案,包括波形拼接技术:直接录下一个人在录音棚里朗读的声音,存储为一个几十兆或者几百兆的包含了不同上下文的声音波形仓库,然后就可以根据合成任务的需要寻找正确的上下文波形进行拼接;还可以使用“声道参数模型”,在计算机内部模拟出气流通过声带振动和发音器官产生出最后语音波形的过程。这个方法不需要直接存储声音,但需要从声音中分析出这个人的发音器官的声道模型。

 

友情链接: 新笔趣阁 华为 百度