语音识别是使程序或系统能够处理人类语音的技术或功能。它也称为语音识别或语音转文本。使用基于计算机硬件和软件的技术来识别和处理人的语音。它主要用于将口语转换为计算机文本。此外,自动语音识别用于通过用户的语音对用户进行身份验证,并根据人类定义的指令执行操作。
现今世界,自从发明第一个录音机以来,语音识别已经走了很长一段路程,自1950年代以来,语音识别工作一直很活跃,但是直到1990年代后期才开始接受自然语音。机器学习(ML)在本世纪提供了大多数语音识别方面的突破。引人入胜的社会是苹果公司的Siri,这是由AI驱动的数字助理,可以将语音识别人性化。苹果公司以这种方式开创了先河,促使竞争对手的公司开始关注并制作自己的版本。从技术角度来看,语音识别历史悠久,有几波重大创新。最近,该领域受益于深度学习和大数据的进步。
![](https://www.89179.net/other_image/aHR0cDovL3AzLXNpZ24udG91dGlhb2ltZy5jb20vdG9zLWNuLWktMDAyMi9iODU4YzQ1YzE5MmI0MWJhYTMxNzI5YTYyMDM4NjNmN350cGx2LXR0LW9yaWdpbi5qcGVnP19pej05MjI1MyZhbXA7ZnJvbT13ZW5kYSZhbXA7eC1leHBpcmVzPTE2NzcyNDQxMTYmYW1wO3gtc2lnbmF0dXJlPTZHJTJGbGx4U0RsSVAzekdaVXc5Yms2QkNYNndzJTNE.jpg)
所有关于语音的现代描述在某种程度上都是概率性的。这意味着单元之间或单词之间没有特定的边界。语音到文本的翻译以及语音的其他应用从来都不是100%正确的。正确性和准确性是两回事,根据信息学课程的讲义,区别在于正确性意味着完全“没有错误”,而准确度意味着“在所有细节上都是正确的”和“能够或成功达到预期目标”。
使用语音识别,这意味着尽管抄写可能不是100%正确,但用户了解了已转录的语音的整体概念。也就是说,这不仅仅是杂乱无章的单词,而且通常可以从文本中解释一个内聚的概念。但是,没有两个人是一样的,因此,必须考虑语音模式和其他偏差。诸如口音之类的异常(甚至是英语口语中的异常)也可能导致语音识别软件错过对话的某些方面。说话者说话的方式、说话的速度,甚至说话者语音音量的波动都可能使语音识别技术陷入困境。
无论如何,大多数现代语音识别技术都可以与机器学习平台一起使用。因此,随着用户继续使用该技术,该软件会获知特定人的语音模式和差异并进行相应调整。
语音识别如何工作?语音识别使用哪种算法?在当今技术驱动的世界中,一切都基于不同的技术模式。无论是自动文本识别还是机器人语音翻译,技术进步都将标准设定得很高。语音识别通过声学和语言建模使用算法来工作,声学建模表示语音和音频信号的语言单位之间的关系,语言建模将声音与单词序列进行匹配,以帮助区分听起来相似的单词。
声学建模和语言模型是现代统计学为基础的语音识别算法的重要组成部分。隐马尔可夫模型广泛用于许多系统中。语言建模还用于许多其他自然语言处理应用程序中,例如文档分类或统计机器翻译。
语音识别软件的工作原理是将语音记录的音频分解成单独的声音,分析每种声音,使用算法找到最适合该语言的单词,然后将这些声音转录为文本。语音识别软件使用自然语言处理(NLP)和深度学习神经网络。NLP是计算机以一种聪明而有用的方式来分析,理解和从人类语言中获取含义的方法,这意味着该软件将语音分解为可以解释的位,将其转换为数字格式,然后分析内容。根据编程和语音模式进行确定,并对用户实际在说什么做出假设。在确定用户最有可能说了什么之后,该软件将对话记录为文本。例如:Siri使用(语音识别)将说话者的声音转换为文本,然后进行一些处理,然后可以通过使用(从语音到文本的反之亦然版本STT)将其作为声音返回,这是文本到语音的TTS。
![](https://www.89179.net/other_image/aHR0cDovL3AzLXNpZ24udG91dGlhb2ltZy5jb20vdG9zLWNuLWktMDAyMi83Mzk5YzExOTQ4NDQ0ZTgxODBhOGQxZGMzNzMyY2FjZn50cGx2LXR0LW9yaWdpbi5qcGVnP19pej05MjI1MyZhbXA7ZnJvbT13ZW5kYSZhbXA7eC1leHBpcmVzPTE2NzcyNDQxMTYmYW1wO3gtc2lnbmF0dXJlPUd5NXBhQmRzZllBdWQ5NFBjQnRzNEl1VWVodyUzRA.jpg)
对话式AI是使用自然语言与机器进行通信。对话式AI是一个复杂的系统,集成了多个深度神经网络,这些神经网络必须无缝且一致地工作,才能通过准确,快速且自然的人机交互提供令人愉悦的用户体验。关键的技术点在于如何完成域适配、用户分析、合规性、高精度语音识别、用户标识、情感分析等。
![](https://www.89179.net/other_image/aHR0cDovL3AzLXNpZ24udG91dGlhb2ltZy5jb20vdG9zLWNuLWktMDAyMi9iNzc0YTA3OTgyYTc0MDE3OTBlMzU2MTBlZTI0OTQ4ZX50cGx2LXR0LW9yaWdpbi5qcGVnP19pej05MjI1MyZhbXA7ZnJvbT13ZW5kYSZhbXA7eC1leHBpcmVzPTE2NzcyNDQxMTYmYW1wO3gtc2lnbmF0dXJlPU92dHp3TEZrc3UwUjRKNjhzczRScmpEdkdwRSUzRA.jpg)
ASR是人工智能领域的重要任务之一,在自然语言中是一项具有挑战性的任务。因为它由一系列工作组成,例如语音分段、声学建模和语言建模,每个步骤都需要构建和使用一个或多个深度学习模型。采用时间分类法(CTC)简化了对分段数据的需求,并并允许对网络进行端到端学习。