`
xitonga
  • 浏览: 588162 次
文章分类
社区版块
存档分类
最新评论

语音识别概念的简单理解

 
阅读更多

1,语音识别单元

识别单元的大小对语音训练数据量大小、语音识别率,以及灵活性有较大的影响,系统所需的训练数据大小与模型复杂度有关。其实就是语音识别的粒度,越小的时候,识别率越高,当然运算时间也越长。


2,语言模型

语言模型可以提供字或词之间的上下文信息和语义信息,通过语言模型可以提高声学模型的区分度,语言模型主要分为规则模型和统计模型两种,当前,统计语言模型在实际应用中处于主流地位。

统计模型是用概率统计的方法来描述语言单位内在的统计规律,它通过对大量实际语料的统计分析来获得词与词之间的连接信息,从而评价一个词序列是否为语言中合理的语句,其中N-gram被广泛使用,常用的二元和三元。


3,声学模型

根据模型之间的相关性,声学模型可以分为上下文无关模型和上下文相关模型。其实就是词之中有没有关联,如我们对机器说:向左,此时上下文关联的话,应该是向之后只能是左右上下,而如果不关联,就可能出现“向昨”这样的结果。


4,HMM

HMM分为离散、连续和半连续HMM。一般在语音识别时都是用的连续HMM,由两个相互关联的过程相互作用而成:一个是状态空间有限的markov链,一个是随机函数集。其实对应的就是两个随机过程,其中一个是隐蔽的(不可观测的)具有有限状态的markov链。另一个是与markov链的每一状态相关联的观察矢量的随机过程(可观测的)。

为什么是两个随机过程呢,这是因为人的言语过程也是这样一个双重随机过程,因为语音信号本身是一个可观察的序列,而它又是由大脑里的(不可观察的)、根据言语需要和语法知识(状态选择)所发出的音素(词、句)的参数流。



5,识别过程


语音识别中的解码就是将声音信号转成文本或类同控制信号,归根是为了找到匹配输入语音信号的最可能的词序列问题,这是一个搜索过程,如果系统是基于HMM的语音识别系统,那这是一个在一张巨大的图中搜索,而搜索所依据的是语音信号在声学模型的打分和语言模型 概率。就是前面的所说的声学和语言学模型。


分享到:
评论

相关推荐

    人工智能-语音识别-自然语言理解中基于本体的概念区分研究及其在智能仪器设计领域的应用.pdf

    人工智能-语音识别-自然语言理解中基于本体的概念区分研究及其在智能仪器设计领域的应用.pdf

    麦克风阵列的理解以及语音识别相关知识.docx

    关于麦克风阵列的概述以及涉及到语音识别的技术背景 麦克风阵列技术 (1) 定义:是一组位于空间...狭义概念,特指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。

    vosk:VOSK语音识别工具包

    这就是Vosk,这是终生的语音识别系统。 概念 截至2019年,基于神经网络的语音识别器在训练中可以使用的语音数据量非常有限,并且需要大量的计算能力和时间来训练和优化参数。 神经网络在像人一样的一杆式学习中存在...

    语音信号处理-隐马尔可夫模型(HMM).ppt

    由于HMM是在马尔可夫链的基础上发展而来的,为了更好的理解HMM,我们先了解一下马尔可夫链的基本概念。 HMM的基本理论 HMM模型在实际应用时需要解决的三个问题 HMM在语音处理中的应用 隐含马尔科夫模型HMM...

    它涵盖了自然语言处理(NLP)和语音处理的各个方面

    语音处理基础:讨论了语音处理的基本概念和技术,包括语音信号处理、语音识别、语音合成等。 语音识别和语音合成:深入介绍了语音识别和语音合成的算法和方法,包括声学模型、语言模型、声学特征提取等。 统计方法...

    科大讯飞的语音云发布会

    科大讯飞语音云发布会ppt。大概意思是技术比较领先,同时提供了一些语音识别和语义理解的概念介绍

    模式识别原理及应用

    模式识别得到了迅速发展, 并取得了丰富的理论成果, 其应用领域也己扩展到了文本分类、 语音识别、 图像识别、 视频识别、信息检索与数据挖掘等领域. 由于模式识别理论具有重要的学术价值和广泛的应用领 域 因而...

    阿里智能语音V2.X SDM(MRCP-SERVER)技术文档(1).pdf

    语音识别技术,也称为自动语音识别(Automatic Speech Recognition),简称 ASR,其目 标是将人类语音中的词汇内容转换为可读的文字。  TTS 语音合成技术,也称为自动语音合成(Text To Speech),简称 TTS,其目标是...

    NLP介绍及心得.docx

    NLP涵盖了多个任务和技术,包括语音识别、文本分析、情感分析、机器翻译等。以下是一些关于NLP的核心概念以及我的一些心得体会: ### NLP的核心概念: #### 1. **语音识别(Speech Recognition):** - 语音识别...

    ASR 隐马尔可夫模型(HMM)

    在语音识别(ASR)中,是基础且重要的模型之一。本篇文章主要介绍: HMM 概念 前向和后向算法 维特比算法 隐马尔可夫模型(HMM) 简单理解HMM 数据科学中,预测是一个经久不衰的问题。以常见的时间为序数据为例,...

    J2men-Chain:区块链简单JAVA实现 理解区块链

    增加分词接口 以及语音识别语音合成sample Overview Toychain is a sample block chain toy. 参考此代码会帮助你更好的理解区块链的概念和原理。此外为了更好的体现区块链的概念,代码的实现尽可能的简单明了,忽略...

    DolphinAttack:听不到的语音命令

    诸如Siri或Google Now之类的语音识别系统已经成为一种越来越流行的人机交互方法,并将各种系统变成了语音可控系统。 攻击VCS的先前工作表明,人们无法理解的隐藏语音命令可以控制系统。 隐藏的语音命令尽管是“隐藏...

    人工智能相关知识学习.rar

    3. 语音识别 对应的现在的重大进展是以chatgpt为代表的LLMs(大语言模型)、以midjourney、stable diffusion、Dalle为代表的文生图、图生图及segment anything等图像生成和识别技术,以及whisper等tts、stt等语音...

    深度学习.azw3

    同时,它还介绍了工业界中实践者用到的深度学习技术,包括深度前馈网络、正则化、优化算法、卷积网络、序列建模和实践方法等,并且调研了诸如自然语言处理、语音识别、计算机视觉、在线推荐系统、生物信息学以及视频...

    suno的概要介绍与分析

    SunoAI,作为一个假想的尖端人工智能技术品牌,致力于打造下一代智能交互体验,融合深度学习、自然语言处理(NLP)、语音识别与合成技术,为用户带来前所未有的智能化生活与工作助手。在这个构想中,SunoAI不仅仅是...

    watson-multimedia-analyzer:使用Watson视觉识别,语音到文本,自然语言理解和音调分析器来丰富媒体文件的Node应用程序

    Watson自然语言理解服务为每个场景提取关键字,实体,概念和分类法。 Watson音调分析器服务为每个场景提取最重要的情绪,社交和写作音调。 Watson Visual Recognition Service每10秒捕获一次屏幕截图,并创建一个...

    Transformers for Natural Language Processing.pdf

    图书简介 该书将带您学习使用Python的NLP,并研究了由Google,Facebook,...将Python,TensorFlow和Keras程序应用于情感分析,文本摘要,语音识别,机器翻译等 测量关键变压器的生产率,以定义其范围,潜力和生产限制

    深度学习的教程.doc

    5. **实践深度学习**:通过实践深入理解深度学习,例如训练一个简单的图像分类模型,或者建立一个简单的语音识别系统。 6. **深入学习特定领域**:根据你的兴趣和目标,可以选择特定领域进行深入学习,例如自然语言...

    人工智能入门(含源码)

    深度学习在图像和语音识别、自然语言处理等领域取得了重大突破。 3. **自然语言处理(NLP):** NLP是AI的一个领域,致力于使计算机能够理解、分析和生成自然语言文本。NLP用于机器翻译、文本分析、情感分析等应用...

Global site tag (gtag.js) - Google Analytics