有没zhiyuanji 百度云的

摘要: 一、信息论基础: 熵: 联合熵:实际上就是描述一对随机变量平均所需要的信息量。 条件熵:给定随机变量 X 的情况下,随机变量 Y 的条件熵定义为: 熵率: 相对熵(KL距离):两个概率分布 p(x) 和 q(x) 的相对熵定义为: 交叉熵:如果一个随机变量 X ~ p(x),q(x)为用于近似 p(x)的概率分布,那么,随机变量 X 和模型 q 之间的交叉熵定义为:

摘要: 1.基本概念: NLP:自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。 语言的基本属性:语音和文字 2.研究内容: 3.基本问题: a)形态学(morphology)问题:研究词(word) 由有意义的基本单位-词素(morphemes)的构成问题。单...

摘要: 一、概念:微博中经常会有些词被一起提及,如:郭美美VS红会,表哥VS房叔;超市为提高销售额,会把用户经常买的物品放在一起。 a)Apriori算法: 频繁项集产生强关联规则: b)FP-树进行频繁模式挖掘: *Partition-based Projection: *比较:

Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。文...

摘要: 一、中文分词:分词就是利用计算机识别出文本中词汇的过程。 1.典型应用:汉字处理:拼音输入法、手写识别、简繁转换 ;信息检索:Google 、Baidu ;内容分析:机器翻译、广告推荐、内容监控 ;语音处理:语音识别、语音合成 。 2.分词难点:歧义、新词等。 3.分词技术:机械分词(查词典FMM/BMM,全切分)、统计分词(生成式/判别式)、理解分词。 a)生成式分词:建立学习样本的生成模型,再...

摘要: 1.语音编码目的:为了减少传输码率或存储量,以提高传输或存储的效率。经过这样的编码之后,同样的信道容量能传输更多路的信号,存储只需要较小容量的存储器。因而这类编码又称为压缩编码。压缩编码需要在保持可懂度与音质、降低数码率和降低编码过程的计算代价三方面折衷。 2.编码分类:波形编码、参数编码、混合编码。 波形编码器:没有使用模型,而是试图使重构的语音和原始语音之间的误差最小化。波形编码的方法简单,...

摘要: 1.LPC基本概念:一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小,能够决定唯一的一组预测系数。用于语音分析与合成,可估计许多语音基本参数:基音、共振峰、频谱、声道截面积等。 2.线性预测编码框架: 模型的系统函数H(z)的三种形式:AR模型易反映频谱中的峰值,MA模型易反映谷值,ARMA模型可同时反映两者。

摘要: 1.短时能量分析(音强),决定短时能量特性有两个条件:不同的窗口的形状和长度。窗长越长,频率分辨率越高,而时间分辨率越低(N为帧长,M为步长)。 *典型窗函数:矩形窗谱平滑性能好,但损失高频成分,波形细节丢失,海明窗与之相反。一帧内含1~7个基音周期,10kHz下采100~200点。 2.短时平均振幅分析:计算方法简单,但清浊音的区分不如能量明显。 3.短时过零分析:可以区分清音与浊音,浊音...

  • 公司名称:北京值得买科技股份有限公司 地址:北京市丰台区洋桥12号院3层至19层 座机:010-

我要回帖

更多关于 zhiyuanji 的文章

 

随机推荐