138649号惠氏二段怎么样样.比如13864...

18,170被浏览1,763,967分享邀请回答4.6K160 条评论分享收藏感谢收起95233 条评论分享收藏感谢收起如何判断一段声音是不是自然语言?
我的图书馆
如何判断一段声音是不是自然语言?
【Heinrich的回答(201票)】:
可以的·!
是否能破译有待商榷,但是判断是否是,或者说信号中是否包含信息是可以做到的。
看下面这张图。
左上的是一组乐透中奖数字的特殊号码连续500期的排列,右边是声音“Na”的波形。左上的是一组乐透中奖数字的特殊号码连续500期的排列,右边是声音“Na”的波形。
只要对两个信号分别做自相关运算(水深,可自行百度,一种计算方法),就可以看到,乐透中奖数字的自相关函数(左下图)除了在0以外有个很高的值以外,其他部分是的值是接近于没有的。而声音Na的自相关函数(右下图)是存在一个数值分布的。
因为乐透中奖数字毫无规律可言,是纯随机事件,每一期与下一期是完全独立的,所以它的自相关函数会是左下图的样子。而包含信息的信号,其自相关函数是有意义的。
实际上,乐透中奖号码可以算作是无意义的噪声信号,而声音波形则是包含信息的信号,他们的差异就反映在自相关函数上。
噪声实际上代表的就是混乱与无序,如果中奖号码可以是任意整数,那么出现某一特定数字的概率为0且所有值出现的概率是相等的,根据香农的信息熵公式
可以算出噪声信号的信息熵为0.
。而包含信息的语言是程某一种规律的,信号中某一值出现的概率为有限大小,且每个数字出现的概率不相等,那么这个信号就是有意义的。
我简单补充一下吧,因为涉及的东西很多很深也就不在下面另起作答了。之所以答主会碰到自相关无法应用的问题,是因为你提出的判定随机无序的噪声的方法有点简单了,不过思路是很对的。仅仅说自相关图或者功率谱图上没有明显分布还不能说这就是无序的噪声。有时候这可能是因为维度不匹配造成的,有序的序列轨道维度很高的时候映射到低维度空间看起来也是混乱无序的,很多吸引子结构可能没有打开。因此一般还需要确定嵌入维数,然后相空间重构,计算李雅普诺夫指数,测度熵或者拓扑熵(而不是简单的信息熵)来判定是不是无序的。之所以说到这个问题是由于自然界的声音还有很多是由极其复杂的非线性机制产生的(比如三体运动什么的),并非纯随机的。
【崔飘扬的回答(14票)】:
我觉得大家纷纷扯到和机器学习什么的之前先解决些fundamental的问题吧(其实我很好奇为什么这题没有一个搞speech recognition和NLP的人认真来答一下……只有第一的autocorrelation勉强是相关的……)我理解题目的意思是首先要区分一段音频信号里有没有人类语音,还是只有环境声或者无意义的噪声信号……那么答案是确定的,人类(以及其他许多能通过声音沟通的动物)的语音有很明显的特征,比如下面的:
这张图现实了短时频谱相对于时间的变化,可以看到有非常明显的一道道水平的能量分布,这是因为发浊音时声带振动,产生了基频,采样后通过声道和口腔作为滤波器之后就形成了这样的离散分布。发清音时声带不振动,能量在频谱上是连续的分布(模糊一片),不大容易和自然音区分开来(但实际上区别还是有的)。别的频谱上的特征还有很多(比如爆破音等),这方面的经验研究汗牛充栋....话说我本科在香港时学语音识别的课,课程的前1/3老师最喜欢考的就是给一张像上面一样的频谱图,让你光看图大致猜出来这句话可能在说什么……这张图现实了短时频谱相对于时间的变化,可以看到有非常明显的一道道水平的能量分布,这是因为发浊音时声带振动,产生了基频,采样后通过声道和口腔作为滤波器之后就形成了这样的离散分布。发清音时声带不振动,能量在频谱上是连续的分布(模糊一片),不大容易和自然音区分开来(但实际上区别还是有的)。别的频谱上的特征还有很多(比如爆破音等),这方面的经验研究汗牛充栋....话说我本科在香港时学语音识别的课,课程的前1/3老师最喜欢考的就是给一张像上面一样的频谱图,让你光看图大致猜出来这句话可能在说什么……
这种判断是不是有人在说话的phonetics研究是做语音识别的基础,比如siri里面你对它说非系统语音它无法识别,但是至少知道有人在说话,而环境噪音再响它也不会有反应。
【CastielSteve的回答(61票)】:
这个问题问得很好。
题主的问题里有两个关键点:
1、这段声音足够长。也就是说,这段声音可以给我们提供足够的信息,并且极有可能会循环播放。
2、定量地判断它是一种语言。
根据万能的度娘上的解释:
定性观察只是要求对物质的组成有所了解。此仅仅涉及到性质。定量观测要求到物质的组成以及在各物质的含量问题。
抱歉,我没看懂这段解释……我的理解是,题主想要知道有什么可以重复使用、并且量化其执行步骤的方法,来检测一段未知的音频是否是语言。
所以,用感性的思路来回答这道题明显是不对的。“万物皆有语言”这么禅意的概念,只能先放在一边了。
-----------------我是来治猩猩的分割线-----------------------
以下是我的回答:
以人类搜索外太空智慧生命的逻辑思路为例:
美国加州大学洛杉矶分校行星科学家迈克尔-布斯奇表示,“如果你准备与外星人进行对话,那么最基本的要求是,你最好能够拥有让人可理解的东西。” 因此,如果一类语言或电讯号希望被接收到的人所解读,就必须包含一些放之宇宙而皆准的信息,来帮助接受者破解这一语言系统。
例如,搭载在先驱者号探测器上的地球名片描绘着地球上第一号元素氢的结构(网络上的翻译普遍有“分子”二字,但是“氢分子”这个概念本身是不成立的-
,所以此处删去“分子”二字)及中性氢的超精细跃迁,并用氢在1420兆赫的21厘米谱线(宇宙中分布最广泛的电磁辐射谱线)波长为单位,将人类男性与女性的身高转化为二进制码的形式。如果接收到这一名片的外星文明的科学已经达到了原子级别,那么TA们便能够解读这一信息。
此外,太阳的位置是用它与14颗脉冲星的相对位置关系来表示的。作为“宇宙的时钟”,脉冲星以长期恒定的速率自转。在银河系中脉冲星的数量不多,而脉冲星的精确周期在“名片”中用码描述,据此,天文学发达的地外文明可以很容易判断太阳系的位置。
(喂,你们这样真的好吗!想让地球毁灭吗卧槽!如果老子早出生20年一定会去美帝阻止你们的好吗!!!你们难道不知道大刘的“黑暗森林”定律吗!主动暴露位置是要闹哪样!!!我不想被二向箔毁灭啊啊啊啊啊啊啊啊)
又例如,1973年11月,世界上的一些科学家集中于美洲加勒比海地区的阿雷西博天文台,向武仙座的M13 球状星团发射了另一种颇具想象力的带图的“地球名片”,而且还是以电报的形式发出。这张别具风格的“地球名片”宽23 个字码,长73 个字码,总面积1679 个字码。“名片”的上半部分又分为两部分:第一部分代表1 至10 的10 个数字;第二部分代表与生物现象密切相关的5种化学元素的原子序数,即氢(1)、碳(6)、氮(7)、氧(8)、磷(15)。“名片”的下部分为人形图像和太阳系九大行星示意图。
(卧槽你们这群美帝反动分子要闹哪样!!!你们有自我毁灭倾向吗!!!为什么一个两个赶着把俺们人类的位置告诉三体人!!!罗辑呢?!面壁者呢?!章北海呢?!云天明呢!?你们快来拯救我啊啊啊啊啊啊啊)
又例如,很多科幻作品中,都将宇宙通用的素数序列作为星际文明首次交流时附带的解码秘钥:2、3、5、7、11、13、17、19……(1不算素数,1和0非素非合,感兴趣的同学可以去百度一下具体解释。)
那么,我们的第一个办法就是:看看这段语音中有无包含你可以理解的、通行于你这个世界观的真理,并通过这一真理作为关键钥匙,去解码剩下的音符。
==============================================================================
第二种方法来自于密码破译规律:先确定一段语音中出现频率最多的那个字,然后将这个音符与现有的主要使用语言体系中的常用字进行比较,进而确定这一音符的意义,进而对剩余部分进行解码。
这个办法,如果事先对语音的内容没有头绪,无法对其内容的范围进行缩小的话——例如战争中破解对方的军队命令便可以缩小推测范围,缩短破解时间——那么,主要依靠的,便是破解者的运算能力。
运算能力越强,破解的时间就越短,属于不断试错的笨办法。比如,在计算能力上,人脑<小霸王学习机<计算机<苹果机(好吧我是开玩笑的)<巨型机<人肉镜面计算阵列……(好像有什么奇怪的东西混进来了……哎?你说你叫秦始皇?)
回答完毕,鞠躬。没看过大刘《三体》的朋友们请忽略括号内黑体字的吐槽,谢谢。我最喜欢的角色是汪三水和大史,又及。
PS:关于二进制是否能被外星人所理解:
理论上来说,数学这种东西是通行于全宇宙的。例如质数,例如二进制。
二进制并非是程序员专用的语言,是先有了二进制这种极其简洁、美丽、实用的数学规律之后,才因为其在逻辑上的简洁易懂、易使用性,被广泛应用于计算机编程行业。因为它只使用0、1两个数字符号,非常简单方便,易于用电子方式实现。
正如德国天才大师(Gottfried Wilhelm Leibniz,1646 - 1716)留下的手稿中所说:“1与0,一切数字的神奇渊源。这是造物的秘密美妙的典范,因为,一切无非都来自上帝。“他甚至对中国的八卦系统进行了多年的研究,坚定地认为八卦与二进制其实是同一种数学语言。
可怜的莱布尼茨,他因此断言:”二进制乃是具有世界普遍性的、最完美的逻辑语言。“
所以,我们可以推理,即便三体人中没有一种叫做”程序猿“的群体,只要它们有”学霸“这个种族,有对数学的理解能力和探索能力,就肯定能明白俺们地球人在宇宙的这头儿瞎哔哔啥。反过来说,如果它们连数学中的二进制这么简单的问题都整不明白,怎么可能接收到我们的信息?
【知乎用户的回答(19票)】:
一种方法是分析频谱。BBC有一部关于土拨鼠的纪录片,里面科学家为了确定土拨鼠的叫声里面有没有包含信息,就录下来叫声来分析声纹,也就是频谱。如果应对不同的侵入者土拨鼠的叫声频谱不同,且面对同种入侵者所有土拨鼠的频谱相同,那么可以确定它们有自己的词汇和语言。
【章佳杰的回答(15票)】:
先说点废话。
单纯从「骗点赞」的角度来说,这个时候才来回答问题大概是不够聪明的(或许开头加上「我实名反对以上所有答案」会有效果一些?╮(╯▽╰)╭)。不过这个问题是我 fo 的一位大牛提出来的,所以我想还是认真思考一下再来回答,加上拖延症发作,这两天一直没有动手。不过这两天也想了不少,所以还是尝试回答一下吧。
先说结论:我认为是可以做出判断的。
【人类的语言】
什么是语言?这是很难界定的,或者说,大概是根本没办法下定义的。Wiki 的 language 词条介绍说人类大概有
种语言[1]。这么多语言,之所以作为「语言」而与自然界的其他声音或者图像区别开,一定是有一些共同的特征的。简单举几个例子,比如:
1. 发音的节奏性。人类在交流说话的时候,不论哪一种语言,都会由一定的节奏性。相反,自然界里其他的一些声音,比如雨声涛声,常常是连绵不绝的;
2. 音素的组合。人类语言的发音是可以拆分成一些基本的「音素」的,类似于英语的英标。这些音素的组合是有一定模式的,比如普通话里不会有两个声母连续出现,英语里也见不到 /fj/ 的发音;
还可以举出好多例子,总结起来可以就是一句话:语言的模式(pattern)。这个模式可以使时域上的模式(比如发音的节奏性)或者频域上的模式(比如音高的表现形式)或者音素组合的模式,正因为有这些模式,语言(文字)才能够与其他的自然声音或者图像区别开。
【包含信息的流】
因为语言最大的功能就是交流,要交流就要包含信息,而只有包含一些模式的流(stream)才能携带、传递信息。如果一点模式都没有,那只能是随机的噪声罢了。
所以,语言可以看做是一种包含信息的流。
看起来奇怪吗?并不奇怪,仔细想想,就是这么回事。Queensland 大学的研究组做过一个项目[4],他们安排两个机器人在房间里游荡,并通过麦克风交流他们游荡的见闻,慢慢的,这两个机器人之间就形成了一种他们自己才懂的语言,用于描述这个房间里的情况。他们的对话里充满了 kiyi、liye 等人类看起来不知所云的词语,但通过这些莫名其妙的词语他们之间确实进行了信息的交流,使得一台机器人可以向另一台机器人描述他去过的角落。
这个图就是两个机器人通过交流获得的对「这个世界」的认识。这个图就是两个机器人通过交流获得的对「这个世界」的认识。
所以我扩展一下题目里对自然语言的限定,怎样确定某一段流(声音、文本、数据……)是某种语言的一种表现形式?或者根据我上面说的,怎样确定某一段流是带有信息的流?
【信息的熵】
香农告诉我们,可以用「信息熵」来衡量不确定性,而不确定性,与之对应的,就是信息。
比如,我说明天地球还会转,这句话就没有多少信息量,因为「地球在转」这是一个一定会发生的事情,概率为 1,我说了这句话不会为这个事件的状态发生任何改变;又比如,我说明天会下雨,这句话就有一定的信息量,因为「下雨」这个事情明天不一定会发生,如果你相信我说的话,那么对于明天是否会下雨这个事情状态的判断,在你这里就发生了改变。
那么怎么衡量呢?香农说可以这么算,假如一个事情他有
种状态,每个状态发生的概率分别是
那么信息熵就是:
对于一个纯随机的事件,各个状态都是等概率出现的,那么就不能带来任何信息,这个时候熵值是最大的(这是个简单的证明题,可以出课后习题哈哈哈);而对于一个确定事件,那么只有某一个状态概率为 1 而其余状态概率为 0,所以这个时候熵最小(就等于 0)。信息的引入,就将系统的熵减小,直到最后为 0,变为完全确定为止。
【语言的熵】
对于一段流来说,怎么算熵呢?
如果我们简单地认为,一个流就是由一些基本元素组成的序列(比如英文文本就是由26个字母加一些符号组成的序列),那么统计一下一段流里面各个基本元素出现的概率,就可以根据上面这个公式计算这段流的熵了,跟一段完全随机的流比起来,这个熵应该是要小一些的。
举几个例子。
比如《哈利波特与死亡圣器》的英文版,我先随便摘取一段:
Harry sat down, took the square parcel she had indicated, and unwrapped it.
Inside was a watch very like the one Mr. and Mrs. Weasley had given Ron for his
it was gold, with stars circling around the race instead of hands. 这段话由 30 个字符组成(26个英文字母+空格+逗号句号分号,英文字母大小写算一个),统计一下每一个字符出现的次数,就能得出这些字符出现的概率,然后代入计算就是了。上面这段话我就不算了(有兴趣可以自己手算一下~),我写了个程序对整本书统计了一下,得到结果是熵值为 4.12,而同样是这本书,中文版的熵值为 8.64
我写的程序(的一部分)在此:
根据一些研究,不同语言的熵值也略有差别[6]:根据一些研究,不同语言的熵值也略有差别[6]:
顺便一提,根据冯志伟[9]的研究,汉字的熵为 9.65。顺便一提,根据冯志伟[9]的研究,汉字的熵为 9.65。
这些语言的熵值都比完全的随机序列要来的小。比如 27 个字符的随机序列熵值为 4.75,32 个字符的随机序列熵值为 5.00。而冯志伟统计的汉字字符数有 12366 个,如果是完全随机的那么汉字的熵将达到 13.59。(对比一下英文版哈7的熵4.12,中文版8.64)说明这些语言并非完全随机的,而是带有一定的信息。
这里我发现一个有意思的现象,这里计算的英文熵值比上面表格列出的来的大一些,说明这本小说文字上的变化比英文总体的平均值要多一些;而中文正好相反,这本小说中文版文字上的变化比中文总体平均来的少一些。
当然不仅仅是中文英文可以拿来计算,我们也可以计算一点别的。比如这么一段字符流:
MSIRGKVALVTGASSGIGAATARKLATEGVVVGLAARRKERLDALAAEITGAGRKAVALPADVTDPASCKAAADALITQFGRIDVLINNAGLMPLSSVDSLRVDEWKRMVDVNISGVLNATAAVLPQMIAQHSGHIFNMSSIAGRKVFAGLAVYCATKAAVTAFSDGLRMEIGPKHNIRVTCIQPGTVKSELYEQITDASYRKQMDDLAASMTYLDGEDIADTILFALKAPSRMDVAELFVLPTEQGW……这是一种醋酸杆菌(acetobacter)的蛋白质序列,当然我拿到的全部序列有 84 万个蛋白质[2][3],这里只列出了一部分。对这个字符流计算信息熵,我得到了他的熵值是 4.12,而我们知道蛋白质一共有 20 种,如果完全是随机排列的,那么熵值应该是 4.32。
=== 补充===
提到计算机语言,那我再举一个例子,比如这样一段字符流:
……这是 windows 的一个系统文件(dinput.dll)的二进制表示(的一部分)。对这个流计算熵,得到 0.91,而随机分布的 0/1 字符的熵值是 1.00。
【语言模型与熵】
到这里,似乎能够回答题主的问题了,至少能够回答我扩展的问题了。用信息熵的方法可以判定一个流所携带的信息的多少。
不过先别忙,作为自然语言,还有他自己的结构。
先来看一个例子。如果我写出一个字母 a 然后让人猜后面是什么字母,那可能性会非常多,比如 b(abandon……大家懂的=___=)比如 t 等等,但是一般来说不太会猜 k(原谅我渣词汇量,一时之间只想到 akin)
如果我继续写字母 ap,那么下一个比较可能是 a,p,等,但是相对来说可能的字母要少了一些,比如 b 就不会去猜了。
如果继续写 app 呢?继续写到 appl 呢?
可以看到,随着我写出的字母增加,随后出现的字母可能性也会减少,也就是说,一个正常的语言里面,单位元素(比如字符、音素等)之间并不是独立的。用严谨的科学语言来说就是,一个语言的流,是不具备马尔科夫性的。这句话什么意思呢?意思是说,语言里面包含的信息,比我们上面计算看到的还要多。
既然不是独立的,那么可以假设后面出现的元素,与前 K 个元素都有关,这就是统计语言模型中的 K 元语言模型。(关于自然语言处理、统计语言模型方面的一些技术和思路,可以参看 Google 的吴军博士的数学之美系列[7][8])
语言流的元素独立与否由什么区别呢?当然是有的,继续举例子。如果我每次从一篇英文文章里随机挑选一个字母,把他们放到一起来组成一篇新的文章,比如这里我生成的这么一段:liy sori.uueeer ImtdT slrrs eg strnpr etnlufbayr f, lrnmreionsnhheehdr i n s"antat Tlaos fgwfbt, Se lle ttle hnshrr euofau t nnitqtfote. bt bhtTlathot.hk,in flann lrnd ,raem xotsieer es,rMnti eniw nm sociohsto plsh,ma .nid.adtpgca hsyahi nfsum tis.agfohieafdceel in n eoyuhsjnYtevCftooyel ahpouoa AocrCa o,s y ceoergpi n ahn,kahH eeedh arasghsrestedvusdr nhjaapo mLsep ryivefrnelg digrthereee deTaoktlisyai heemkora twr c wee vv w narei .tosefth s h ieuweli.ot ineosmea msmp idear aKfatc dnhyeno n aret cunrsooatz e rnnh:eoepnstf t oloo mbo htnliahtnrno chn ebtmair e uopualtntee ., ……是不是看起来也像是某种语言?这篇文章理论上将和原始的文章(没错我就是从哈7的英文版里面抽字母的)有相同的熵值(这个可以想一想,很容易证明),但似乎不太好将他作为一种语言,因为他各个字符之间是独立的,所传递的信息有限。
那么这个思路对我们之前的计算有没有帮助呢?有的,我们不仅仅统计每一个字符出现的概率,我们还可以统计两两出现的字符组合的出现概率,可以统计三三出现的字符组合出现概率,……等等,从而计算出二阶熵值、三阶熵值……等等。如果计算能力足够强大,我们可以计算出无穷阶熵值,这就是某一个语言的「极限熵」了,它衡量了这个语言整体传递和携带信息的能力。从低阶熵到高阶熵的不同分布也代表了某种语言的内在结构(这个说开去又有很多了)。
对于前面的哈利波特与死亡圣器的英文版,我们计算一下它的高阶熵值:
再来看看中文版的:再来看看中文版的:
顺便,根据一些研究[10],英语的极限熵大约为 0.9296 到 1.5604 比特之间,其平均值为 1.245 比特,而汉语的极限熵大约为 5.31(上面的图表是根据一篇文章统计的,不代表语言整体的情况,尤其是对中文这种字符数量极其庞大的语言,高阶熵误差会非常大)顺便,根据一些研究[10],英语的极限熵大约为 0.9296 到 1.5604 比特之间,其平均值为 1.245 比特,而汉语的极限熵大约为 5.31(上面的图表是根据一篇文章统计的,不代表语言整体的情况,尤其是对中文这种字符数量极其庞大的语言,高阶熵误差会非常大)
好了,再来看看刚才提到的随机抽字母组成文章。我仍旧从哈利波特的英文版里面抽取字母,然后统计:
顺便贴一下刚才醋酸杆菌的蛋白质序列的结果:
可以看到,醋酸杆菌蛋白质序列的元素之间基本上是独立的,如果给出了前若干个蛋白质让人猜下一个,大概是不容易猜到的。可以看到,醋酸杆菌蛋白质序列的元素之间基本上是独立的,如果给出了前若干个蛋白质让人猜下一个,大概是不容易猜到的。
=== 补充 ===
既然上面补充了一个计算机语言(机器码)的例子,那这里也统计一下机器码的高阶熵值
看起来,计算机语言(机器码)与人类的自然语言(英语汉语等)似乎更像呢!看起来,计算机语言(机器码)与人类的自然语言(英语汉语等)似乎更像呢!
1. 如果真的给出足够长的流,要判断是不是一种(自然)语言,应该是容易做到的。虽然大概不能 100% 做出肯定的结论,但是给出一个可能性很大的判断是没有问题的。
2. 英语和汉语,虽然从语言结构上来说天差地别,但是从携带信息的角度,二者有一些共同之处;甚至于计算机语言(机器码)与他们也是很相近的。
3. 而生物的蛋白质序列,其元素之间接近于独立。虽然其确实携带并传递了信息,但是与人类的自然语言的结构是相差较远的。
【一些讨论】
现在排名第一的
的答案提出的思路是很对的,利用信息熵来研究流所携带的信息。不过开头部分举的例子不是很合理,尤其是,自相关是无法代替熵值来衡量信息量的。
为什么呢?因为自相关本质上是衡量周期性的,你举的例子里面,声音信号恰好是周期性很强的信号,所以自相关函数有较大的值。但是一个语言的流,并不一定有很强的周期性,相反,那些周期性很强的流很可能不是一个自然语言。
我继续拿哈利波特来做测试,我截取了其中1000个字符,计算自相关结果如下:
是不是和乐透彩票的自相关函数很像?很像就对了,因为英语也不是周期性的流。是不是和乐透彩票的自相关函数很像?很像就对了,因为英语也不是周期性的流。
参考文献:
【知乎用户的回答(12票)】:
这个问题大妙。
各位回答者都提到了语言必须有一定的规律pattern。如果给一段声音,从信号处理的角度我们有可能断定它不是语言。比如白噪音,这样的声音在各个频段都均匀分布,完全不可压缩。所以,一段白噪音不是可能不是语言。
从统计上我们都能从一段信号出某种规律。也就是说这段信号是可压缩的。那么有规律有pattern的信号就能断定是某种语言么?请思考下面这样一个思想实验:
你得到了两串数字
现在我告诉你其中一段是一系列抛硬币实验的的正反面结果(0是正面,1是背面);另一段是一个人像假装随机实验胡乱写下的。请问,你如何区分哪个是真随机数列?
方法:虽然人想伪装随机,会可以均匀写下各处差不多的0和1。但是如果把数列断开三个为一组
010/010/101/011/101/010/011...
统计010,110,001,100,011等模式出现的频率。只有“真随机数列”会在这个模式均匀分布,但人写的伪随机数列可能不能做到让这些模式均匀出现。因为人为了让1和0比例一样,会可以刻意根据前面自己写下的数字来修正将要写下的数字。如果出现超级天才,能刻意修正010,110这些三元数出现的评论,我们就统计,0101四元数模式的频率分布。总之,人是不可能产生“真随机”的
好统计学到此为止,接下来就是哲学了。回到问题,你觉得一个人写下的...随机数列是语言么?这个随机数列也有很明显的模式。比如010出现的频率特别多,你肯能会猜测010是这种语言中的冠词(a,the,an)?
显然,即便这段信号很有规律,没有人觉得这串人为的伪随机数是一种语言。因为,有两个原因,1:信号的发出这没有想通过这段数字传递信息。2:信号的接受者也无法把信号中的统计规律和自己的意义系统联系起来。
语言是信号的一个子集。不是所有规律的信号都是语言。一个信号成为语言必须满足信号源和接受源都能对信号做出对方所期望的反应。鹦鹉学舌不是语言,虽然听者有心,但言者无意。猫叫不是语言,因为言者有意,但听者无心。至于什么是理解一个语言就扯到意义里乱semtics中文屋子什么的,那就是题外话了。
看到有人说语言的本质是什么重复的元素。这个说法是错误的。有重复pattern的信号很多,重复只是语言的一个特征。语言是没有本质的。真正值得我们研究的是智慧体如何使用它。如何使用声音信号以及如何对同类声音信号做出反应。至于语用学我就不懂了。
@matrix67 曾经大力推荐一个小说叫《你一生的故事》,将的就是一个姑娘怎么通过观察外星人的反应和外形交流并学会他们的语言。作者是个cs的phd,而且语言学也颇有功力。感兴趣可看看。
所以,只凭借一段声音是不能判断它是否是语音。因为你观察不到某种文明是如何使用这个信号的。
太困,错字语病明天改,thx
【知乎用户的回答(7票)】:
反对一下第一名的Heinrich关于信息熵的那段论述,概念完全反了好吧……
噪声实际上代表的就是混乱与无序,如果中奖号码可以是任意整数,那么出现某一特定数字的概率为0且所有值出现的概率是相等的,根据香农的信息熵公式
可以算出噪声信号的信息熵为0.
。而包含信息的语言是程某一种规律的,信号中某一值出现的概率为有限大小,且每个数字出现的概率不相等,那么这个信号就是有意义的。
噪声代表的是混乱和无序没错,但是信息熵(entropy)的定义是描述信号的不确定性,也就是信号越不确定,entropy越大。确定信号(比如X恒等于1)的entropy才是0.
对于中奖号码,假设一共有N种组合,每种组合以等概率出现,entropy=logN,而且等概率情形是N种组合的情况下熵最大的情形。
自相关那段解释是make sense的,但是正因为语言的这种强自相关性,它的不确定性(也就是熵)才比噪声要低,而不是高。
【姜元昊的回答(7票)】:
本题的很多答案都错了。只有一种方法:看这段音有没有意义。
如果仅有音本身,再长也无法判断它是不是语音。
语言是一种符号,它有能指所指,或者说得通俗点,它有音有意。我们要判断一段“音”是不是“语音”,必须借助意。
其实创造一门语言很简单的,基本上学过语言学的人有能力干这个事。大爆炸》里的克林贡语就是一门成熟的人造语言,著名的世界语也是人造语言,而且现在有很多人拿世界语当母语。
构造真语言都不难,构建一门假语言更简单。你只需要把一些音按照一定的“构词法”构建很多“词”,然后把这些单词按照一定的“语法”规则组合起来,跟实际的语言听起来没什么区别的,再分析也没用,因为它的“音”、“构词法”和“语法”可以跟真正的语言一模一样,唯一的区别就是这段话没有意义。
举个最简单的例子,我现在把英语里所有的t都换成d,d都换成t,然后录音。你只有根据这段音是否具有意义来判断它是不是语言,而无法通过音本身。
【飞鸟冰河的回答(6票)】:
这个问题有趣。我的回答是:在样本量足够大的情况下,可以确定是否是语言。但难点在于进行后续的整理、分析和逻辑解读。是否是语言,要看其中能否分辨出人类科学可以理解的逻辑。
有一个现成的例子,一部电影,名叫contact《超时空接触》,里面就描述了这样一个情景:从外太空接到大量有规律信号,各种古怪,但确定是智慧生物发回的信息。不过在解读的时候遇到各种困难,最终找到切入角度——三维解读。而外星人在信号中聪明的给出了密钥,是宇宙通用的语言:数学。于是后续情节才可以展开。
因此,这个问题要得到肯定的回答,那就要有如下几个条件
1.信息量足够大,这个貌似题主已经说了,ok
2.找到合适的数据分析角度,先整理,再归纳,各种尝试
3.找到人类科技水平下能够理解的逻辑,比如电影里是这样表达的:1+1=2√,2+2=4√,2+2=5×,于是地球人就理解了,数学逻辑是宇宙通用的。那么这些信息是可以被视作一种语言,尽管我们未必能完全理解。
【曹梦迪的回答(8票)】:
很可能,没有办法。
大家可以回想以下,自己是否曾经遇到过那种“口音太重,根本听不懂他在说什么”的情况呢?那么如果以字正腔圆的中央台播音员说的话为标准,那么口音很重的所说的话是不是汉语?你可能要说是,那么假如这个口音很重的人现在跟你开个玩笑,在一段他的“汉语”之中夹杂一小段没有意义的声音,你是否能听出来?答案是:听懂的人能听出来,听不懂的人完全听不出来。口音如同加密,“能听懂”仿佛掌握了密钥,能够随时解密出原文;但对听不懂的人来说,又好像是乱码,完全没有规律。拿到密钥之前,人都觉得“这都神马玩意儿啊!”,但是拿到密钥之后,人又觉得“这不很明显吗?”。
给大家直观地看一个“拿到密钥”之前和之后的例子。先看这三幅图:
图中分别是什么东西?图中分别是什么东西?
(怎么样?一头雾水吧?再多看一会儿试试?)
(怎么样?)
(还不确定?要不要再看看?)
(再看看?)
(有确定的答案了?)
(还改不?)
放弃了?现在把密钥给你:
你只需要大概扫几眼,再翻回去看之前的图,现在是不是觉得答案很明显了?
【Hagnesta的回答(3票)】:
按照我的理解,题主想问的应该是自然语言[1],所以我对原题提交了修改。
我认为目前最高票答案只是给出了利用信号自相关性判断这段音频是不是噪声,是否包含信息,没有针对问题。
%%%%%%%---------------开始答题---------------%%%%%%%%%%%%%%%
针对原题,能否实现判断这段声音实不是自然语言,答案如下:
理论上完全可行,已经部分实现
现代的自然语言处理 (Natural languageprocessing)[2]是的一种机器学习,是人工智能的组成部分之一。 最广泛应用的就是语音识别 (SpeechRecognition)[3],语音识别的原理请首先参看。(已经邀请这位专业人士 来答题,不知道这样@ 能不能表明诚意啊)
大概读懂上面那个问题之后,可以继续往下看,语音有两个重要组成部分。
第一,算法
随机信号处理和模式识别是基础,当然往深的说应该是综合性的交叉学科---机器学习
除了那篇答案提到的基于隐含马尔可夫模型(Hidden Markov Model)的主流方法,最近基于80年代神经网络的深度学习(Deep Learning)也是一个热门[4],谷歌的语音识别得以大幅提高也归功于拢集了大量的深度学习方面的专家。
不过,针对本题,算法不是实现难点,且答主入门尚浅,就再深入讨论现眼了。往下看
第二,音素集(Pronouncing Dictionary)语料库(Text Corpus)
语料库用以建立HMM,音素集用于对比寻找到对应的可能性最大的单词。
按照自然语言的定义,世界上有多少种语言?
那列表中的语言都应该包含在自然语言范围之内,要想实现判断一段音频是不是自然语言,首先需要假设这段音频中包含自然语言信息,且不知道自然语言的种类或者可能范围。然后运用算法对照所有可能的自然语言,若包含自然语言信息,那通过语音识别就能得出对应的算法中概率最大的文本。由此可以判断音频包含自然语言。反之,若未找到
识别过程要调用所有自然语言的语料库和音素库,对于尚未建立的语料库和音素集更需要语言学家投入时间和精力,且有些非广泛使用的语言是否需要建立对应的database也是有待讨论的。以Siri为例,现在支持的语言种类,英法德意日西中韩[5],还不是所有语种,且识别是在指定语言的情况下进行的,这样就降低了识别的难度和成本。在未知语种的情况下进行识别,准确度和识别速度就是很大问题了。现有的语音识别系统对猫狗等动物发出的声音(看作是动物语言)和环境噪声不作出响应或者判断为无效输入,这点其实已经实现了部分功能。为什么说是部分功能呢,因为你找一个说着非洲部落语言的土著人来试试,肯定识别不出来,但人家说的也是自然语言啊。
%%%%%---------------回答部分结束------------------%%%%%%%%%%
个人对本题看法,在交互的过程中,机器人能够对非自然语言(环境噪声,动物的语言等等)和自然语言进行判别,即对非自然语言不响应,同时准确识别任何一种自然语言的信息与人类进行交流,所以这个问题也正是人工智能领域的未来需要解决的。
我只是准备在此领域写研究生论文的在读硕士一名 ,欢迎建议意见以及真诚讨论,望轻喷。
[3] (此条目的德文为优秀条目 )
【知乎用户的回答(5票)】:
不会写很难得答案,简单写一写吧。
1、一段语音太短,要判断是否是语言,必须要有足够多的语料。
2、教科书一般定义,语言是人类特有的。动物之间交流的声音之类不算语言。这是人与动物的根本区别之一。
3、语言必须内含信息。
4、语言必须有规律、成系统。这点动物就做不到。你能想象动物的叫声能分动词、名词,主动句、被动句吗?最基本的,动物的某段声音里,无法分出基本结构单位,分不出哪些音算是一个字或词。他们的某个叫声无法稳定、有规律、成系统的代表一个意思。
5、语言是人类特有的,但不是人随便说什么就是语言。失语症的人也能说话,有些也能说些简单的词语句子。但是无法像正常人一样用语法、语义组织语言,与其他人交流。
3、一般对于非母语,人类语言,比如母语是汉语的人到了一个陌生的岛上,听见很多陌生人在说话,怎么去分析他们的语言?用层次分析法。比如对方说了一句话。我们把这句话想象成一条绳子,每一个字词都按顺序依次排列在绳子上,我们对这句话的意思进行理解,然后推测哪些音对应哪些意义,再对句法进行分析。这种过程就像把绳子切成更小的一段段,更深层的去分析那小段段,再分析为什么这段小绳子排在这个位置,那一段排在那个位置。
------------------------------------------------------------
具体过程如下:
1、拿到更多的语音材料。
2、判断是否是动物还是人类。如果是人类则继续。
3、分析你手里的那段声音(简称句子a),是否能根据停顿、语气等,分出小单位。比如我们说“你好”,就是两个音节。
4、从更多的语音材料里找,句子a里的音节是不是经常出现。精确音节的划分。
5、找出句子a的意义。
6、把句子a像绳子一样切成一段段。
7、分析句子a的语法,如何组词成句的。找到基本的语法规律。
8、查看其他语料是否也是通过这种语法规律组成的。
9.以上都是,则为语言。
【赵晗的回答(2票)】:
题主其实是大神,说一下自己的理解,请您轻拍
我的结论是:任何有规律有意义的声音(信号)都可以被理解成语言,但是究竟是不是语言。不由声音本身决定而是取决于这段声音是否是由声音制造者主观产生并用来表达一定含义。
关于语言的定义很多很多,既然是语言,那么一定会表达出一个意思。而这个语言的载体自然是有规律的可循的。我们知道声音是一种波动,总可以被分解为不同频率不同强度的正弦波的叠加。如果用声音作为载体表示语言,那么这段声音必然在频率和振幅上有规律(对于声音的理解不深希望指正)。而对于完备的语言,要通过若干音的组合表达各种各样的意思,必然会形成比较复杂的发音体系,词汇结构,语法规则。因为这种复杂的规律难以快速识别和准确掌握,所以当我们第一次听陌生的语言,会觉得像是在听鸟语。
【TonyFang的回答(2票)】:
的答案很受启发,特感谢一下。
看到了各位的答案突然注意到体主提到的足够长,本人通信小硕。在通信的信号检测中有一种方式就是循环平稳检测,其原理就是所有的信息一定是有一定周期的,在足够长的时间内,所以在认知无线电中可以利用这个原理检测是否有用户的存在。(这个其实不是我的研究内容,所以应该讲的不太严谨)
所以同样的,在足够长的声音里,利用循环平稳检测,也就是能够检测到一平稳信号,那么一定是存在用户的,也就是说,这显然是一种交流方式——语言。
【詹健宇的回答(1票)】:
看到题主自己的答案,其实题主很明白问题的核心了。语言有模式,即语言可以被形式化地定义,所以
基于题主给的声音足够长这个条件,识别出是语言是没问题的,但是,要正确解读出这段语言"搭载"的信息,即外星人所要表达的意思,恐怕光有这段声音是不够的。
数学中抽象出"语言"这个概念的核心。那就是
1.给定元素个数可数的"字母表"。
2.给定组成"单词"的构词法,同样,法则条数要可数。
3.给定基本的"句子",还有可数个"句子"生成法则。
举个例子。
1.26个阿拉伯字母(有限个数的字母表)。
2.有限个数的字母相连即是单词(有限条数的构词规则,一条)。
3.①每个单词就是一个句子②单词+谓词(字母个数长度为37的单词)+单词 也是合法句子③句子+逗号(,)+句子 也是合法句子(①是基本的句子,后两条是生成法则)。
用这个例子,我们就造出和英语相似的一个"语言"!
至于这个语言的意义,我们还没附加,比如我们把每个单词映射为现实中一个食物,谓词映射为"融化"这个动作。那么,我们就给"语言"赋予了意义。当然,我举的这个意义很无趣,你可以发挥想象。重要的是,意义是附加的,非本质于语言这个观点。
有了上面的铺垫,可以回答题主问题了。
地球人收到这段语音,以什么形式呢?不重要,但很可能是一段外星人精心调制的电磁波。
地球人收到后,会把电磁波转换为他们的理解的一种形式,比如,二进制。
现在,地球人面对足够长的一段二进制序列。足够长非常非常重要,因为,只要基于统计学上的统计分析,就发现其中蕴含固定序列(大样本更利于显现出模式,就是这么个简单的道理),并且序列中具有某些固定的小粒度的组合。
那么,地球人中的数学家会把这些小粒度的组合定义为"单词",有了他们"单词",他们能分析出"单词"的组合原则,即构句(同样基于大样本易于显现模式这个道理)。
总之,地球人最后成功从中捣鼓出一种语言的构造方法,并且那就是外星人所使用的语言(当然,地球人用字母表,外星人用的字母表可能是化学元素orz...)。
现在,地球人要分析这语言中要表达的含义。但可惜,含义不是本质的,这段单纯的语音无法胜任解读含义这个任务。必须求助于这个"系统"外的信息,来辅助解读。地球人自以为这段语音就表示这个意思,但天知道外星人想表达的是意义自恰的合乎他们逻辑的另一种意思。
所以,外星人还必须增加一些信息,比如一个外星球模型,上面印有“外星”这个单词的电磁波形(假设他们有视觉?▂?),等等等等。
【章彦博的回答(2票)】:
越来越觉得,这个问题,问的不妥,且自问自答一篇。
语言至少要包含以下几点:
1.首先,语言要传递信息;
2.语言要具有模式;
3.语言要能被理解。
其实,第二点是包含在第一点中的。这里单独提出来,是因为,模式很重要。
做了这些思考之后,愈发觉得问得不妥。
比如自然科学的研究,便是从「现象」中发现模式,用模式理解自然。
举个生活中的例子,如果我们不懂围棋,便很难理解那黑白之物,到底在做什么,有什么意义。但,实际上,他们在对弈,在交战,可以看做一种语言。
我本不想用这种看似有些「禅意」的文字来回答,可是,左思右想,它似乎本来就是这样。
【知乎用户的回答(0票)】:
有意思的问题!
不过问题本身有一些缺陷。“定量”是个什么概念?判断指的是由人来判断还是由机器来判断?
如果由人来判断,将是一个很主观的过程,很大程度上基于听到这段声音的个人的经验,而且很显然人不可能“定量”的去判断声音这种事物。这里假定题主所说的是机器。
不论这段声音是声波还是电磁波,都一定会有噪音和干扰,还会有强度变化,因此直接根据声音来判断是否语言是比较困难的。相对来说,根据文字或编码判断其是否是语言比声音要容易。如果把这段声波或电磁波通过处理转换成文字或编码,就能够变得相对容易。
接下来的工作就是寻找模式了,也就是说重复的文字和结构,也就是词汇和语法。如果没有用于交流,最终得到的结果只能是一个概率判断,如果题目中的“定量”指的是断定其为一种语言,还是不大可能。毕竟,在打字机上随机打字足够长的时间,也有可能打出莎士比亚的名著出来。
【佟旭鹏的回答(0票)】:
在这段声音足够长的情况下,先用机器学习中的分类算法处理,分别分析熵值,自然语言的熵一般在一个特定的范围内。
【饕餮貅的回答(0票)】:
语言是怎么组成的?
语言结构有两层。第一层是语音和语义层面,它们组合成词汇。 第二层是词汇和语法层面,组合基本单位(词汇)和组合规则(语法)构成所谓的语言。
所以,要判断一段声音是不是语言,从听觉上面来说,它首先要可以被认为是由多个基本单位组成的,即它当中有词汇。判断标准是: 是否有停顿、明显的语音变化和重复。
第二,它要显示出一定的组合规则,表示它是按一定语法规则排列出的语音。比如一些音会多次出现,但是音短而模糊,就可能是虚词(汉语语法)或者介词(英语语法)在起着表示语法的作用。
【知乎用户的回答(0票)】:
语音技术领域有一个技术叫language identification or recognition 原文地址:
馆藏&70438
TA的推荐TA的最新馆藏
喜欢该文的人也喜欢

我要回帖

更多关于 惠氏3段怎么样 的文章

 

随机推荐