【赏析】计算机状态下的语言学问题 ——读《传神的汉字》
摘要:两手都要硬--科学与马克思主义
传神的汉字——中国对世界最杰出的第五大发明。
修改为:
1、传神的汉字——中国对世界杰出的第五大发明。
评注:逻辑错误:“第五大发明”是惟一的——难道同时存在“最杰出”“次杰出”的第五大发明——如果“中国对世界最杰出的第五大发明”为真,那么,第一、第二、第三、第四大发明,当属什么杰出?
作者的原意:传神的汉字——中国对世界最杰出的发明:第五大发明。
2、文字作为人类文明的标志,代表着不同民族的思维方式和发展水平。作为国际语言,必须用意符而不能用音符,因为语言千差万别,而超越语言障碍的表意符号、表意文字将容易为全人类所接受,因此越来越多的目光投向了汉字,因为汉字是全球唯一存在的符号文字。
评注:正确而规范的说法是:文字(的出现)作为人类文明(开始)的标志,(以文字——包括发音——为载体、媒介的语言(体现)着不同(发展水平)民族的思维与交流方式及其水平。
作者在文字与语言,意符与表意,音符与发音面前转昏了头;也不知道该是推荐汉字还是汉语,作为国际文字,还是国际语言。
人类开始的标志,是语言——一些简单口语的经常出现和使用——意味着思维与交流;文明开始的标志,是一些文字的经常出现和使用——意味着思维与交流的进步、劳动进步与财富的增加——私有制与阶级的出现。
一切民族,在它的幼年阶段——氏族、部落、部落联盟时期,毫无例外,均是简单的象形文字。
象形文字(Hieroglyphic)来自于图画文字,是一种最原始的造字方法,图画性质减弱,象征性质增强。因为有些实体事物和抽象事物是画不出来的,它的局限性很大。埃及的象形文字、苏美尔文、古印度文以及中国的甲骨文,都是独立地从原始社会最简单的图画和花纹产生出来的。约5000年前,古埃及人发明了象形文字。这种字写起来既慢又很难看懂。随着时光的流逝,最终连埃及人自己也忘记了如何释译。后来经过法国人的诠释,才辩认出这种文字。
中国纳西族所采用的东巴文和水族的水书,是现存世上唯一仍在使用的象形文字系统。
他山之石——文字•语言•作品
将莫言获奖,定义为“方块字写作的胜利”,就像将西门庆淫乱,定义为“黄种人性功能出众”一样——况且,“方块字”仅是“汉字”的形态——汉语的书写形态;“表意”,才是汉字的“本质特征”!
因此,语言学界将英文——注意,不是英语,即英语的书写形式,定义为拼音文字——注意,不是“拼音语言”;将汉字等,定义为“表意文字”——注意,不是“表意语言”!
从本质上说,莫言的作品,是“汉语”,而不是“汉字”。
上面是我对自己作品的一则涉及“方块字”的文学评论。
由于对美文,对情感,对生活的敬畏,总是把自己的习作,定格为“文字”。
但是作为规范的文学评论,有权威把莫言的作品获奖,定义为“方块字”的胜利,而不是定义为“表意文字”即汉语(写作形态)的成功,说明了所谓大师的“文化功底”。
简单地说,莫言的作品,是语言,而不是文字——无论是写作、评论或欣赏。
一般而言,无论是分析什么,都要抓住它的最高层次或本质。莫言的作品,是语言的作品,而不是文字的作品!
莫言因《红高粱》得奖,《红高粱》因张艺谋得奖。
世界语是波兰籍犹太人柴门霍夫博士(L•L•Zamenhof)1888年在印欧语系的基础上创立的一种国际辅助语,旨在消除国际交往的语言障碍,被誉为“国际普通话”。后人根据柴门霍夫公布这种语言方案时所用笔名“DoktoroEsperanto”(意为“希望者博士”),称这种语言为“Esperanto”。
20世纪初,当世界语刚传入中国时,有人曾把它音译为“爱死不难读”语,也有叫“万国新语”。后来,有人借用日本人的意译名称“世界语”,并一直沿用至今。
世界语是在印欧语系的基础上,创造出来的一种人造语,共有二十八个字母,书写形式采用拉丁字母,一个字母只发一个音,每个字母的音值始终不变,也没有不发音的字母,语音和书写完全一致。每个词的重音固定在倒数第二个音节上。学会了二十八个字母和掌握了拼音规则,就可以读出和写出任何一个单词。世界语基本词汇的词根,大部分来自印欧语系的各自然语言。其中大部分来自拉丁语族,少部分来自日耳曼语族和斯拉夫语族。世界语的语法是在印欧语系的基础上加以提炼的,其基本规则只有十六条,因此比较容易掌握。世界语从1905年起开始传入我国。
石器的打制、使用,火,因而肉食、熟食,一些简单呼唤、交流、交代——口语语言的不时说出,意味着人类的出现。不是工具的使用,而是工具的制造,有实质性的、决定性的意义——猴开摩的、狗玩电脑,都算不上人。
有一个实验——笼子里有一根长棍,一根短棍,一条绳子。扔一根香蕉在笼外不远,用短棍捞过来吃;再扔远一点,用长棍;再扔远一点,就是没想到用绳子——至始至终没动绳子。
劳动创造说:语言的起源必须具备三方面条件:①人类的思维能力要发展一定的水平。人类的思维能力要发展到一定水平,应该能够对客观世界的事物进行分类和概括,并具有一定的记忆和想象、判断和推理的能力,只有具备了这种心理条件,才有可能产生语言。②人类要具备一定的生理条件。人类的喉头和口腔声道必须进化到能够发出清晰的声音,才有可能产生有声语言。③人类社会有了产生语言的必要。人类社会的发展必须到“彼此间有些什么非说不可的地步了”,具备了这样的社会条件,才有必要产生语言。语言起源的这三个必要条件缺一不可,而创造这三个条件的是人类的劳动。
恩格斯关于语言起源的观点:恩格斯说:“语言是从劳动中并和劳动一起产生的……”劳动提出了产生语言的社会需要;为语言的产生提供了心理和生理上的条件。劳动也改善了原始人的发音器官,为语言的产生提供了必要的生理条件。
应该说,恩格斯对语言起源问题的论述已经相当全面了。
再次重申:人类开始的文化标志,是语言——一些简单口语的经常出现和使用——意味着思维与交流;文明开始的标志,是一些文字的经常出现和使用——意味着思维与交流的进步、劳动进步与财富的增加——私有制与阶级的出现。
由于作者不是太懂汉语以至汉字的结构、特征、功用,不是太清楚汉语以至汉字的发生、发展,甚至必定消亡的过程及条件,不是太了解汉语以至汉字的自然科学的结构、特征、功用,对计算机及其多媒体(包括软件)的结构、特征、功用一知半解,对马克思主义经典作家关于语言独到的、开创性的科学见解浑浑噩噩,对“辛亥革命”“五•四”以来,特别是新中国成立到89年,从古汉字、古汉语到现代汉字、现代汉语——已开始涉及计算机汉字、计算机汉语,多媒体输入——的新陈代谢、伟大进步,充耳不闻,以为汉字就是“意符”,而不包括声音——在任何实际生活和交流中,我们都是在通过汉字而使用汉语;误以为“表意”就是“象形”。
前面已经说过,1、任何语言的童年,它的文字,都是象形的;2、文字和语言是不可分离的从属关系,分别具有从属的自然科学、社会科学的内涵和形态;3、新生的世界语,既是一种文字——源于并高于印欧语系的拼音文字,更是一种语言——源于并高于印欧语系的语法、词根。
作者说:……人们开始寻求一种能全球通用的文字。作为国际语言,必须用意符而不能用音符……
作者由于混淆了文字与语言,割裂了意符与音符,异想天开地幻想将汉字从其母体汉语中剥离,将表意文字都退为象形文字,去充当什么“国际语言”,实属奇谈怪论、伪命题!
作者将荒诞变为现实,必须实现人类文化史上的一个战略崩溃,一个战略幻想:1、将独树一帜的表意文字大扫荡,把“人”字削为“猴”字。2、假想全世界的人都先学会汉字——不然则,地球人会疯的——实际上,中国人,包括作者,在纯粹“象形”的世界,过不了多久,都会疯!
汉字种类有象形字、指事字、会意字、形声字、(还有转注字和假借字)——下面以最具象形性的甲骨文为例:
甲骨文又称契文、龟甲文或龟甲兽骨文,是一种很重要的古汉字资料。在甲骨文中,“华”这个字具有非常崇高的地位。在总共10余万片有字甲骨中,含有4千多不同的文字图形,其中已经识别的约有2500多字。甲骨文中形声字约占27%,可见甲骨文已是相当成熟的文字系统。从殷商的甲骨文看来,当时的汉字已经发展成为能够完整记载汉语的文字体系了。
在已发现的殷墟甲骨文里,出现的单字数量已达4000左右。其中既有大量指事字、象形字、会意字,也有很多形声字。这些文字和我们如今使用的文字,在外形上有巨大的区别。但是从构字方法来看,二者基本上是一致的。就是说,愈是象形,愈难辨认!
作者说:汉字所独有的图形特征、智能化倾向和视听识别的优越性,将表现出更强大的生命力。我们说:1、a.任何语言的童年,它的文字,都是象形的;b.愈是象形,愈是原始、简陋;c.愈是象形,愈难辨认。2、汉字因为是“方块”字——象形字、指事字、会意字、形声字、(还有转注字和假借字)——确实具有“智能化倾向”。但是,由于汉字是需要淘汰的文字,所以它的“智能化倾向”,此时,就是多余的了——实际上,我们更需要语法结构的智能化倾向”。3、所谓“视听识别的优越性”,其实是“语音识别的优越性”,由于作者不是太懂语言文字、自然科学、计算机科学,所以作者没有展开谈。
下面朝花夕拾,谈谈我在80年代开始对这些方面的学习与思考——汉字与诗歌、自然科学、计算机。字•语言•文学•科学•革命——
我所喜欢的,也是仅记得的二首外国诗歌,就是匈牙利诗人裴多菲的《我愿是激流……》《生命诚可贵》。我想,这二首诗可以翻译得这么好,大概是因为匈牙利语比其它拼音文字,更接近汉语如:1、很少辅音连读现象(辅音发达);2、元音和谐,重音都在第一音节;3、构词比较简洁规范(语调错落有致)。
匈牙利人的祖先,有的就是被汉武帝打过去的东突厥人;另外,在近代,与汉语有或多或少联系的土耳其人,曾统治过匈牙利。
由于拼音文字先天不足或其特点,造成:1、无法构造类似于汉语诗歌那样的典型的几何美;2、由于许多拼音文字的不少单词,具有a.有的辅音在后;b.辅音连读的特点,使得2、无法构造类似于汉语诗歌那样的典型的音韵美;由于英语、意大利语等,都是文艺复兴、近代资本主义发展的新生产物,在当时,词汇贫乏,构词无方,使得3、无法构造类似于汉语诗歌那样的典型的意境美、修饰美,如回环、双关、借对等……
拼音文字语法,重在词法,又不是相对固定的单音节、双音节,多有长短不一的后缀,或者干脆,另造长短不一的字母组合;汉语语法,重在句法,语意的变动,几乎与词汇无关——精心装修,房型不变。
现代汉语的语音特点是什么?
1、每一音节都有声调,声、韵、调是汉语音节的三要素,其中,声调是音节的标志。外语的音节通常以元音为标志,两个元音就是两个音节。汉语的复韵母即使两个元音(好hǎo)或三个元音(教jiào)也是一个音节。2、辅音以清辅音为主,浊辅音只有m、l、r,没有复辅音。英语等外语有浊辅音和复辅音;古代汉语也曾存在过复辅音;现代汉语没有复辅音。3、元音是汉语音节结构的核心,任一音节必有韵母,任一韵母必有一个或一个以上的元音。元音属于乐音,辅音属于噪音。现代汉语以清辅音为主,清辅音声带不振动,所以,音节中噪音少而乐音多。4、有“阴、阳、上、去”四个声调,没有入声。
古代汉语和近代汉语都有入声。古代入声音节在现代汉语中分别归并平、上、去三个声调中。有些方言仍然保留入声声调。
汉语虽有多音节词,却只有单音节字,且一字一音节;汉语,特别是现代汉语,属乐音,杂音少,音界分明,便于计算机语音识别和输入。现代汉语,已成功实施了语音输入——对于标准普通话,正确率达到90%。
现代汉语计算机输入的一个麻烦,是1、同音字多;2、四声区分——综合使用“词”输入法,对于标准普通话,正确率达到95%。
表音文字属于杂音,至今没有成熟的计算机输入——无论是硬件,还是软件,都困难。
引用:汉字还有个最大的功劳,就是维持多民族的认同问题……
改错:汉(语)还有个(很)大的功劳,就是维持多民族的(思维与交流)认同问题……
引用:中华帝国五千年不分裂的问题……
改错:中华(民族)五千年不分裂的问题……
斯大林说,民族就是:“人们在历史上形成的一个有共同语言,共同地域,共同经济生活以及表现在共同文化上的共同心理素质的稳定的共同体。”并且“只有一切特征都具备时才算是一个民族”。现在的这个翻译,无论是语法上,逻辑上,都是不妥的。
我的记忆或理解是:民族就是:“人们在历史上形成的一个有共同语言、共同地域、统一的国内市场、以及由此而产生的表现在共同精神文化认知上的共同心理素质的稳定的共同体。”后面的,也是文“哥”中的翻译,是经典的,也是准确的:1、不是一般的“共同经济生活”——因为任何发展时期的国家居民,都不可避免地,实际生活在一起——首先是经济生活——而且是具有“统一的国内市场”——这是近代资本主义才产生的经济条件——历史事实。2、“共同文化上的共同心理素质”是次生的、从属的条件——历史唯物主义:(由此而产生的)表现在共同精神文化认知上的共同心理素质的稳定的共同体”。
再次引用与质疑:
引用:汉字还有个最大的功劳,就是维持多民族的认同问题……
疑问:汉(语)还有个(很)大的功劳,就是(促进和)维持多民族的认同、(融和与统一的)问题……
引用:中华帝国五千年不分裂的问题……
疑问:中华(民族)五千年不分裂的问题……哪个的中华帝国?大元还是大清帝国?在作者的民族沙文主义唯心史观的词典里,恐怕还是大汉族的皇权帝国吧?
中华民族的历史,是一部不断融合,又纷争不断的血泪史、幸福史——超过三分之二的时间,处于民族融合或国家分裂的血腥状态!
注意,“民族融合”和“国家分裂”——很多时候,国家分裂,民族并没有分裂,如三国,南北朝。
国家,产生于一切原始社会的末期,是私有制的产物;民族,一般地来说,产生于封建社会的末期,是市场经济的产物——中国比较特殊:中国有着比较发达的古代农业、手工业,城镇和集市,有着比较发达的古代文化,秦汉以来,大力推行书同文,车同轨,统一度量衡……因此,很多时候,国家是分裂的,而民族并没有分裂。
国家的分裂,更多的,表现在国家机器的分裂,统治阶级的分裂;而经济生活、人民交往,还在不停地进行——民族更稳定些。
一切文字,包括表意文字——象形,只是它的草创;和拼音文字——象形,也是它的草创——都是生活、思想、交流的工具,都是民族融合的工具。
汉字激光照排系统是上世纪80年代开始推广应用的新技术。其特点是高倍率汉字信息压缩技术、高速度还原技术和不失真的文字变倍技术。
汉字激光照排系统是由王选主持的一项划时代发明,是我国自主创新的典型代表。它的产业化和应用,废除了我国沿用数百年的铅字印刷。激光照排系统的研制过程经历了种种困难,包括国内和国外、技术和社会多方面的因素。王选凭着非凡的毅力和对创新的执著,带领研发团队,克服重重困难,使中文 印刷业 告别了"铅与火",大步跨进"光与电"的时代。
汉字字形是由以数字信息构成的点阵形式表示的,汉字字体、字数比西方字母多,如一个一号字要由八万多个点组成。因此全部汉字字模的数字化存贮量高得惊人。研制人员发明了一种字形信息压缩和快速复原技术,使存贮量减少到五百万分之一,速度大大加快。这一构思新颖的高分辨率字形、图形发生器和高速字形复原方法,解决了汉字激光照排的关键难题。
“华光”激光照排系统的研制工作始于1974年8月。1975年5月北京大学汉字信息处理研究室,由 王选 教授等主持工作,综合运用精深的数学、计算机等多学科知识,历经15个寒暑,研制开发成功“华光激光照排系统”,为世界上最浩繁的文字──汉字告别铅字印刷开辟了通畅大道。对实现中国新闻出版印刷领域的现代化具有重大意义。它引起当代世界印刷界的惊叹,被誉为中国印刷技术的再次革命。
2002年2月1日,王选教授荣获2001年度国家最高科学技术奖 。
国家是个纲,纲举目张。
王选教授是站在矛盾时代所开创的现代汉语普通话的康庄大道上来改造现代汉语的传播传播--没有矛盾时代简化.归并、规范汉字的笔画.顺序.偏旁,面对数以10万字计的乱麻一样的汉字,王选教授就会在阴霾中陷于无边无际的沼泽--何况,王选教授们都是那个时代培养的新一代;在那个时代的感召下齐心干四化,才有划时代的丰功伟绩。
不仅如此,由于现代汉语普通话的改良.改革.改造,还同时包括汉字注音读音的拼音化方案,使得后来的汉字.汉语的计算机“五笔输入法”、“拼音输入法”在56个民族、不同方言区,迅速.大规模成功推广,极大地提高了全民族的科学文化水平--王选教授们,王选教授们的“汉字激光照排系统”,只不过是伟大时代的伟大儿子,伟大种子。
还不仅如此,由于汉字汉语普通话的规范性、逻辑性,使得汉字汉语普通话的计算机多媒体输入输出,早早地走到了世界其它所有语言文字的前头--好像所有其它的语言文字的语音计算机合成和识别,都没有成熟的可以实用产品或运用--譬如,大家耳熟能详的汉语普通话车载导航语音系统,所有的外国都还没有入门--矛盾时代国家干四化,是可以大有作为的。
AIGC 央视走来丑小鸭
https://content-static.cctvnews.cctv.com/snow-book/index.html?t=1677803689017&toc_style_id=feeds_default&share_to=copy_url&track_id=CD315031-F837-48AB-84FB-DE1015FA1390_699498413898&item_id=4756029872316919358
上面是刚刚今年3.3二会【央视新闻客户端】新闻述评链接:
《开局之年“hui”蓝图丨未来农业什么样?AIGC带你看来自“天涯海角”的新种子》
看看节目组组成,不算“鸣谢”方,包括责任编辑,人工智能18个子系统、更多的系统成员组成--无论是系统成员数量,还是子系统数量,都要远远复杂于的人工采访和其制作组--这恰恰说明了我国(最)高端人工智人短视频平台AIGC还在学习中,刚刚起步。
这个AIGC,除了简单的人工语音合成、简单的图片图像合成外,还有简单的“匀速”对口型--所有的摄影场景、人物、语音都是传统的真实视频音频,包括摄影、AIGC视效、音编、数字人导演、剪辑、制片等等,没有一个机器人的影子--我国的人工智人还在“制种”中…
值得注意的是,这篇AIGC的制作,无论是语音合成还是图片处理,就是比起国内正在商业运作的相关软件来说,也还是挺幼稚的:
估计这个系统基本上采用基于PSOLA方法的时域波形拼接技术,其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其它语种的文语转换系统一样,这些系统合成的句子及篇章语音机器味较浓,一字一钢豆,很难听,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术的大规模进入市场;还有就是,这个AIGC只不过是简单的卡通人物纯电子语音、电子图片而已,谈不上最起码的随机应变----没有一点人工智人(ChatGPT)的影子。
当然,恰恰是这个幼嫩的卡通人物的视频、音频及其合成,是AIGC参入制作或是借助AIGC的。
在我国最高端的数字互联网新媒体,进行着最高端的人工智人AIGC制作传播,不说是节目组的全体成员,特别是节目组负责人,也应该是文理通才--至少也应该是T型人才。
1998年中国科技大学在国家863 计划和国家自然科学基金委支持下,研制成功KD-863汉语文语转换系统。
和采用国内外流行的PSOLA技术的系统相比,在输出语音的音质和自然度上有了突破性的提高。KD-863采用了一种全新的基于语音数据库的语音合成方法, 该技术的基本思想是将实际语流中汉语音节千变万化的音变进行听感上的量化归并,设计出多样本的汉语语音基元库,这个库蕴涵了汉语韵律变化信息,合成时只要通过对基元库样本的选取便可实现韵律控制。同时语音基元库中的样本是直接从自然语音中截取,避免了采用信号处理技术获取音变单元对音质的损害,因而合成语音具有接近自然语音的音质。
KD-863文语转换系统一经推出,就因其合成语音的高清晰度与高自然度引起了社会各方的重视。先后应用于为深圳华为技术公司设计的“114自动电话报号系统”,和为国家工商总局设计的“工商企业语音(传真)查询系统”。使得汉语语音合成技术走出实验室,向市场应用迈出了重要的一步。
KD-863系统参加了在1998年4月国家科委组织的全国汉语语音合成系统的性能评测,其输出语音的自然度居同类系统之首,是唯一达到用户可以接受程度的系统。KD-863还在日本,新加坡,香港的有关研究所和大学进行过演示,均得到了有关方面专家的认同。
最近中国科技大学又推出了KD-2000汉语文语转换系统,不仅在语音合成技术方面有进一步的发展,特别是在文本预处理中围绕层次化结构思想,运用大量的统计和规则的方法,较好地解决了三个大的处理环节:特殊符号处理,分词处理和拼接处理,使得汉语文语转换系统的整体性能有很大提高。以KD-2000文语转换为核心的“畅言2000”智能汉语平台软件已开始进入市场。
可喜的是,这篇AIGC,截至我刚刚写到这里的时候,浏览量1198313--大家都在关注中国的AIGC事业。
共5768字上一页1/2▼下一页
【编者按】正如作者在本文中所述的那样,文学是语言艺术的文学,不是文字艺术的文学。文章就汉民族语言文字系统曾经出现过的一些混乱认识进行了矫枉过正,把汉字和汉语的定义进一步明确固定下来,以促进我们正确认识和使用汉字汉语言,更好地为人类服务。在正确认识汉语言文字过程中,首先应当弄清指事字、象形字、会意字和形声字。弄清了汉语言文字怕本源后,才能正确地表达自己的意愿,包括文学思想。文章针对《传神的汉字》一书展开比较专业的评析,帮助我们弄懂了计算机状态下的汉语言文字问题,很有意思的赏析作品,推荐赏阅。【编辑:湖北武戈】
用户名:密 码: *先登录才能评论
1楼 文友:湖北武戈 2018-06-05 15:46:15
很有意思的作品赏析,值得一读,学习了,问候作者。