您好,欢迎来到锐游网。
搜索
您的当前位置:首页自然语言处理的发展历史与现状

自然语言处理的发展历史与现状

来源:锐游网
I科技创新Technological progress摘要:自然语言的理解与生成一直是人工智能的一个研究领域。但由于语言文本、对话各个层面上的歧义性,自然语言处理的发展层层受阻。文章聚焦自然语言处理的发展历史,将其分为三个阶段:萌芽期、发展期和繁荣期,同时指出在不同的发展阶段,自然语言处理的侧重点、技术基础都有所差异,而两个主要“派别”符号派和随即派的贡献也各有千秋。关键词:自然语言处理;历史;符号派;随机派文章编号:2096-4137(2019)03-064-03 DOI:10.13535/j.cnki.10-1507/n.2019.03.08■ 文/宋一凡自然语言处理的发展历史与现状

0 引言

自然语言通常是指一种自然地随文化演化的语言。从更深的层次解释,自然语言是指以语音为物质外壳,由词汇和语法两部分组成的符号系统。早在几千年前,人类社会就已经出现了书面形式的自然语言,随着其在不同地域、不同文化中的发展,逐渐演变成了各式各样的形态。有专家认为,自然语言对人类思维与交流的影响和作用往往是决定性的。随着互联网技术的深层次发展,自然语言在计算机领域的应用不断加深和拓展,对当代人类的日常生活有着重大而深远的影响。

随着社会的进步与科技的发展,面对海量信息高效处理的需求,自然语言多方面、深层次的处理占有举足轻重的地位。早在20世纪四五十年代,电子计算机刚问世时,一些从事数学、计算机等领域的科学家就预见了自然语言处理在计算机科学中的发展前景,并提出了具有创新意义的诸多观点。

本文将介绍自然语言处理的基本概念,从三个阶段介绍自然语言处理的发展历程,并探讨目前的自然语言处理应用。·64·

中国高新科技 2019年第39期

1 自然语言处理基本概念

自然语言处理(Natural Language Processing,NLP)是研究人与计算机交互语言问题的一门学科。其任务大致分为两类——自然语言理解和自然语言生成。自然语言理解,即如何让机器理解人所说的话,此处的“话”是基于日常生活的语境、不需要发言者有知识储备;自然语言生成,即如何让机器像人一样说话。二者结合起来,就要求自然语言处理达到这样的目标:人能够畅通无阻地与机器进行交流并没有明显的不适感(图灵测试可以作为是否有不适感的重要标准)。

无论是哪种任务其技术难度都非常可观,这种情况出现的原因归根结底是语言文本、对话等在各个层面上的歧义性/多义性。且不提俚语、方言、特殊感情(讽刺等)特殊情况,一些看似简单的、富有逻辑性的对话也可能会引发明显的歧义,如:“听说你今天买了个假手机,到底真的假的啊?”“真的。”

也正是由于上述特点,自然语言处理常被认为是人工智能发达程度的重要评价指标。其发展历史也跟人工智能息息相关,以下进行详细阐述。

2 自然语言处理技术的发展

2.1 萌芽期

计算机领域对自然语言处理的客观需求,最早产生于语言翻译领域。在计算机发明以前,翻译工作都是由相关的专业人员承担,随着社会的发展,人们对翻译速度的要求越来越高,而当时电子计算机的速度已经能够达到每秒5000次加法运算,这使不少从事语言学的专业人士提出用电子计算机进行语言翻译。

最早提出利用计算机进行语言翻译工作的是美国工程师韦弗。韦弗将语言翻译看作一种解读密码的过程,试图通过中间语言进行词对词的一一转换。但由于对自然语言的翻译不仅局限于词汇的翻译,同样也应注重语法结构、语义分析等问题,所以仅利用计算机进行“解读密码”式的方法翻译出来的文章出现了语句不通、语义矛盾等诸多漏洞。这促使人们对计算机语言翻译工作进行改进和提升,对语法结构的拆分与重组、语义分析也随之成为计算机语言翻译的头等难题。

20世纪五六十年代,对于自然语言的处理所进行的中心工作出现了两种趋势,依据对自然语言处理

的方法和侧重点的不同,大致可划分为两个派别:符号派和随机派。

符号派大多坚持对自然语言处理进行完整且全面的剖析,其过程具有较高的准确性和完整性。最早出现的较完整的剖析系统来自美国宾夕法尼亚大学描写语言学代表人物海里斯的“转换与话语分析课题”,他的理论和方法在一定程度上反映了符号派对自然语言处理观点的某些特点。

随机派的参与者多是统计学的专业研究人员。其通过搜索、整理、分析计算机语言翻译的相关数据,坚持以概率统计的相关思想对自然语言处理的结果进行相关推测,并广泛应用计算假设概率的经典方法——贝叶斯方法,这样的处理过程具有高效及便于推广的特点,也是当时大多数人支持的思路。1959年,布劳宁和布莱德索建立了一套用于文本识别的贝叶斯系统,力求达到对自然语言字符的最优识别与推算。

1957年,美国学者英格维在《句法翻译的框架》中提出,计算机翻译工作可以分为三个阶段:第一阶段将原句的结构用代码化的结构标志表示;第二阶段将原句的结构标志转换为目标句的结构标志;第三阶段输出构成的目标句。在第一和第三阶段,原句和目标句互不影响,只有在第二阶段才进行两者结构标志的转换。英格维的这种看法,在当时计算机翻译的工作中具有一定的先导性,对计算机在句法结构层次的翻译有很大贡献。2.2 发展期

20世纪60年代,法国格勒诺布尔理科医科大学自动翻译中心的数学家沃古瓦将计算机语言翻译分成对原语词法、句法的分析,原语

Technological progress科技创新I与译语词汇、结构的转换,译语句此外,除当时较普遍使用的统法、词法的生成三大部分。构成一计方法外,逻辑方法的应用在自然套完整的计算机翻译步骤,并将其语言处理的工作中也取得了一定成应用到俄语与法语的计算机翻译工绩。20世纪70年代,法国马赛大学作中,取得了较好的效果。

的阿兰•科尔默劳尔建立了Prolog语在计算机语言翻译的同一时言及其系统(Prolog是自然语言处期,对输入文句语义的分析和筛选理、专家系统编程的基本语言和逻工作也不容忽视。由于不同的自然辑系统),并与同事们使用逻辑方语言所处的文化背景不尽相同,用法研制了Q系统和变形文法,随后来描述同一事物的词汇也千差万将其应用于计算机语言翻译的工别,甚至在同一自然语言环境中,作中。

相同的词可能也会代表不同的意上述工作的主要出发点是机思。这种在语义上的差异很容易造器翻译,在同一时期,也有很多科成计算机翻译出来的语句含有歧学工作者将眼光投向自然语言。自义。因此,许多计算机翻译领域的然语言理解,又称作人机对话,是专家,在注重语法结构的同时,也人工智能的一个重要分支,属于计将语义分析置于重要地位,英国人算机科学的一部分。简单来说,自工智能专家Y.A.威尔克斯便是代表然语言理解就是使计算机通过语音人物之一。1974年,威尔克斯提出识别系统理解人类的自然语言,从“优选语义学”,强调计算机对自而实现计算机与人之间通过自然语然语言的翻译应始终把语义问题放言间的“对话”。1972年,维诺在首要位置。在此基础上,威尔克格拉德于美国麻省理工学院建成斯设计了英法翻译系统,其在语义SHRDLU系统,把语言分析和知识方面具有较出色的处理性能,翻译推理综合在一起,在自然语言理出的译文可读性较高。这在当时自解的研究中跨出了重要的一步。然语言处理的工作中具有一定的突1970年,伍兹提出扩充转移网络破性和引导性。

(ATN),又于1972年在美国BBN

中国高新科技 2019年第39期

·65·

I科Technological progress技创新公司建成LUNAR系统。如今,ATN已成为自然语言理解研究中广泛采用的方法。

特别地,自然语言计算机翻译的发展曾在20世纪七八十年代一度进入萎靡期。当时由于计算机语料库中信息的有限,自然语言处理的理论和技术均未成熟,欧共体、美国、前苏联等先后都有巨大的资金投入,然而却并未使自然语言处理得到实质性的创新与突破。与随之而来的自然语言处理的新革命相比,计算机自然语言翻译在此阶段的发展呈现出了“马鞍形”的低谷时期。2.3 繁荣期

20世纪90年代,自然语言处理逐渐进入繁荣期。1993年在日本神户召开的第四届机器翻译高层会议,标志着自然语言处理进入一个崭新的纪元。

在这一时期,自然语言处理领域具有两个鲜明特征:一是大规模性,二是真实可用性。

(1)大规模性,意味着对于计算机对自然语言的处理有了更深层次的要求。对于文本信息的输入,计算机要能够处理相较于以前更大规模的文本量,而不再是单一或片段语句。这就需要研制出更大规模的语料库,以增大计算机系统对输入文本的处理量。

(2)真实可用性,强调计算机输出的文本处理内容在“丰富度”方面的要求。简单来说,就是要尽量提高计算机在自然语言处理结果中所包含信息的可利用程度,最终达到能够对自然语言文本进行自动检索、自动提取重要信息,并且进行自动摘要的要求。因此,必须建立庞大的数据库作为自然语言

·66·

中国高新科技 2019年第39期

处理的“字典”,并且这个数据库是以真实文本为基础,而非来自工作人员的经验所得或研究成果(如从微博上进行关键词抓取并结合前后文进行语义分析就是一种典型应用),由此可见,大规模性与真实可用性相辅相成。

这两个特征在自然语言处理的诸多领域都有所体现,其发展直接促进了计算机自动检索技术的出现和兴起。从某种程度上来说,这两大特征愈发明显的事实也在说明“随机派”逐渐占据上风。实际上,随着计算机技术的不断发展,以海量计算为基础的机器学习、数据挖掘等技术的表现也愈发优异。自然语言处理之所以能够度过“寒冬”,再次发展,也是因为统计科学与计算机科学的不断结合,才让人类甚至机器能够不断从大量数据中发现“特征”并加以学习。

时至今日,自然语言处理在自动检索技术领域的应用随处可见,其广泛存在于人们的日常生活中,并将会伴随着国际互联网的日益发展逐渐走向成熟。

3 自然语言处理的发展现状与展望

现阶段的自然语言处理主要集中于4大方向:语言学方向、数据处理方向、人工智能和认知科学方向以及语言工程方向。

由于语言学、语言工程、认知科学等主要局限于实验室,目前来看数据处理可能是应用场景最多的一个发展方向。实际上,自从进入大数据时代,各大平台就没有停止过对用户数据的深度挖掘。要想提取出“有用”的信息,仅提取关键词、统计词频等是远远不够的,必

须对用户数据(尤其是发言、评论等)进行语义上的理解。因此,商业公司对自然语言处理技术的追捧与投入不在话下,例如阿里在2017年伊始发表《一种新的语义编码模型及其在智能问答及分类中的应用》,该文被KDD2017收录并代表了当时自动问答和文本分类的应用场景下的智能问答的最高水平。

虽然自然语言处理发展到今天,“市场”几乎已经被“随机派”占领,但要认识到,“随机派”的根本思想在于从大量数据中提取特征并进行“概率预测”,在逻辑性上必然远落后于“符号派”,因此自然语言处理发展何去何从,还远不能下结论。

4 结语

进入21世纪,自然语言处理在计算机领域的应用不断拓展,势必会随着计算机网络技术的不断进步而蒸蒸日上,也必定会成为现代化学科与技术的焦点,并时刻影响人类的日常生活,对21世纪科学技术的进步做出不可磨灭的贡献。

参考文献[1]冯志伟.自然语言处理的历史与现状[J].中国外语,2008,5(1):14-22.

[2]王挺,麦范金,刘忠.自然语言处理及其应用前景的研究[J].桂林航天工业学院学报,2006,11(4):19-21.[3]侯志霞,曹军.自然语言处理的发展概况及前景展望[J].山东外语教学,2003(5):53-55.

(洛阳市第三中学)

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- ryyc.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务