知识图谱之WordNet,名词,动词,形容词和副词各自被组织成一个同义词的网络

511
0
2021-12-26 14:58:02
正在缓冲...
3
投币
2
7
WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。 它是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代 表一个基本的语义概念,并且这些集合之间也由各种关系连接。(一个多义词将出现在它的每个意思的同义词集合中)。在WordNet的第一版中(标记为1.x),四种不同词性的网络之间并无连接。WordNet的名词网络是第一个发展起来的,正因如此,我们下面将要讨论的大部分学者的工作都仅限于名词网络。 名词网络的主干是蕴涵关系的层次(上位/下位关系),它占据了关系中的将近80%。层次中的最顶层是11个抽象概念,称为基本类别始点(unique beginners),例如实体(entity,“有生命的或无生命的具体存在”),心理特征(psychological feature,“生命有机体的精神上的特征)。名词层次中最深的层次是16个节点。 "WordNet: An Electronic Lexical Database"一书分三部分,16章。第一部分从第1章到第4章,前3章分别介绍WordNet中的名词,形容词,动词,第4章介绍WordNet的设计细节及相关软件的情况(这主要是由普林斯顿大学认知科学实验室的研究人员写的);第二部分和第三部分主要是由普林斯顿认知科学实验室之外的参加WordNet研究工作的研究人员撰写的。第5章和第6章描述了WordNet的改进;第7章从形式化的概念分析的角度描述了WordNet;第8到第16章讨论了WordNet的各种不同应用。 (一)计算机与词库(computers and lexicon) · 一个人即使不接受把人脑比作计算机的隐喻,也一定同意,计算机提供了一个良好的模式演练场,通过它,人们可以测试各种关于人类认知能力的理论模型。 · 越来越多的人认识到,一个大的词库对自然语言理解,人工智能的各方面研究都具有重要的价值。 · 对大规模机器可读词典的需求同时也带来许多基础问题。首先是如何构造这样一个词库,是手工编制还是机器自动生成?第二,词典中应包含什么样的信息?第三,词典应如何设计,即信息如何组织,以及用户如何访问?实际上,这些问题涉及到词典的编纂方法,词典的内容,词典的使用方式这一系列非常基础的问题。 (二)构造词库数据库(constructing the lexical database) · 构建词典的两种基本方式:自动获取 / 手工编制。 手工构建词典的优点之一是便于创建更为丰富的词条信息;其次是便于控制。 (三)WordNet的内容 · WordNet的描述对象包含compound(复合词)、phrasal verb(短语动词)、collocation(搭配词)、 idiomatic phrase(成语)、word(单词),其中word是最基本的单位。 · WordNet并不把词语分解成更小的有意义的单位(这是义素分析法/componential analyses的方法);WordNet也不包含比词更大的组织单位(如脚本、框架之类的单位);由于WordNet把4个开放词类区分为不同文件加以处理,因而WordNet中也不包含词语的句法信息内容;WordNet包含紧凑短语,如bad person,这样的语言成分不能被作为单个词来加以解释。 · 人们经常区分词语知识和世界知识。前者体现在词典中,后者体现在百科全书中。事实上二者的界限是模糊的。比如hit(“打”)某人是一种带有敌意的行为,这是百科知识;而hit跟strike(“击”)多多少少同义,并且hit可以带一个直接宾语论元,这是词语知识。但hit的直接宾语应该是固体(而不是像gas这样的气体),这是词语知识还是百科知识就界限模糊了。不过毫无疑问,要理解语言,这两部分知识是缺一不可的。Kay(1989)指出我们的大脑词库应该包含这两部分知识。但是百科知识太多难以驾驭,WordNet不试图包括百科知识。不过,在WordNet中,对于一些不常见的专业概念,比如不常见的植物和动物,词语知识和百科知识是融合在一起的。
国产操作系统用户,长期使用国产系统,期待国产操作系统越来越好!
客服
顶部
赛事库 课堂 2021拜年纪