NLP课程_张家俊_语料库与语言知识库

NLP 张家俊_语料库与语言知识库

语料库

含义

用于存放语言数据的文件(语言数据库)。

列表

北京大学计算语言学研究所(http://icl.pku.edu.cn/)建立的综合型语言知识库(简称CLKB)

The Linguistic Data Consortium (LDC) (https://www.ldc.upenn.edu/)

中文语言资源联盟(Chinese LDC) (http://www.chineseldc.org)

类型

  • 平行语料库

​ 双语资源:

• 加拿大议会会议录 (Canadian Hansards) http://www.isi.edu/natural-language/download/hansard/
• 克姆尼茨英-德翻译语料库 (Chemnitz E-G Translation Corpus) http://www.tu-chemnitz.de/phil/english/chairs/linguist/real/independent/transcorpus/index.htm
• 英语-挪威语平行语料库 (ENPC)
https://www.hf.uio.no/ilos/english/services/omc/enpc/
• 葡-英双向平行语料库 (Compara)
http://www.linguateca.pt/COMPARA/Welcome.html
• 香港立法委员会会议记录 (Hong Kong Hansards)
http://catalog.ldc.upenn.edu/LDC2000T50
• 联合国平行语料库 (United Nations Parallel Corpus)
https://conferences.unite.un.org/uncorpus/

典型语料库介绍

布朗语料库、LLC口语语料库、朗文语料库、宾夕法尼亚大学(UPenn)树库(Tree Bank)(http://www.ldc.upenn.edu/)

UPenn语篇树库(Penn Discourse Tree Bank, PDTB)

NomBank

标注树库中名词的词义和相关的论元信息

PropBank

标注树库中动词的词义和相关的论元信息

命题库——CPB 3.0: https://catalog.ldc.upenn.edu/LDC2013T13

汉语篇章树库(CDTB) 1.0

Alt

汉英篇章树库对比 (CDTB vs. PDTB):

汉语 (CDTB)隐式关系比起英语 (PDTB)更多,即78.27% > 54.53%

北大计算语言学研究所开发的综合性语言知识库CLKB介绍:

综合性语言知识库(CLKB)涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通
用领域深入到专业领域。CLKB是目前国际上规模最大且获得广泛认可的汉语语言知识资源。

  • 现代汉语语法信息词典:8万词、360万项语法属性描述
  • 汉语短语结构规则库:600多条语法规则
  • 现代汉语多级加工语料库:实现词语切分并标注词类的基本标注语料库1.5亿字,精加工5200万字,标注义项的有2800万字
  • 多语言概念词典:10万个以同义词集表示的概念
  • 平行语料库:含对译的英汉句对100万
  • 多领域术语库:有35万汉英对照术语

口语翻译语料库: BTEC

IWSLT:International Workshop on Spoken Language Translation (IWSLT), 2004 ~

语言知识库

WordNet (http://wordnet.princeton.edu/ )

解决词典中同义信息的组织问题

95600 英语词条,其中,51500个简单词,44100 个搭配词。70100个词义(同义词集合)。
五大类词汇:名词、动词、形容词、副词、虚词。(实际上 WordNet 中仅包含前4类)

用于词汇消歧,语义推理,理解等。

例如:食堂 没 地方,我 在 饭馆 吃 了 蛋 炒饭。
“地方”的三种意思:
#指地理位置 如:在祖国各个地方
#指空间 如:没地方
#指部分 如:他说的有些地方不对

Alt

要确定例句中的“地方”的含义,就在语义树上找离得最近的“地方”的含义即可,即实现了语义消歧。

知网(HowNet) (http://www.keenage.com)

4个观点:

  • NLP系统最终需要更强大的知识库的支持