NLP课程_张家俊_语料库与语言知识库
NLP 张家俊_语料库与语言知识库
语料库
含义:
用于存放语言数据的文件(语言数据库)。
列表:
北京大学计算语言学研究所(http://icl.pku.edu.cn/)建立的综合型语言知识库(简称CLKB)
The Linguistic Data Consortium (LDC) (https://www.ldc.upenn.edu/)
中文语言资源联盟(Chinese LDC) (http://www.chineseldc.org)
类型:
…
平行语料库
双语资源:
• 加拿大议会会议录 (Canadian Hansards) http://www.isi.edu/natural-language/download/hansard/
• 克姆尼茨英-德翻译语料库 (Chemnitz E-G Translation Corpus) http://www.tu-chemnitz.de/phil/english/chairs/linguist/real/independent/transcorpus/index.htm
• 英语-挪威语平行语料库 (ENPC)
https://www.hf.uio.no/ilos/english/services/omc/enpc/
• 葡-英双向平行语料库 (Compara)
http://www.linguateca.pt/COMPARA/Welcome.html
• 香港立法委员会会议记录 (Hong Kong Hansards)
http://catalog.ldc.upenn.edu/LDC2000T50
• 联合国平行语料库 (United Nations Parallel Corpus)
https://conferences.unite.un.org/uncorpus/
典型语料库介绍:
布朗语料库、LLC口语语料库、朗文语料库、宾夕法尼亚大学(UPenn)树库(Tree Bank)(http://www.ldc.upenn.edu/)
UPenn语篇树库(Penn Discourse Tree Bank, PDTB)
NomBank
标注树库中名词的词义和相关的论元信息
PropBank
标注树库中动词的词义和相关的论元信息
命题库——CPB 3.0: https://catalog.ldc.upenn.edu/LDC2013T13
汉语篇章树库(CDTB) 1.0
汉英篇章树库对比 (CDTB vs. PDTB):
汉语 (CDTB)隐式关系比起英语 (PDTB)更多,即78.27% > 54.53%
北大计算语言学研究所开发的综合性语言知识库CLKB介绍:
综合性语言知识库(CLKB)涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通
用领域深入到专业领域。CLKB是目前国际上规模最大且获得广泛认可的汉语语言知识资源。
- 现代汉语语法信息词典:8万词、360万项语法属性描述
- 汉语短语结构规则库:600多条语法规则
- 现代汉语多级加工语料库:实现词语切分并标注词类的基本标注语料库1.5亿字,精加工5200万字,标注义项的有2800万字
- 多语言概念词典:10万个以同义词集表示的概念
- 平行语料库:含对译的英汉句对100万
- 多领域术语库:有35万汉英对照术语
口语翻译语料库: BTEC
IWSLT:International Workshop on Spoken Language Translation (IWSLT), 2004 ~
语言知识库
WordNet (http://wordnet.princeton.edu/ )
解决词典中同义信息的组织问题
95600 英语词条,其中,51500个简单词,44100 个搭配词。70100个词义(同义词集合)。
五大类词汇:名词、动词、形容词、副词、虚词。(实际上 WordNet 中仅包含前4类)
用于词汇消歧,语义推理,理解等。
例如:食堂 没 地方,我 在 饭馆 吃 了 蛋 炒饭。
“地方”的三种意思:
#指地理位置 如:在祖国各个地方
#指空间 如:没地方
#指部分 如:他说的有些地方不对
要确定例句中的“地方”的含义,就在语义树上找离得最近的“地方”的含义即可,即实现了语义消歧。
知网(HowNet) (http://www.keenage.com)
4个观点:
- NLP系统最终需要更强大的知识库的支持
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!