可免费下载的最新人民日报分词语料库(NEPD)发布(转载)
11月24日,在中国社会科学情报学会学术年会上,新时代人民日报分词语料(New Era People’s Daily Segmented Corpus,简称NEPD)发布,这是由南京农业大学黄水清教授团队推出的最新版现代汉语通用语料库,是对北京大学1998年人民日报语料库的补充。黄水清教授表示,NEPD的相关语料将对学界公布,供学术研究用,并且后续还将不断补充最新语料,以促进语料资源的开放和共享。
语料库是由人工或机器标注好的真实语言材料组成的数据集,是开展与自然语言有关研究的有效工具和手段。依据语料库既可以研究语言普遍规律也可以针对具体文本开展研究。作为现代汉语通用语料,北京大学计算语言研究所的1998年人民日报语料无论在学界和业界都有巨大的影响力。但是随着时间的推移,该语料库在词汇的时效性、完备性和覆盖度上均需要进行更新和补充。
黄水清教授表示,最新发布的“新时代人民日报语料库”收录的是2012年以后即中国特色社会主义进入新时代以后《人民日报》刊发的文章。之所以选择《人民日报》作为原始语料,一方面是因为《人民日报》的文章都是规范的现代汉语,且思想内容与同时期中央精神高度一致,另一方面也为了延续前人的成果,利于开展持续性的研究。目前,NEPD已收录近年来共9个月的《人民日报》刊发的所有文章,全部为人工标注精加工语料。
NEPD从原始语料获取及预处理开始,在词汇的切分和标注过程中,遵循国家标准《信息处理用现代汉语分词规范》(GB/T13715-92),每份原始语料均由三组人员分阶段共同完成。为了进一步提升标注结果的精准性,在人工标注的基础上,团队还设计了专门程序对所有的标点符号进行机器校对。
当前,人工智能方兴未艾,机器学习被广泛应用于自然语言的计算机处理,而语料库是保证机器学习算法正常运行的先决条件,计算机学习了语料库中的知识,才能对未知问题进行分析、决策。
黄水清比喻,语料库好比是机器学习的“教材”。教材的好坏影响教学水平,语料库的质量影响机器学习算法的运行效果。高质量的语料库相当于优质“统编教材”,而人民日报语料库就是面向现代汉语文本的机器学习“统编教材”,而且是从文字到思想、从内容到形式都是一流的国标版统编教材。
根据此次年会上公布的对1998年语料库和NEPD的测评结果,当年语料库处理当年文本,差距不大。但是将基于1998年1月语料库构建的最优机器学习分词模型用于标注2018年1月的《人民日报》文章,所有标记的最高调和平均值仅为83.26%,平均调和平均值仅为83.06%,比基于2018年1月语料库所构建的模型分别低了14.54%、14.68%。这表明,基于20年前的语料所训练出来的模型在词汇的覆盖度和新颖性上已经不能完成对当前文本的精准标注,NEPD这样的基于最新文本的语料库非常及时和必要。