推广 热搜： 公司快速中国企业政策未来金上海系统公司2

最全NLP语料资源集合及其构建现状

日期：2024-11-09 作者：xinet caijiyuan 评论：0 移动：http://www78564.xrbh.cn/mobile/news/26858.html

核心提示：作者刘焕勇，语言学硕士，目前就职于中国科学院软件研究所，主要从事信息抽取，知识图谱，情感分

640?wx_fmt=jpeg

最全NLP语料资源集合及其构建现状

作者刘焕勇，语言学硕士，目前就职于中国科学院软件研究所，主要从事信息抽取，知识图谱，情感分析, 社会计算等自然语言处理研发工作，兴趣包括：语言资源构建、信息抽取与知识图谱、舆情监测与社会计算。

本项目包含中文自然语言处理的语料集合，包括语义词、领域共时、历时语料库、评测语料库等。本项目简单谈谈自己对语言资源的感想以及目前自己进行语言资源构建的现状。

介绍

语言资源，本身是一个宽泛的概念，即语言+资源，语言指的是资源的限定域，资源=资+源，是资料的来源或者汇总，加在一起，也就形成了这样一种界定：任何语言单位形成的集合，都可以称为语言资源。语言资源是自然语言处理任务中的一个必不可少的组成部分，一方面语言资源是相关语言处理任务的支撑，为语言处理任务提供先验知识进行辅助，另一方面，语言处理任务也为语言资源提出了需求，并能够对语言资源的搭建、扩充起到技术性的支持作用。因此，随着自然语言处理技术的不断发展，自然语言处理需求在各个领域的不断扩张、应用，相关语言资源的构建占据了越来越为重要的地位。作者在硕士期间所在的研究机构为国家语言资源监测与研究平面媒体中心，深受导师所传授的语言资源观影响，毕业后在实际的学习、工作过程中，动手实践，形成了自己的一些浅薄的语言资源认识，现在写出来，供大家一起讨论，主要介绍一些自己对语言资源的搜索，搭建过程中的一些心得以及自己目前在语言资源建设上的一些工作。

语言资源的分类

介绍中说到，任何语言单位的集合都可以称为语言资源，比如我有一个个人的口头禅集合，这个就可以称为一个语言资源库，在你实际生活中进行言语活动时，你其实就在使用这个语言资源库。再比如说，一个班级中的学生名单，其实也可以当作是一种语言资源，这个语言资源在进行班级学生点名、考核的时候也大有帮助。当然，此处所讨论的语言资源是从自然语言处理应用的角度上出发的。总的来说，我把它归为以下两种类型：

1、领域语料库

领域语料库，是从语料的这个角度来讲的，这里的语料，界定成文本级别（以自然语句为基础级别形成的文本集合，即可以是句子、段落、篇章等）。领域语料库，可以根据不同的划分规则而形成不同的语料类别：

1）根据所属领域，可以进一步细化成不同领域的语料库。包括金融领域语料、医药领域语料、教育领域语料、文学领域语料等等。

2）根据所属目的，可以进一步细化为：评测语料（为自然语言处理技术pk而人工构造的一些评测语料，如ACE,MUC等国际评测中所出现的如semeval2014,snli等）；工具语料（指供自然语言处理技术提供资源支撑的语料）

3）根据语料加工程度的不同，可进一步分为：熟语料（指在自然语言单位上添加人工的标签标注，如经过分词、词性标注、命名实体识别、依存句法标注形成的语料），生语料（指直接收集而未经加工形成的语言资源集，如常见的微博语料，新闻语料等）

4）根据语料语种的不同，可进一步分为：单语语料和多语语料，多语语料指的是平行语料，常见于机器翻译任务中的双语对齐语料（汉-阿平行语料库，汉-英平行语料库）等。

5）根据语料规模的不同，可以进一步分为：小型语料库，中型语料库，大型语料库。至于小型、中型、大型的界定，可根据实际领域语料的规模而动态调整。

2、领域词库

领域词库，指以句级以下语言单位形成的语言资源库，这个层级的语言单位可以是笔画、偏旁部首、字、词、短语等。同样的，领域词库也可以进一步细分。

1）领域特征词库。这里所说的领域特征词库，指的是与领域强相关，具有领域区别能力形成的词语集合，如体育领域中常见的“篮球”、“足球”等词，文学领域常见的“令狐冲”、“鲁迅”等词，又如敏感词库等，这些词常常可作为分类特征而存在。

2）语法语义词库。语义词库的侧重点在与语言的语法层面和语义层面：

语言资源的问题

语言资源的搭建，指的是语言资源的整个搭建过程。其实是要解决四个问题，一个是语言资源的收集问题；二是语言资源的融合标准化问题；三是语言资源的动态更新问题；四是语言资源的共享与联盟问题。下面就这四点展开阐述：

1、语言资源收集的问题。语言资源搜索过程中有三步走策略，在这个步骤完成之后，会得到一系列的词库。这些词库可能初期不会特别完善，往往还需要人工使用启发式规则进行人工去噪的工作。

2、语言资源的融合标准化问题。通过不同方式收集起来的语言资源，往往会存在一个格式不对称的问题，这有点像知识图谱中的知识融合问题。因此，为了解决这个问题，我们通常需要制定一个标准化的语言资源格式，例如，在构建情感词表的过程当中，有的情感词表没有强度标记，有的强度值范围不一样，有的情感词表的标记不一，这个时候往往需要标准化，给定一个标准化的样式，再将不同来源的情感词按照这个标记做相应的调整。我在实际的工作过程中，常常把这种问题类别成知识图谱构建过程中的schema搭建问题，信息抽取过程中的slot-definition问题。先把规范和标准搭好，再去统一标准化。

3、语言资源的动态更新问题。知识和信息的价值，在很大程度上都在于它的一种实时性，语言资源作为一种常识性知识库，能够保证自身的一种与时俱进，将能够最大限度地发挥自身的价值。而从实践的角度上来说，语言资源的动态更新，可以靠人工去维持，去动态及时更新，也可以建立一种动态监测和更新机制，让机器自动地去更新。这类其实可以参考知识图谱更新的相关工作。

4、语言资源的共享与联盟问题。语言资源是否共享，其实是一个与业务敏感以及开源意识想结合的一种决策，有的资源因为某种业务敏感或者开源意识不够open而无法共享，当然还有其他因素成分在，不过，语言资源最好是需要共享的，这样能够最大力度的发挥语言资源在各个领域的应用。语言资源的联盟问题，更像是对开源语言资源的一种链接与互联。这类问题是对当前的资源零散、碎片化问题的一个思考，前面也说到，目前情感分析的词表有很多个，语法和语义词库也有很多个，但每个人在构建时的出发点不同，构建者也分布在不同的高校或机构当中，这些资源虽然在个数上会有增长，但随着时间的推移，这种零散化的现象将会越来越严重。

语言资源的实践

本项目以采集公开的人民日报与参考消息为例进行历时的新闻采集为例, 公开网站中公开了1946-2003年的人民日报语料,1957-2002年的参考消息语料, 采集这种具有长远历史信息的语料对于历史人文研究以及语言演变有重大意义,本项目放在newspaper目录下。

运行方式: scrapy crawl travel

主要函数包括:

name = Data = BuildData() date_list = Data.create_dates() date date_list: print(date) date_url = %date param = {: date_url, : date} scrapy.Request(url=date_url, meta=param, callback=self.get_urllist, dont_filter=) selector = etree.HTML(response.text) date_url = response.meta[] urls = [i.split()[] i selector.xpath() date_url i] url set(urls): param = {:url , : response.meta[]} scrapy.Request(url=url, meta=param, callback=self.page_parser, dont_filter=) selector = etree.HTML(response.text) articles = selector.xpath() titles = selector.xpath() contents = [] article articles: content = article.xpath() contents.append(content) papers = zip(titles, contents) i papers: item = TravelspiderItem() item[] = response.meta[] item[] = response.meta[] item[] = i[] item[] = i[] item

语言资源构建现状

作者在学习和工作之余，根据语言资源搭建策略，构建起了语义词库、领域词库、领域语料库、评测语料库。种类约53种，具体如下：

语义知识库

640?wx_fmt=png

领域词库

640?wx_fmt=png

领域语料库

640?wx_fmt=png

评测语料库

640?wx_fmt=png

总结

1、本项目阐述了语言资源的相关感想，并给出了目前语言资源的构建现状，目前为止收集了四个大类共53小类的语言资源数据集。

2、本项目中所涉及到的报告内容均来源于网上公开资源，对此免责声明。

3、如果有需要用到以上作者收集到的这些语料库，可以联系作者获取。

4、自然语言处理，是人工智能皇冠上的一颗明珠，懂语言者得天下，语言资源在自然语言处理中扮演着举足轻重的作用，懂语言资源者，分得天下。目前开放的网络环境，对语言资源的大繁荣提供了很大的契机。语言资源构建是一门学问，也是一种手段，现在自然语言处理技术也对语言资源的构建提供了技术上的支持，如何把握语言资源搜索策略，搭建策略，重点解决语言资源的动态更新、共享与联盟问题，将是语言资源建设未来需要解决的问题。

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作，可联系我：

1、我的github项目介绍：https://liuhuanyong.github.io

2、我的csdn博客：https://blog.csdn.net/lhy2014

3、刘焕勇，中国科学院软件研究所，lhy_in_blcu@126.com

原文地址：

https://github.com/liuhuanyong/ChineseNLPCorpus

（*本文仅代表作者独立观点，转载请联系原作者）

公开课预告

◆

强化学习

◆

本期课程中，微软小冰全球首席架构师及研发总监周力博士将介绍微软小冰在全双工语音对话方面的最新成果，及其在智能硬件上的应用和未来将面临的更多技术产品挑战。

640?wx_fmt=jpeg

本文地址：http://www78564.xrbh.cn/news/26858.html 迅博思语 http://www78564.xrbh.cn/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新资讯

0 条相关评论

文章列表

相关文章

最新动态

推荐图文

最新资讯

点击排行

• 中交地产1元“退房”：战略转型与债务困境下的	• 邛崃市2025年7月招聘信息第四期共30家企业
• 浙江义乌“大企帮小店”探索共富新路径	• 北京移动应急通信保障恢复怀柔区72座基站，抢通
• 小猫看伤花5000元，宠主质疑：诊所每天对小猫进	• 克莱斯勒300C 2.7汽车配件前羊角轴头刹车盘
• 他们是CS上海Major的“幕后功臣”，完美电竞合	• 军事资讯AI速递：昨夜今晨军事热点一览丨2025
• 刚出炉！上海崇明成功认证“国际湿地城市”，将	• 疑似OPPO Find X9 Pro核心硬件曝光：搭载天玑95

刚出炉！上海崇明成功	枣庄去北京动物园哪里
凤翔区：以文明之笔	火箭队首发5虎，现已
阿卡：人们乐于炒作我	中国版山姆，全部关门
高层大换血，泉州银行	人潮涌入ChinaJoy：国
河源去三亚天涯海角网	缓解焦虑试试这些方
《艳贼》反思：为何希	解锁“苏超顶流”的生