ChineseDiachronicCorpus

ChineseDiachronicCorpus，中文历时语料库，横跨六十余年，包括腾讯历时新闻2009-2016，人民日报历时语料1946-2003，参考消息历时语料1957-2002。基于历时流通语料库，可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。该项目由公开渠道收集而成，不可商用，若有侵权，可联系删除。

项目的由来

语言是人类重要的交际工具，同时也是社会的镜子，语言记录并反映了社会，对语言记录进行挖掘、计算，可以从各个层面对社会进行解读。例如，基于语料库进行词语考察，以反映单个词语在不同时间周期中的使用及变动情况。以语料为载体，挖掘出属于某个特定时间周期的社会特点，例如年度关键词、年度人物、年度流行语；对词语进行文化计算，如颜色计算、性别计算、观点计算等，以考察整个社会对某一事物、看法的演变。
当前，开源可用的中文历时语料库较少。代表性的有北京语言大学国家语言资源监测与研究平面媒体中心DCC动态流通语料库，其对国内数十家报纸媒体进行监测，也有中国传媒大学网络媒体中心的历时语料库可以使用。
当前，随着网络技术的发展以及采集技术的相对成熟，构建起历时语料库变得越来越容易，这就使得向外界共享历时语料库变得更为便利且必要。

本项目，旨在通过公开收集的方式，从网络媒体和平面媒体两个角度出发，形成腾讯新闻、人民日报、参考消息三大历时语料库，以供社会开放使用。

项目的用途

那么，基于这个语料库，能够做什么呢？总结了下，至少可以从词语考察、语义计算、热度计算、文化计算、媒体对比、语法研究等六个方面开展工作。

用途名称	技术手段	应用场景
词语考察	分词、词频统计	通用词表等编写
语义计算	共现词、MI搭配、依存搭配	搭配等语义词典编写
热度计算	流通度计算、术语提取	流行语等发布
文化计算	颜色计算、性别计算	文化变迁
媒体对比	媒体差异计算	传播学研究
语法研究	语法模式检索	语法教材与词典编写

项目的获取

对于如何获取数据，项目已经将数据发布至百度网盘，下表是对数据集的介绍，需要使用的可以开放下载使用。

数据名称	时间跨度	数据大小	链接
腾讯新闻	2009-2016	5GB	链接:https://pan.baidu.com/s/16VMV1JioSrKGUQ0T7YfIGw 密码:57ux
人民日报	1946-2003	3.44GB	链接:https://pan.baidu.com/s/1vUwt7hpoQLx-vgzsZjaBlw 密码:jyvo
参考消息	1957-2002	1.1GB	链接:https://pan.baidu.com/s/1Ux_WCpkLqtfE60jXfGD3ow 密码:6ekf

关于作者

刘焕勇，中国科学院软件研究所，兼任数据地平线科技算法总监，专注金融、情报两大领域，从事事件抽取、事件演化、情感分析、事理（知识）图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作，可联系我：
1、我的github项目介绍：https://liuhuanyong.github.io
2、我的csdn技术博客：https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇，中国科学院软件研究所，lhy_in_blcu@126.com.
4、我的共享知识库项目：刘焕勇，数据地平线，http://www.openkg.cn/organization/datahorizon.
5、我的工业项目：刘焕勇，数据地平线，大规模实时事理学习系统：https://xueji.datahorizon.cn.
6、我的工业项目：刘焕勇，数据地平线，面向事件和语义的自然语言处理工具箱：https://nlp.datahorizon.cn

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

ChineseDiachronicCorpus

项目的由来

项目的用途

项目的获取

关于作者

Files

README.md

Latest commit

History

README.md

File metadata and controls

ChineseDiachronicCorpus

项目的由来

项目的用途

项目的获取

关于作者