Nlpcc-2019-shared-task-Readme
跳到导航
跳到搜索
train_dev_unlabeled
- Unlabeled文件夹:
- 包括PB-Unlabeled.conll、PC-Unlabeled.conll、ZX-Unlabeled.conll三个文件;
- 无标注数据仅提供分词和词性(第四列)信息;
- Train文件夹:
- 包括BC-Train.conll、PB-Train.conll、PC-Train.conll、ZX-Train.conll四个文件;
- 文件中最后一列为依存弧的概率,如果概率为1,则对应弧为人工标注,否则为模型补全;
- Dev文件夹:
- 包括BC-Dev.conll、PB-Dev.conll、PC-Dev.conll、ZX-Dev.conll四个文件;
- 文件中第7列为“-1”且第8列为“none”,代表该弧未进行人工标注。
文件格式说明
Train/Dev/Unlabeled数据文件均为“CoNLL”格式,在CoNLL格式中,每个词语占一行,每行10列,无值列用下划线 '_' 代替,列的分隔符为制表符'\t',行的分隔符为换行符'\n';句子与句子之间用空行'\n'分隔。 下面介绍一下我们本次评测使用到的列:
- 1.当前词在句子中的序号,从1开始;
- 2.当前词语或标点;
- 4.当前词语的词性;
- 7.当前词语的核心词;
- 8.当前词语与核心词的依存关系;
- 10.依存弧的概率;
Word Embedding预训练
- Word Embedding是通过word2vec在Chinese Gigaword V3(约1100万句、自动分词)和目标领域Train/Unlabeled上训练10次迭代得到。
- Word Embedding文件均采用UTF-8编码。