NLP_Chinese_down_stream_task
自学的NLP子任务,供学习参考
任务1 :短文本分类
(1).数据集:THUCNews中文文本数据集(10分类)
(2).模型:BERT+FC/LSTM,Pytorch实现
(3).使用方法:
预训练模型使用的是中文BERT-WWM, 下载地址(https://github.com/ymcui/Chinese-BERT-wwm), 下载解压后放入[bert_pretrain]文件夹下,运行“main.py”即可
(4).训练结果:
任务2:命名体识别(NER)
(1).数据集:china-people-daily-ner-corpus(中国人民日报数据集)
(2).模型:BiLSTM+CRF,Tensorflow_cpu >= 2.1
使用了中文Wikipedia训练好的100维词向量,运行main.py即可。
(3).训练结果:
(4).F1-Score结果:
任务3:文本匹配(语义相似度,Semantic Textual Similarity)
(1).数据集:fake-news-pair-classification-challenge(kaggle虚假新闻标题分类竞赛,标签有三种关系:'unrelated', 'agreed', 'disagreed')
(2).模型:Siamese LSTM + 任意文本相似度匹配方法,Tensorflow_cpu >= 2.1
(3).使用方法:
直接运行“main.py”即可