mbart-chinese
基于mbart-large-cc25 的中文生成任务
Input
-
source input:
text
+</s>
+lang_code
-
target input:
lang_code
+text
+</s>
Usage
token_ids_mapping.json
:从全量词表中抽取出的中文字符及高频英文字符,在老新词典中的映射关系表。
Todo
- mbart在中文标题生成任务的评测结果
基于mbart-large-cc25 的中文生成任务
source input: text
+ </s>
+ lang_code
target input: lang_code
+ text
+ </s>
token_ids_mapping.json
:从全量词表中抽取出的中文字符及高频英文字符,在老新词典中的映射关系表。
NLP Translation and Classification The repository contains a method for classifying and cleaning text using NLP transformers. Overview The input data
List Of English Words A text file containing over 466k English words. While searching for a list of english words (for an auto-complete tutorial) I fo
ParlAI (pronounced “par-lay”) is a python framework for sharing, training and testing dialogue models, from open-domain chitchat, to task-oriented dia
ttskit Text To Speech Toolkit: 语音合成工具箱。 安装 pip install -U ttskit 注意 可能需另外安装的依赖包:torch,版本要求torch=1.6.0,=1.7.1,根据自己的实际环境安装合适cuda或cpu版本的torch。 ttskit的
speech-to-text-translator Usage translate using your voice description this project makes translating a word easy, all you have to do is speak and...
Automatic summarization is the process of shortening a text document with software, in order to create a summary with the major points of the original document. Technologies that can make a coherent
SUBSHOP Tools to download, remove ads, and synchronize subtitles. SUBSHOP Purpose Limitations Required Web Credentials Installation, Configuration, an
NLP_Chinese_down_stream_task 自学的NLP子任务,供学习参考 任务1 :短文本分类 (1).数据集:THUCNews中文文本数据集(10分类) (2).模型:BERT+FC/LSTM,Pytorch实现 (3).使用方法: 预训练模型使用的是中文BERT-WWM, 下载地
Trafalgar Python library to make development of portfolio analysis faster and easier Installation 🔥 For the moment, Trafalgar is still in beta develo
Harvis Harvis is designed to automate your C2 Infrastructure, currently using Mythic C2. 📌 What is it? Harvis is a python tool to help you create mul
For English, scroll down मराठी शब्द मराठी भाषा वाचवण्यासाठी मी हा ओपन सोर्स प्रोजेक्ट सुरू केला आहे. माझ्या मते, आपली भाषा हळूहळू आणि कोणाचाही लक्षात
CrossNER is a fully-labeled collected of named entity recognition (NER) data spanning over five diverse domains (Politics, Natural Science, Music, Literature, and Artificial Intelligence) with specia
Manglish Text Editor This is a simple transiteration (romanization ) program which is used to convert manglish to malayalam (converts njaan to ഞാൻ ).
Transformation spoken text to written text This model is used for formatting raw asr text output from spoken text to written text (Eg. date, number, i
PART 2: CHAIN LINKING AUDIO-TO-TEXT NLP TASKS 2A: TRANSCRIBE-TRANSLATE-SENTIMENT-ANALYSIS In notebook3.0, I demo a simple workflow to: transcribe a lo
** DEPRECATED ** This repo has been deprecated. Please visit Megatron-LM for our up to date Large-scale unsupervised pretraining and finetuning code.
Scattertext 0.1.0.0 A tool for finding distinguishing terms in corpora and displaying them in an interactive HTML scatter plot. Points corresponding t
Text Classification The purpose of this repository is to create a neural network model of NLP with deep learning for binary classification of texts re
Text is no more Enough! A Benchmark for Profile-based Spoken Language Understanding This repository contains the official PyTorch implementation of th
New & (hopefully) Improved CYGNUS with several API updates, user updates, and online/offline operations added!!!