mbart-chinese
基于mbart-large-cc25 的中文生成任务
Input
-
source input:
text+</s>+lang_code -
target input:
lang_code+text+</s>
Usage
token_ids_mapping.json:从全量词表中抽取出的中文字符及高频英文字符,在老新词典中的映射关系表。
Todo
- mbart在中文标题生成任务的评测结果
基于mbart-large-cc25 的中文生成任务
source input: text + </s> + lang_code
target input: lang_code + text + </s>
token_ids_mapping.json:从全量词表中抽取出的中文字符及高频英文字符,在老新词典中的映射关系表。
Neural G2P to portuguese language Grapheme-to-phoneme (G2P) conversion is the process of generating pronunciation for words based on their written for
Notice: This Git branch (dev) contains the CLTK's upcoming major release (v. 1.0.0). See https://github.com/cltk/cltk/tree/master and https://docs.clt
AliceMind AliceMind: ALIbaba's Collection of Encoder-decoders from MinD (Machine IntelligeNce of Damo) Lab This repository provides pre-trained encode
mlcode Basic APIs for ML applications. Django REST Application Contains REST API
Workshop: Enterprise-Scale NLP with Hugging Face & Amazon SageMaker Earlier this year we announced a strategic collaboration with Amazon to make it ea
Full Spectrum Bioinformatics is a free online text designed to introduce key topics in Bioinformatics using the Python programming language. The text is written in interactive Jupyter Notebooks, whic
LewusBot Twitch ChatBot built in python with twitchio library. Uses twitch/leagu
ZH-EN NMT Chinese to English Neural Machine Translation This project is inspired by Stanford's CS224N NMT Project Dataset used in this project: News C
Getting to the meat of g-code. Easy, fast, effective, and automatic g-code compression! MeatPack nearly doubles the effective data rate of a standard
Sploitus Command line search tool for sploitus.com. Think searchsploit, but with
KR-BERT-SimCSE Implementing SimCSE(paper, official repository) using TensorFlow 2 and KR-BERT. Training Unsupervised python train_unsupervised.py --mi
SnowNLP: Simplified Chinese Text Processing SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob
Paradigm Shift in NLP Welcome to the webpage for "Paradigm Shift in Natural Language Processing". Some resources of the paper are constantly maintaine
Speech Separation The simple project to separate mixed voice (2 clean voices) to 2 separate voices. Result Example (Clisk to hear the voices): mix ||
Latent Semantic Analysis Pipeline for training LSA models using Scikit-Learn. Usage Instead of writing custom code for latent semantic analysis, you j
Conditional probing: measuring usable information beyond a baseline
[EMNLP 2021] Mirror-BERT: Converting Pretrained Language Models to universal text encoders without labels.
New & (hopefully) Improved CYGNUS with several API updates, user updates, and online/offline operations added!!!
japanese-gpt2 This repository provides the code for training Japanese GPT-2 models. This code has been used for producing japanese-gpt2-medium release
AI-powered literature discovery and review engine for medical/scientific papers paperai is an AI-powered literature discovery and review engine for me