mbart-chinese
基于mbart-large-cc25 的中文生成任务
Input
-
source input:
text+</s>+lang_code -
target input:
lang_code+text+</s>
Usage
token_ids_mapping.json:从全量词表中抽取出的中文字符及高频英文字符,在老新词典中的映射关系表。
Todo
- mbart在中文标题生成任务的评测结果
基于mbart-large-cc25 的中文生成任务
source input: text + </s> + lang_code
target input: lang_code + text + </s>
token_ids_mapping.json:从全量词表中抽取出的中文字符及高频英文字符,在老新词典中的映射关系表。
Stat4ML Statistics and Mathematics for Machine Learning, Deep Learning , Deep NLP This is the first course from our trio courses: Statistics Foundatio
European Nopsled CTF Archive This is an archive of collected material from various Capture the Flag competitions that the European Nopsled team played
Sequence -----------+-- 3D_structure -- 3D_module --+ +-- ? | |
The project has set itself the goal of analyzing the thoughts and interaction of Italian users through the social posts expressed through the Twitter platform on the day of the entry into force of th
Google Chat GPT-3 This repo will help you fine-tune GPT-3 with a Google Chat conversation history. The trained model will be able to converse as one o
Moment-DETR QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries Jie Lei, Tamara L. Berg, Mohit Bansal For dataset de
Deduplication is the task to combine different representations of the same real world entity. This package implements deduplication using active learning. Active learning allows for rapid training wi
Sploitus Command line search tool for sploitus.com. Think searchsploit, but with
Purpose This tool is designed to aid an operator in modifying ADCS certificate templates so that a created vulnerable state can be leveraged for privi
Styleformer A Neural Language Style Transfer framework to transfer natural language text smoothly between fine-grained language styles like formal/cas
DeLighT: Very Deep and Light-weight Transformers This repository contains the source code of our work on building efficient sequence models: DeFINE (I
Easy Data Augmentation Implementation This repository contains my Implementation for the paper EDA: Easy Data Augmentation Techniques for Boosting Per
DziriBERT is the first Transformer-based Language Model that has been pre-trained specifically for the Algerian Dialect.
sleepwalk Exploring dimension-reduced embeddings This is the code repository. See here for the Sleepwalk web page. License and disclaimer This program
LSTC: Boosting Atomic Action Detection with Long-Short-Term Context This Repository contains the code on AVA of our ACM MM 2021 paper: LSTC: Boosting
Reranker is a lightweight, effective and efficient package for training and deploying deep languge model reranker in information retrieval (IR), question answering (QA) and many other natural languag
NLP: SLU tagging
HyperTag helps humans intuitively express how they think about their files using tags and machine learning. Represent how you think using tags. Find what you look for using semantic search for your t
Dust-model-dichotomous-performance-analysis Using a collated dataset of 90,000 dust point source observations from 9 drylands studies from around the
BERTGEN This repository is the implementation of the paper "BERTGEN: Multi-task Generation through BERT" (https://arxiv.org/abs/2106.03484). The codeb