KoBART model on huggingface transformers

Last update: Dec 07, 2022

Related tags

Text Data & NLP kobart-transformers

Overview

KoBART-Transformers

SKT에서 공개한 KoBART를 편리하게 사용할 수 있게 transformers로 포팅하였습니다.

Install (Optional)

BartModel과 PreTrainedTokenizerFast를 이용하면 설치하실 필요 없습니다.

pip install kobart-transformers

Tokenizer

PreTrainedTokenizerFast를 이용하여 구현되었습니다.
PreTrainedTokenizerFast.from_pretrained("hyunwoongko/kobart")와 동일합니다.

>>> from kobart_transformers import get_kobart_tokenizer
>>> # from transformers import PreTrainedTokenizerFast

>>> kobart_tokenizer = get_kobart_tokenizer()
>>> # kobart_tokenizer = PreTrainedTokenizerFast.from_pretrained("hyunwoongko/kobart")

>>> kobart_tokenizer.tokenize("안녕하세요. 한국어 BART 입니다.🤣:)l^o")
['▁안녕하', '세요.', '▁한국어', '▁B', 'A', 'R', 'T', '▁입', '니다.', '🤣', ':)', 'l^o']

Model

BartModel을 이용하여 구현되었습니다.
BartModel.from_pretrained("hyunwoongko/kobart")와 동일합니다.

>>> from kobart_transformers import get_kobart_model, get_kobart_tokenizer
>>> # from transformers import BartModel

>>> kobart_tokenizer = get_kobart_tokenizer()
>>> model = get_kobart_model()
>>> # model = BartModel.from_pretrained("hyunwoongko/kobart")

>>> inputs = kobart_tokenizer(['안녕하세요.'], return_tensors='pt')
>>> model(inputs['input_ids'])
Seq2SeqModelOutput(last_hidden_state=tensor([[[-0.4488, -4.3651,  3.2349,  ...,  5.8916,  4.0497,  3.5468],
         [-0.4096, -4.6106,  2.7189,  ...,  6.1745,  2.9832,  3.0930]]],
       grad_fn=<TransposeBackward0>), past_key_values=None, decoder_hidden_states=None, decoder_attentions=None, cross_attentions=None, encoder_last_hidden_state=tensor([[[ 0.4624, -0.2475,  0.0902,  ...,  0.1127,  0.6529,  0.2203],
         [ 0.4538, -0.2948,  0.2556,  ..., -0.0442,  0.6858,  0.4372]]],
       grad_fn=<TransposeBackward0>), encoder_hidden_states=None, encoder_attentions=None)

For Seq2Seq Training

seq2seq 학습시에는 아래와 같이 get_kobart_for_conditional_generation()을 이용합니다.
BartForConditionalGeneration.from_pretrained("hyunwoongko/kobart")와 동일합니다.

>>> from kobart_transformers import get_kobart_for_conditional_generation
>>> # from transformers import BartForConditionalGeneration

>>> model = get_kobart_for_conditional_generation()
>>> # model = BartForConditionalGeneration.from_pretrained("hyunwoongko/kobart")

Updates Notes

version 0.1

pad 토큰이 설정되지 않은 에러를 해결하였습니다.

from kobart import get_kobart_tokenizer
kobart_tokenizer = get_kobart_tokenizer()
kobart_tokenizer(["한국어", "BART 모델을", "소개합니다."], truncation=True, padding=True)
{
'input_ids': [[28324, 3, 3, 3, 3], [15085, 264, 281, 283, 24224], [15630, 20357, 3, 3, 3]], 
'token_type_ids': [[0, 0, 0, 0, 0], [0, 0, 0, 0, 0], [0, 0, 0, 0, 0]], 
'attention_mask': [[1, 0, 0, 0, 0], [1, 1, 1, 1, 1], [1, 1, 0, 0, 0]]
}

version 0.1.3

get_kobart_for_conditional_generation()를 __init__.py에 등록하였습니다.

version 0.1.4

누락되었던 special_tokens_map.json을 추가하였습니다.
이제 pip install 없이 KoBART를 이용할 수 있습니다.
thanks to bernardscumm

KoBART model on huggingface transformers

Related tags

Overview

KoBART-Transformers

Install (Optional)

Tokenizer

Model

For Seq2Seq Training

Updates Notes

version 0.1

version 0.1.3

version 0.1.4

Reference

Owner

Hyunwoong Ko

Fast, DB Backed pretrained word embeddings for natural language processing.

Natural language Understanding Toolkit

apple's universal binaries BUT MUCH WORSE (PRACTICAL SHITPOST) (NOT PRODUCTION READY)

Training code for Korean multi-class sentiment analysis

Code from the paper "High-Performance Brain-to-Text Communication via Handwriting"

Translation for Trilium Notes. Trilium Notes 中文版.

Code for the ACL 2021 paper "Structural Guidance for Transformer Language Models"

Textpipe: clean and extract metadata from text

Uses Google's gTTS module to easily create robo text readin' on command.

SimpleChinese2 集成了许多基本的中文NLP功能，使基于 Python 的中文文字处理和信息提取变得简单方便。

🦅 Pretrained BigBird Model for Korean (up to 4096 tokens)

Kinky furry assitant based on GPT2

Coreference resolution for English, French, German and Polish, optimised for limited training data and easily extensible for further languages

Training open neural machine translation models

L3Cube-MahaCorpus a Marathi monolingual data set scraped from different internet sources.

A natural language modeling framework based on PyTorch

AutoGluon: AutoML for Text, Image, and Tabular Data

Задания КЕГЭ по информатике 2021 на Python

Python package for performing Entity and Text Matching using Deep Learning.

A tool helps build a talk preview image by combining the given background image and talk event description