문장단위로 분절된 나무위키 데이터셋. Releases에서 다운로드 받거나, tfds-korean을 통해 다운로드 받으세요.

Overview

Namuwiki corpus

문장단위로 미리 분절된 나무위키 코퍼스.

목적이 LM등에서 사용하기 위한 데이터셋이라, 링크/이미지/테이블 등등이 잘려있습니다.

문장 단위 분절은 kss를 활용하였습니다.

라이선스는 나무위키에 명시된 바와 같이 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다.

사용법

Releases에서 직접 다운로드받은 후 사용하시거나, tfds-korean 패키지(카탈로그 페이지)를 이용해 사용하세요.

포맷

문서1
문장1
문장2
문장3

문서1 - 제목1
문장1
문장2
문장3

문서1 - 제목1 - 하위 제목1
문장1
문장2
문장3

...

예시

나성범 - 플레이 스타일 - 주루
2015 시즌 20-20 클럽에 가입한 경력을 갖고 있는 준족으로, 슬럼프를 겪었던 2016년과 부상으로 일찌감치 시즌을 마감한 2019년을 제외하고는 데뷔 이래 매년 두 자릿수의 도루를 기록했다.
상당한 거구의 사나이지만 팀 동료이자 리그를 대표하는 리드오프인 박민우보다도 순수 주력이 빠르다.
중심타선에 배치되는 타자임에도 어느 타구든지 가리지 않고 1루를 향해 전력질주를 하며, 이러한 플레이 덕분에 내야안타도 많이 생산해낸다.
그리하여 병살타가 될만한 타구도 본인의 발로 어찌어찌 모면하는 경우도 꽤 있다.
주루 센스 역시 좋은 선수이며 적극성 역시 뛰어난 편.
다만 2019 시즌 중반 십자인대가 파열되는 부상을 입으면서 예전처럼 적극적인 주루를 시도하지는 않게 되었다.

나성범 - 플레이 스타일 - 수비
KBO 리그의 대표적인 강견 외야수 중 하나로, 투수로서도 시속 150km/h에 육박하는 공을 던질 수 있을 정도의 강한 어깨를 자랑한다.
지금은 공격력을 살리기 위해 우익수로 전향을 했지만 데뷔 초 2년 간 풀타임으로 중견수를 소화했을 정도의 수비력을 갖춘 선수이다.
나성범의 수비 RAA는 데뷔 시즌부터 꾸준히 플러스를 기록하는 중이며, 덕분에 WAR 등등의 종합 지표에서 굉장한 이득을 보고 있다.
세이버메트릭스로 봐도 프로 데뷔 이후 스탯티즈 기준 통산 WAR이 28.44로 동 시기 전체 야수 중 4위를 기록하고 있다.
그러나 2018년 메이저리그 스카우터 말에 따르면 "어깨가 강한 것은 긍정적이다. 그러나 수비 당시의 풋워크나 전반적인 수비 능력은 좀 더 향상될 필요가 있다”라고 한다.
2019 시즌에는 주전 중견수로 낙점한 김성욱이 시즌 초반부터 크게 부진하면서 5년 만에 중견수 자리로 돌아왔지만 큰 무리없이 좋은 수비를 보여주었다.
2020년에는 부상 여파로 RNG가 1/10로 폭락했고, 사실상 풀타임 지명타자로 출장했다.

고려사항

이 스크립트 사용하기엔 파일 용량(>8GB)이 너무 큰데?

동적으로 처리할 수 있을 것 같긴한데, 32GB 머신에서 일단 다 로드해서 처리하는 중이예요. "미리 최소한으로 정제해서 사용하기 좋은 포맷으로 만들어두고, 후처리는 알아서 하면 되겠다"라는 생각이라 여러 파일로 나눠진 형태의 압축파일로 제공합니다. 메모리가 혹시 모자라시면 ijson 같은 라이브러리를 이용해서 수정하시거나 다른 램많은 분에게 부탁을 해주세요.


전처리 과정에서 오류가 있는 부분은 이슈로 알려주세요.

You might also like...
Releases(210301-210612)
edge-SR: Super-Resolution For The Masses

edge-SR: Super Resolution For The Masses Citation Pablo Navarrete Michelini, Yunhua Lu and Xingqun Jiang. "edge-SR: Super-Resolution For The Masses",

Pablo 40 Nov 10, 2022
Semantic search for quotes.

squote A semantic search engine that takes some input text and returns some (questionably) relevant (questionably) famous quotes. Built with: bert-as-

cjwallace 11 Jun 25, 2022
NewsMTSC: (Multi-)Target-dependent Sentiment Classification in News Articles

NewsMTSC: (Multi-)Target-dependent Sentiment Classification in News Articles NewsMTSC is a dataset for target-dependent sentiment classification (TSC)

Felix Hamborg 79 Dec 30, 2022
Associated Repository for "Translation between Molecules and Natural Language"

MolT5: Translation between Molecules and Natural Language Associated repository for "Translation between Molecules and Natural Language". Table of Con

67 Dec 15, 2022
Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

Hiring We are hiring at all levels (including FTE researchers and interns)! If you are interested in working with us on NLP and large-scale pre-traine

Microsoft 7.8k Jan 09, 2023
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

CRNN paper:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition 1. create your ow

Tsukinousag1 3 Apr 02, 2022
A Flask Sentiment Analysis API, with visual implementation

The Sentiment Analysis Api was created using python flask module,it allows users to parse a text or sentence throught the (?text) arguement, then view the sentiment analysis of that sentence. It can

Ifechukwudeni Oweh 10 Jul 17, 2022
Code for the paper TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning Tasks

TestRank in Pytorch Code for the paper TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning Tasks by Yu Li, Min Li, Qiuxia Lai, Ya

3 May 19, 2022
A BERT-based reverse dictionary of Korean proverbs

Wisdomify A BERT-based reverse-dictionary of Korean proverbs. 김유빈 : 모델링 / 데이터 수집 / 프로젝트 설계 / back-end 김종윤 : 데이터 수집 / 프로젝트 설계 / front-end / back-end 임용

94 Dec 08, 2022
Pipeline for training LSA models using Scikit-Learn.

Latent Semantic Analysis Pipeline for training LSA models using Scikit-Learn. Usage Instead of writing custom code for latent semantic analysis, you j

Dani El-Ayyass 23 Sep 05, 2022
🐍💯pySBD (Python Sentence Boundary Disambiguation) is a rule-based sentence boundary detection that works out-of-the-box.

pySBD: Python Sentence Boundary Disambiguation (SBD) pySBD - python Sentence Boundary Disambiguation (SBD) - is a rule-based sentence boundary detecti

Nipun Sadvilkar 549 Jan 06, 2023
Simple, hackable offline speech to text - using the VOSK-API.

Simple, hackable offline speech to text - using the VOSK-API.

Campbell Barton 844 Jan 07, 2023
A Survey of Natural Language Generation in Task-Oriented Dialogue System (TOD): Recent Advances and New Frontiers

A Survey of Natural Language Generation in Task-Oriented Dialogue System (TOD): Recent Advances and New Frontiers

Libo Qin 132 Nov 25, 2022
Random Directed Acyclic Graph Generator

DAG_Generator Random Directed Acyclic Graph Generator verison1.0 简介 工作流通常由DAG(有向无环图)来定义,其中每个计算任务$T_i$由一个顶点(node,task,vertex)表示。同时,任务之间的每个数据或控制依赖性由一条加权

Livion 17 Dec 27, 2022
PyTorch implementation of Tacotron speech synthesis model.

tacotron_pytorch PyTorch implementation of Tacotron speech synthesis model. Inspired from keithito/tacotron. Currently not as much good speech quality

Ryuichi Yamamoto 279 Dec 09, 2022
Protein Language Model

ProteinLM We pretrain protein language model based on Megatron-LM framework, and then evaluate the pretrained model results on TAPE (Tasks Assessing P

THUDM 77 Dec 27, 2022
Facilitating the design, comparison and sharing of deep text matching models.

MatchZoo Facilitating the design, comparison and sharing of deep text matching models. MatchZoo 是一个通用的文本匹配工具包,它旨在方便大家快速的实现、比较、以及分享最新的深度文本匹配模型。 🔥 News

Neural Text Matching Community 3.7k Jan 02, 2023
English loanwords in the world's languages

Wiktionary as CLDF Content cldf1 and cldf2 contain cldf-conform data sets with a total of 2 377 756 entries about the vocabulary of all 1403 languages

Viktor Martinović 3 Jan 14, 2022
Nested Named Entity Recognition

Nested Named Entity Recognition Training Dataset: CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark url: https://tianchi.aliyun.

8 Dec 25, 2022
NLP tool to extract emotional phrase from tweets 🤩

Emotional phrase extractor Extract phrase in the given text that is used to express the sentiment. Capturing sentiment in language is important in the

Shahul ES 38 Oct 17, 2022