[NLP/TS] Parallel Corpora for Text Simplification (TS task 데이터 정리)
by Heejin Do
Text Simplification에서 사용되어 온 Parallel Corpus들을 접근 가능한 링크와 함께 정리해보았다.
1. EW-SEW (URL)
- English Dataset / 137,000 aligned pairs
- EW(English Wikipedia)와 SEW(Simple English Wikipedia)의 문장과 문서를 parallel 하게 구성한 데이터셋
- reordering, inserting, deleting의 기본 simplification 연산을 포함
2. PWKP (URL)
- English Dataset / 108,016 aligned pairs
- 65,133개의 EW, SEW article로부터 추출
- aligned by sentence-level TF-IDF similarity measure
3. SS Corpus (URL)
- English Dataset / 492,993 aligned pairs
- EW, SEW에서 title을 매칭함으로써 연결된 126,725개의 article 쌍으로부터 추출
4. Newsela (URL)
- English Dataset / 10,787 aligned pairs
- 인간 전문가가 뉴스 article을 여러 읽기 레벨별로 단순화한 데이터셋
5. OneStopEnglish (URL)
- English Dataset / ~3,154 aligned pairs
- elementary(ELE), intermediate(INT), advanced(ADV)의 세개 읽기 레벨 중 하나에 속하는, 189개의 영어 텍스트로 이루어져 있음.
- ELE-INT, ELE-ADV, INT-ADV 각 쌍에 대해 1674, 2166, 3154개의 문장 단위로 aligned 된 데이터셋
6. Alector
- French Dataset / 79 texts & corresponding simplified texts
- 프랑스 초등학생용 텍스트에서 각 레벨별(morpho-syntactic, lexical, discourse) 전문가로부터 추출 된 데이터셋
7. SIMPITIKI (URL)
- Italian Dataset / 1,166 aligned pairs
- Italian Wikipedia revision 기록에서 semi-automatic 방식으로 추출된 데이터와,
- Administrative 영역에서 manually 방식으로 추출된 sentence-by-sentence 데이터로 구성됨
8. PaCCSSIT
- Italian Dataset / 63,000 aligned pairs
- 대용량 raw corpus로부터 자동 생성된 데이터셋
9. Simplext
- Spanish Dataset / 200 news texts
- 4개(natural, international, culture, society) 뉴스 영역에서 추출된 parallel corpus
Subscribe via RSS