[NLP/TS] Parallel Corpora for Text Simplification (TS task 데이터 정리)

May 2, 2022

in Ai_concepts

Text Simplification에서 사용되어 온 Parallel Corpus들을 접근 가능한 링크와 함께 정리해보았다.

1. EW-SEW (URL)

English Dataset / 137,000 aligned pairs
EW(English Wikipedia)와 SEW(Simple English Wikipedia)의 문장과 문서를 parallel 하게 구성한 데이터셋
reordering, inserting, deleting의 기본 simplification 연산을 포함

2. PWKP (URL)

English Dataset / 108,016 aligned pairs
65,133개의 EW, SEW article로부터 추출
aligned by sentence-level TF-IDF similarity measure

3. SS Corpus (URL)

English Dataset / 492,993 aligned pairs
EW, SEW에서 title을 매칭함으로써 연결된 126,725개의 article 쌍으로부터 추출

4. Newsela (URL)

English Dataset / 10,787 aligned pairs
인간 전문가가 뉴스 article을 여러 읽기 레벨별로 단순화한 데이터셋

5. OneStopEnglish (URL)

English Dataset / ~3,154 aligned pairs
elementary(ELE), intermediate(INT), advanced(ADV)의 세개 읽기 레벨 중 하나에 속하는, 189개의 영어 텍스트로 이루어져 있음.
ELE-INT, ELE-ADV, INT-ADV 각 쌍에 대해 1674, 2166, 3154개의 문장 단위로 aligned 된 데이터셋

6. Alector

French Dataset / 79 texts & corresponding simplified texts
프랑스 초등학생용 텍스트에서 각 레벨별(morpho-syntactic, lexical, discourse) 전문가로부터 추출 된 데이터셋

7. SIMPITIKI (URL)

Italian Dataset / 1,166 aligned pairs
Italian Wikipedia revision 기록에서 semi-automatic 방식으로 추출된 데이터와,
Administrative 영역에서 manually 방식으로 추출된 sentence-by-sentence 데이터로 구성됨

8. PaCCSSIT

Italian Dataset / 63,000 aligned pairs
대용량 raw corpus로부터 자동 생성된 데이터셋

9. Simplext

Spanish Dataset / 200 news texts
4개(natural, international, culture, society) 뉴스 영역에서 추출된 parallel corpus

Tags: ts, dataset, parallel, corpora

comments powered by Disqus