Text Simplification에서 사용되어 온 Parallel Corpus들을 접근 가능한 링크와 함께 정리해보았다.

1. EW-SEW (URL)

  • English Dataset / 137,000 aligned pairs
  • EW(English Wikipedia)와 SEW(Simple English Wikipedia)의 문장과 문서를 parallel 하게 구성한 데이터셋
  • reordering, inserting, deleting의 기본 simplification 연산을 포함

2. PWKP (URL)

  • English Dataset / 108,016 aligned pairs
  • 65,133개의 EW, SEW article로부터 추출
  • aligned by sentence-level TF-IDF similarity measure

3. SS Corpus (URL)

  • English Dataset / 492,993 aligned pairs
  • EW, SEW에서 title을 매칭함으로써 연결된 126,725개의 article 쌍으로부터 추출

4. Newsela (URL)

  • English Dataset / 10,787 aligned pairs
  • 인간 전문가가 뉴스 article을 여러 읽기 레벨별로 단순화한 데이터셋

5. OneStopEnglish (URL)

  • English Dataset / ~3,154 aligned pairs
  • elementary(ELE), intermediate(INT), advanced(ADV)의 세개 읽기 레벨 중 하나에 속하는, 189개의 영어 텍스트로 이루어져 있음.
  • ELE-INT, ELE-ADV, INT-ADV 각 쌍에 대해 1674, 2166, 3154개의 문장 단위로 aligned 된 데이터셋

6. Alector

  • French Dataset / 79 texts & corresponding simplified texts
  • 프랑스 초등학생용 텍스트에서 각 레벨별(morpho-syntactic, lexical, discourse) 전문가로부터 추출 된 데이터셋

7. SIMPITIKI (URL)

  • Italian Dataset / 1,166 aligned pairs
  • Italian Wikipedia revision 기록에서 semi-automatic 방식으로 추출된 데이터와,
  • Administrative 영역에서 manually 방식으로 추출된 sentence-by-sentence 데이터로 구성됨

8. PaCCSSIT

  • Italian Dataset / 63,000 aligned pairs
  • 대용량 raw corpus로부터 자동 생성된 데이터셋

9. Simplext

  • Spanish Dataset / 200 news texts
  • 4개(natural, international, culture, society) 뉴스 영역에서 추출된 parallel corpus