GitHub - chengzhipanpan/XLMR4MT: code for our EMNLP findings paper "Extrapolating Multilingual Language Understanding Models as Multilingual Language Generators"

Overview

Code for paper Extrapolating Multilingual Language Understanding Models as Multilingual Language Generators In this paper, we propose a Semantic Guided Alignmnt-then-Denoising (SGA) approach, which adapts a pretrained multilingual understanding model, XLM-R, to a non-autoregressive language generator in a parameter-efficient way.

Unrecovering a blank sentence to target translation bt iterative refinement

Main Architecture

Requirements

python == 3.7.11
torch >= 1.9
thumt == 1.2.0
fairseq == 0.12.2
transformers >= 4.27.1
sentencepiece == 0.1.99

Quick Start

Preparing Dataset

Download TED dataset via

bash data/download_ML50_v1.sh
bash preprocess_ML50_v1.sh

Training

bash scripts/train.sh

Inference

bash scripts/inference.sh

Results

We Update the results of mBART + prompt-tuning to show that XLM-R can achieve comparable performance with mBART in translation under the adaptation setting.

Citation

@article{wu2023extrapolating,
  title={Extrapolating Multilingual Understanding Models as Multilingual Generators},
  author={Wu, Bohong and 
        Yuan, Fei and 
        Zhao, Hai and 
        Li, Lei and 
        Xu, Jingjing},
  journal={findings of EMNLP 2023},
  year={2023}
}

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.idea		.idea
data		data
figures		figures
logs		logs
scripts		scripts
thumt		thumt
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Overview

Requirements

Quick Start

Preparing Dataset

Training

Inference

Results

Citation

About

Releases

Packages

Languages

chengzhipanpan/XLMR4MT

Folders and files

Latest commit

History

Repository files navigation

Overview

Requirements

Quick Start

Preparing Dataset

Training

Inference

Results

Citation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages