[2020 INTERSPEECH] Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition #144

Jasonlee1995 · 2023-07-04T05:29:12Z

Code-switching automatic speech recognition (CS ASR)에서 성능을 높이는데 가장 큰 문제가 되는 부분은 data가 부족하다는 것임

기존 연구들은 다음과 같은 방향으로 문제점을 극복하고자 했음
(2가지 언어만 존재한다고 가정)

Multi-task learning : STT뿐만 아니라 language specific attributes task를 같이 학습하여, data sparsity를 alleviate
Adaptation : 각 언어에 대해 학습한 STT 모델을 code-switching scenario에 adapt
a. using various models : 언어마다 language dependent STT model을 학습한 후, 이들의 combination을 CS speech에 optimize
b. using one model : bilingual STT model을 학습한 후, CS speech에 optimize

2.b 방식의 단점은, 서로 다른 2개의 언어들에 대해 optimize되기에 각 언어에 대해 best가 아닐 수 있다는 것임
(it is optimized to the average of two very different languages, that cannot be the best for either one)

2.a 방식의 challenge는, 각 모델들의 decoder를 어떻게 single un-biased decoder로 integrate하는지임

저자들은 multi-encoder-decoder (MED) Transformer architecture을 제안하여 2.a의 challenge를 해결

중요하다고 생각되는 부분만 간단히 요약

1. Multi-Encoder-Decoder Transformer

1.1. Architecture

앞서 소개한 것과 같이, language dependent STT model을 monolingual ASR dataset으로 학습한 뒤, 이를 integration한 MED Transformer를 CS ASR dataset으로 fine-tune하는 것이 큰 그림임

Encoder는 따로 integration하지 않고, decoder 중 language-specific MHA만 가져와서 single decoder로 만듬
(multi-encoder-decoder (MED) Transformer라고 불리는 이유)

자세한 detail은 다음과 같음

1.2. Multi-Objective Learning

Monotonic alignment로 benefit을 얻기 위해, CTC loss function을 같이 학습하는 multi-objective learning (MOL)을 사용

2. Experiments

2.1. Corpora

Language dependent corpora
AISHELL-2 : 1K hours monolingual Mandarin read speech
LibriSpeech : 960 hours monolingual English read speech
CS corpora
SEAME : 112 hours of Mandarin-English code-switching conversational speech

SEAME corpus에는 Table 1과 같이 monolingual speech도 포함되어있는데, 따로 구분하지 않고 그냥 학습

ASR model의 CS performance를 fairly evaluate하기 위해, Table 2와 같이 SEAME corpus를 나눔
($\textrm{eval}_{\textrm{man}}$ : CS speech with Mandarin, $\textrm{eval}_{\textrm{sge}}$ : CS speech with Singapore English)

2.2. Experimental Setup

Output unit
English : 5,000 subwords generated from LibriSpeech using BPE
Chinese : 4,230 characters extracted from AISHELL-1
Total 9,230 Character-BPE modeling units
Inference
10 hypotheses width beam search + one-pass CTC decoding
shallow fusion with 2-layer RNN LM trained on training transcriptions of SEAME with 2,574 Chinese characters and 12,822 English words
Evaluation metric
TER (token error rate) : token units of Mandarin character and English word

3. Results

Transformer : single encoder-decoder pipeline
Transformer + MOL : Transformer with multi-objective learning (CTC loss)
Transformer + MOL + LM : Transformer + MOL with shallow fusion

CTC joint training, LM shallow fusion이 성능을 향상시킨다는 것을 알 수 있으며, Transformer + MOL + LM를 default로 설정

Baseline : Transformer + MOL + LM
M-En : 2 language-specific encoder + standard decoder + MOL + LM
M-De : standard encoder + 2 language-specific MHA layers in the decoder + MOL + LM
MED : 2 language-specific encoder + 2 language-specific MHA layers in the decoder + MOL + LM

전반적으로 Eng의 TER이 Man의 TER보다 높기에, English words recognition이 Mandarin characters보다 challenging함을 알 수 있음

M-En의 성능이 Baseline보다 좋기에, language-specific encoder가 효과적임을 알 수 있음

M-De는 Baseline에 비해 성능이 떨어지기에, language-specific MHA만 사용하는 것은 어떠한 benefit도 없다는 것을 알 수 있음
(decoder는 encoder의 output에 영향을 받기 때문에 encoder가 없으면 쓸모가 없어짐)

M-En과 MED의 성능이 비슷하데 MED의 성능이 약간 더 좋기에, encoder와 decoder를 같이 사용하면 효과가 있음

각 encoder의 final layer output을 normalize하여 시각화
(x축 : attention vector indices, y축 : frame indices after down-sampling)

Monolingual speech가 주어졌을 때, 해당 언어의 encoder의 variance가 큰 것을 확인할 수 있음

이를 통해 저자들이 제안한 MED Transformer architecture가 language-specific information을 잘 capture하며, mixed languages를 잘 discriminate한다는 것을 알 수 있음

The text was updated successfully, but these errors were encountered:

Jasonlee1995 added Speech Related with Speech tasks Discriminative Discriminative Modeling labels Jul 4, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[2020 INTERSPEECH] Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition #144

[2020 INTERSPEECH] Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition #144

Jasonlee1995 commented Jul 4, 2023

[2020 INTERSPEECH] Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition #144

[2020 INTERSPEECH] Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition #144

Comments

Jasonlee1995 commented Jul 4, 2023

1. Multi-Encoder-Decoder Transformer

1.1. Architecture

1.2. Multi-Objective Learning

2. Experiments

2.1. Corpora

2.2. Experimental Setup

3. Results