Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[2020 INTERSPEECH] Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition #144

Open
Jasonlee1995 opened this issue Jul 4, 2023 · 0 comments
Labels
Discriminative Discriminative Modeling Speech Related with Speech tasks

Comments

@Jasonlee1995
Copy link
Owner

Code-switching automatic speech recognition (CS ASR)에서 성능을 높이는데 가장 큰 문제가 되는 부분은 data가 부족하다는 것임

기존 연구들은 다음과 같은 방향으로 문제점을 극복하고자 했음
(2가지 언어만 존재한다고 가정)

  1. Multi-task learning : STT뿐만 아니라 language specific attributes task를 같이 학습하여, data sparsity를 alleviate
  2. Adaptation : 각 언어에 대해 학습한 STT 모델을 code-switching scenario에 adapt
    a. using various models : 언어마다 language dependent STT model을 학습한 후, 이들의 combination을 CS speech에 optimize
    b. using one model : bilingual STT model을 학습한 후, CS speech에 optimize

2.b 방식의 단점은, 서로 다른 2개의 언어들에 대해 optimize되기에 각 언어에 대해 best가 아닐 수 있다는 것임
(it is optimized to the average of two very different languages, that cannot be the best for either one)

2.a 방식의 challenge는, 각 모델들의 decoder를 어떻게 single un-biased decoder로 integrate하는지임

저자들은 multi-encoder-decoder (MED) Transformer architecture을 제안하여 2.a의 challenge를 해결

중요하다고 생각되는 부분만 간단히 요약

1. Multi-Encoder-Decoder Transformer

1.1. Architecture

image

앞서 소개한 것과 같이, language dependent STT model을 monolingual ASR dataset으로 학습한 뒤, 이를 integration한 MED Transformer를 CS ASR dataset으로 fine-tune하는 것이 큰 그림임

Encoder는 따로 integration하지 않고, decoder 중 language-specific MHA만 가져와서 single decoder로 만듬
(multi-encoder-decoder (MED) Transformer라고 불리는 이유)

자세한 detail은 다음과 같음

image

1.2. Multi-Objective Learning

image

Monotonic alignment로 benefit을 얻기 위해, CTC loss function을 같이 학습하는 multi-objective learning (MOL)을 사용

2. Experiments

2.1. Corpora

  • Language dependent corpora
    AISHELL-2 : 1K hours monolingual Mandarin read speech
    LibriSpeech : 960 hours monolingual English read speech
  • CS corpora
    SEAME : 112 hours of Mandarin-English code-switching conversational speech
image

SEAME corpus에는 Table 1과 같이 monolingual speech도 포함되어있는데, 따로 구분하지 않고 그냥 학습

image

ASR model의 CS performance를 fairly evaluate하기 위해, Table 2와 같이 SEAME corpus를 나눔
($\textrm{eval}_{\textrm{man}}$ : CS speech with Mandarin, $\textrm{eval}_{\textrm{sge}}$ : CS speech with Singapore English)

2.2. Experimental Setup

  • Output unit
    English : 5,000 subwords generated from LibriSpeech using BPE
    Chinese : 4,230 characters extracted from AISHELL-1
    Total 9,230 Character-BPE modeling units
  • Inference
    10 hypotheses width beam search + one-pass CTC decoding
    shallow fusion with 2-layer RNN LM trained on training transcriptions of SEAME with 2,574 Chinese characters and 12,822 English words
  • Evaluation metric
    TER (token error rate) : token units of Mandarin character and English word

3. Results

image

Transformer : single encoder-decoder pipeline
Transformer + MOL : Transformer with multi-objective learning (CTC loss)
Transformer + MOL + LM : Transformer + MOL with shallow fusion

CTC joint training, LM shallow fusion이 성능을 향상시킨다는 것을 알 수 있으며, Transformer + MOL + LM를 default로 설정

image

Baseline : Transformer + MOL + LM
M-En : 2 language-specific encoder + standard decoder + MOL + LM
M-De : standard encoder + 2 language-specific MHA layers in the decoder + MOL + LM
MED : 2 language-specific encoder + 2 language-specific MHA layers in the decoder + MOL + LM

전반적으로 Eng의 TER이 Man의 TER보다 높기에, English words recognition이 Mandarin characters보다 challenging함을 알 수 있음

M-En의 성능이 Baseline보다 좋기에, language-specific encoder가 효과적임을 알 수 있음

M-De는 Baseline에 비해 성능이 떨어지기에, language-specific MHA만 사용하는 것은 어떠한 benefit도 없다는 것을 알 수 있음
(decoder는 encoder의 output에 영향을 받기 때문에 encoder가 없으면 쓸모가 없어짐)

M-En과 MED의 성능이 비슷하데 MED의 성능이 약간 더 좋기에, encoder와 decoder를 같이 사용하면 효과가 있음

image

각 encoder의 final layer output을 normalize하여 시각화
(x축 : attention vector indices, y축 : frame indices after down-sampling)

Monolingual speech가 주어졌을 때, 해당 언어의 encoder의 variance가 큰 것을 확인할 수 있음

이를 통해 저자들이 제안한 MED Transformer architecture가 language-specific information을 잘 capture하며, mixed languages를 잘 discriminate한다는 것을 알 수 있음

@Jasonlee1995 Jasonlee1995 added Speech Related with Speech tasks Discriminative Discriminative Modeling labels Jul 4, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Discriminative Discriminative Modeling Speech Related with Speech tasks
Projects
None yet
Development

No branches or pull requests

1 participant