Publications

You can find my all articles on my Google Scholar profile.

The asterisk ^* next to the author’s name indicates co-first authorship.

Generative Audio Language Modeling with Continuous-valued Tokens and Masked Next-Token Prediction
Shu-wen Yang, Byeonggeun Kim, Kuan-Po Huang, Qingming Tang, Huy Phan, Bo-Ru Lu, Harsha Sundar, Shalini Ghosh, Hung-yi Lee, Chieh-Chi Kao, Chao Wang
in ICML, 2025
arxiv (comming soon)
IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling
Kuan-Po Huang, Shu-wen Yang, Huy Phan, Bo-Ru Lu, Byeonggeun Kim, Sashank Macha, Qingming Tang, Shalini Ghosh, Hung-yi Lee, Chieh-Chi Kao, Chao Wang
in ICML, 2025
arxiv (comming soon)
Dynamic-superb phase-2: A collaboratively expanding benchmark for measuring the capabilities of spoken language models with 180 tasks
Chien-yu Huang, Wei-Chih Chen, Shu-wen Yang, Andy T. Liu, Chen-An Li, Yu-Xiang Lin, Wei-Cheng Tseng et al.
in ICLR, 2025
arxiv / code
A Large-Scale Evaluation of Speech Foundation Models
Shu-wen Yang, Heng-Jui Chang, Zili Huang, Andy T. Liu, Cheng-I Lai, Haibin Wu, Jiatong Shi, Xuankai Chang, Hsiang-Sheng Tsai, Wen-Chin Huang, Tzu-hsun Feng, Po-Han Chi, Yist Y. Lin, Yung-Sung Chuang, Tzu-Hsien Huang, Wei-Cheng Tseng, Kushal Lakhotia, Shang-Wen Li, Abdelrahman Mohamed, Shinji Watanabe, Hung-yi Lee
in IEEE/ACM Transactions on Audio Speech and Language Processing, 2024
arxiv (preferred) / ieee / code
SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of Self-Supervised Speech Representation Learning
Tzu-hsun Feng, Annie Dong, Ching-Feng Yeh, Shu-wen Yang, Tzu-Quan Lin, Jiatong Shi, Kai-Wei Chang, Zili Huang, Haibin Wu, Xuankai Chang, Shinji Watanabe, Abdelrahman Mohamed, Shang-Wen Li, Hung-yi Lee
in SLT, 2022
arxiv / code / website
A Comparative Study of Self-Supervised Speech Representation Based Voice Conversion
Wen-Chin Huang, Shu-wen Yang, Tomoki Hayashi, Tomoki Toda
in IEEE Journal of Selected Topics in Signal Processing, 2022
arxiv / code
Self-supervised Representation Learning for Speech Processing
Hung-yi Lee, Abdelrahman Mohamed, Shinji Watanabe, Tara Sainath, Karen Livescu, Shang-Wen Li, Shu-wen Yang, Katrin Kirchhoff
in NAACL, 2022
tutorial proposal / video
Investigating Self-Supervised Learning for Speech Enhancement and Separation
Zili Huang, Shinji Watanabe, Shu-wen Yang, Paola Garcia, Sanjeev Khudanpur
in ICASSP, 2022
arxiv / code
DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT
Heng-Jui Chang, Shu-wen Yang, Hung-yi Lee
in ICASSP, 2022
arxiv / code / huggingface
S3PRL-VC: Open-Source Voice Conversion Framework with Self-Supervised Speech Representations
Wen-Chin Huang, Shu-Wen Yang, Tomoki Hayashi, Hung-Yi Lee, Shinji Watanabe, Tomoki Toda
in ICASSP, 2022
arxiv / code / demo
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities
Hsiang-Sheng Tsai^*, Heng-Jui Chang^*, Wen-Chin Huang^*, Zili Huang^*, Kushal Lakhotia^*, Shu-wen Yang, Shuyan Dong, Andy T. Liu, Cheng-I Jeff Lai, Jiatong Shi, Xuankai Chang, Phil Hall, Hsuan-Jui Chen, Shang-Wen Li, Shinji Watanabe, Abdelrahman Mohamed, Hung-yi Lee
in ACL, 2022
arxiv / video / website / code
DUAL: Discrete Spoken Unit Adaptive Learning for Textless Spoken Question Answering
Guan-Ting Lin, Yung-Sung Chuang, Ho-Lam Chung, Shu-wen Yang, Hsuan-Jui Chen, Shuyan Dong, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Lin-shan Lee
in Interspeech, 2022
arxiv
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition
Xuankai Chang, Takashi Maekaku, Pengcheng Guo, Jing Shi, Yen-Ju Lu, Aswin Shanmugam Subramanian, Tianzi Wang, Shu-wen Yang, Yu Tsao, Hung-yi Lee, Shinji Watanabe
in ASRU, 2021
arxiv / code
SUPERB: Speech processing Universal PERformance Benchmark
Shu-wen Yang, Po-Han Chi, Yung-Sung Chuang, Cheng-I Jeff Lai, Kushal Lakhotia, Yist Y. Lin, Andy T. Liu, Jiatong Shi, Xuankai Chang, Guan-Ting Lin, Tzu-Hsien Huang, Wei-Cheng Tseng, Ko-tik Lee, Da-Rong Liu, Zili Huang, Shuyan Dong, Shang-Wen Li, Shinji Watanabe, Abdelrahman Mohamed, Hung-yi Lee
in Interspeech, 2021
arxiv / video / website / code
S3PRL: The Self-Supervised Speech Pre-training and Representation Learning Toolkit
Andy T Liu^*, Shu-wen Yang^*
on GitHub repository, 2020
code / website / video
Understanding Self-Attention of Self-Supervised Audio Transformers
Shu-wen Yang, Andy T Liu, Hung-yi Lee
in Interspeech, 2020
in ICML Workshop on Self-supervision in Audio and Speech, 2020
arxiv / video
Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer Encoders
Andy T Liu, Shu-wen Yang, Po-Han Chi, Po-chun Hsu, Hung-yi Lee
in ICASSP, 2020
arxiv / code / video

Shu-wen (Leo) Yang楊書文

Generative Audio Language Modeling with Continuous-valued Tokens and Masked Next-Token Prediction

IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling

Dynamic-superb phase-2: A collaboratively expanding benchmark for measuring the capabilities of spoken language models with 180 tasks

A Large-Scale Evaluation of Speech Foundation Models

SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of Self-Supervised Speech Representation Learning

A Comparative Study of Self-Supervised Speech Representation Based Voice Conversion

Self-supervised Representation Learning for Speech Processing

Investigating Self-Supervised Learning for Speech Enhancement and Separation

DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT

S3PRL-VC: Open-Source Voice Conversion Framework with Self-Supervised Speech Representations

SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities

DUAL: Discrete Spoken Unit Adaptive Learning for Textless Spoken Question Answering

An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition

SUPERB: Speech processing Universal PERformance Benchmark

S3PRL: The Self-Supervised Speech Pre-training and Representation Learning Toolkit

Understanding Self-Attention of Self-Supervised Audio Transformers

Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer Encoders

Shu-wen (Leo) Yang
楊書文