Jiarui Hai

2026

CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech

A style-captioned TTS dataset and framework enabling controllable, style-aware text-to-speech for downstream applications.

Helin Wang*, Jiarui Hai*, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Thomas Thebaud, Laureano Moro Velazquez, Jesús Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhilali, Najim Dehak

Dataset IEEE Transactions on Audio, Speech and Language Processing (TASLP)

[Paper] [Code] [Homepage] [Live Demo]

CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech

[TL;DR] [BibTeX]

A style-captioned TTS dataset and framework enabling controllable, style-aware text-to-speech for downstream applications.

Helin Wang*, Jiarui Hai*, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Thomas Thebaud, Laureano Moro Velazquez, Jesús Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhilali, Najim Dehak

Dataset IEEE Transactions on Audio, Speech and Language Processing (TASLP)

[Paper] [Code] [Homepage] [Live Demo]

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction Through a Cascaded Generative Pipeline

[TL;DR] [BibTeX]

A cascaded generative pipeline for target speech extraction that improves intelligibility and perceptual quality.

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesús Villalba, Najim Dehak

IEEE Transactions on Audio, Speech and Language Processing (TASLP)

[Paper] [Code] [Homepage] [Live Demo]

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction Through a Cascaded Generative Pipeline

[TL;DR] [BibTeX]

A cascaded generative pipeline for target speech extraction that improves intelligibility and perceptual quality.

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesús Villalba, Najim Dehak

IEEE Transactions on Audio, Speech and Language Processing (TASLP)

[Paper] [Code] [Homepage] [Live Demo]

2025

EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer

[TL;DR] [BibTeX]

An efficient diffusion transformer that improves text-to-audio generation quality while reducing compute.

Jiarui Hai, Yong Xu, Hao Zhang, Chenxing Li, Helin Wang, Mounya Elhilali, Dong Yu

Oral Interspeech

[Paper] [Code] [Homepage] [Live Demo]

EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer

[TL;DR] [BibTeX]

An efficient diffusion transformer that improves text-to-audio generation quality while reducing compute.

Jiarui Hai, Yong Xu, Hao Zhang, Chenxing Li, Helin Wang, Mounya Elhilali, Dong Yu

Oral Interspeech

[Paper] [Code] [Homepage] [Live Demo]

Filter by Topics

2026

CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech

CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech

Summary of The Inaugural Music Source Restoration Challenge

Summary of The Inaugural Music Source Restoration Challenge

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction Through a Cascaded Generative Pipeline

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction Through a Cascaded Generative Pipeline

2025

FlexSED: Towards Open-Vocabulary Sound Event Detection

FlexSED: Towards Open-Vocabulary Sound Event Detection

EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer

EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer

SynSonic: Augmenting Sound Event Detection through Text-to-Audio Diffusion ControlNet and Effective Sample Filtering

SynSonic: Augmenting Sound Event Detection through Text-to-Audio Diffusion ControlNet and Effective Sample Filtering

SoloAudio: Target Sound Extraction with Language-Oriented Audio Diffusion Transformer

SoloAudio: Target Sound Extraction with Language-Oriented Audio Diffusion Transformer

2024

DreamVoice: Text-Guided Voice Conversion

DreamVoice: Text-Guided Voice Conversion

DPM-TSE: A Diffusion Probabilistic Model for Target Sound Extraction

DPM-TSE: A Diffusion Probabilistic Model for Target Sound Extraction

2023

Diff-Pitcher: Diffusion-based Singing Voice Pitch Correction

Diff-Pitcher: Diffusion-based Singing Voice Pitch Correction

Boosting Modality Representation with Pre-trained Models and Multi-task Training for Multimodal Sentiment Analysis

Boosting Modality Representation with Pre-trained Models and Multi-task Training for Multimodal Sentiment Analysis