Tách Lời Nhạc AI

Tách lời nhạc AI U-Net ngay trên máy: chia bài hát thành stem WAV giọng hát và nhạc nền. Không tải lên, sẵn sàng karaoke và acapella, kiểm tra đỉnh thật chống vỡ tiếng.

Công cụ này dùng mạng nơ-ron sâu (~68MB) để tách vocal khỏi nhạc. Mô hình chạy hoàn toàn trong trình duyệt - không cần upload. Mô hình tự động tải khi bạn bắt đầu xử lý.

Chọn File Audio Hoặc Video

Kéo thả file audio hoặc video vào đây

hoặc nhấp để duyệt

Stem	Đỉnh mẫu	Đỉnh thật (dBTP)	An toàn vỡ tiếng
Track Vocal (Acapella)	-	-	-
Track Nhạc Nền (Karaoke)	-	-	-

Thông Tin

Có góp ý? Báo lỗi, đề xuất tính năng, hoặc chia sẻ suy nghĩ — chúng tôi đọc tất cả

Giới thiệu công cụ Tách Lời Nhạc AI

Công cụ tách vocal AI này phân tách bài hát stereo thành hai stem — vocal (acapella) và nhạc nền (karaoke) — bằng mạng nơ-ron sâu chạy hoàn toàn trong trình duyệt. Cùng họ mô hình source-separation đang vận hành các sản phẩm thương mại như LALAL.AI, Moises, Vocalremover.org và Audio Shake; baseline open-source mà công cụ này dựa vào kế thừa từ Spleeter của Deezer (Hennequin và cộng sự, 2019) và Demucs của Facebook AI Research (Défossez và cộng sự, 2019). Không có audio nào được upload — mô hình thực thi cục bộ trên CPU, GPU (WebGL) hoặc GPU hiện đại (WebGPU). Sau khi file mô hình ~68 MB được tải về và cache, công cụ chạy offline.

Tách AI là nâng cấp thực sự so với mẹo phase cancellation cũ. Phase cancellation chỉ hoạt động trên bài hát mà vocal nằm chính xác giữa mix stereo, bằng cách đảo một kênh và cộng vào kênh kia. Nó hủy tâm, lấy luôn vocal đi — nhưng cũng hủy mọi phần tử ở tâm khác (kick drum, bass, snare), và hầu hết bản thu hiện đại có reverb, double-track, hoặc pan vocal hơi lệch tâm, nên mẹo này thất bại. Mạng tách nguồn hiện đại học chữ ký phổ của vocal từ hàng nghìn ví dụ ghép cặp và có thể nhấc giọng hát ra khỏi mix ngay cả khi có reverb, double, harmony, autotune hoặc panning.

Ứng dụng hữu ích: làm bản karaoke / minus-one, cô lập acapella để remix, sample vocal cho sản xuất âm nhạc, transcribe lời bị chôn dưới mix dày, làm sạch dialogue trong podcast và video, học ngoại ngữ bằng cách nghe lời bài hát cô lập, và nghiên cứu học thuật về biểu diễn vocal. Đặc biệt hữu ích cho nhạc Bolero, V-pop, nhạc xưa của ca sĩ NSƯT khi muốn làm karaoke cho phòng karaoke gia đình hoặc thi karaoke. Công cụ chấp nhận audio (MP3, WAV, FLAC, OGG, M4A, AAC, OPUS) và video (MP4, MKV, MOV, WebM, AVI) — với video, audio track được trích xuất tự động qua Web Audio API. Mạng nơ-ron chạy ở 44,1 kHz, nên nguồn 48/96 kHz được lấy mẫu lại về 44,1 kHz cho suy luận và stem được xuất ở 44,1 kHz; bạn chọn độ sâu bit của WAV (16-bit, 24-bit hoặc 32-bit float). Chuyển sang MP3 sau trong bất kỳ trình biên tập nào nếu cần file nhỏ hơn.

Về bản quyền: công cụ miễn phí, nhưng audio bạn xử lý thì không. Tách bài hát có bản quyền không cho bạn quyền phát hành vocal hoặc nhạc nền kết quả thương mại, phân phối, bán, hay upload lên dịch vụ. Dùng cho bài hát bạn tự sáng tác, bài hát bạn được phép remix rõ ràng, hoặc cho kịch bản sử dụng hợp lý thực sự (transcription, giáo dục, nghiên cứu, parody theo định nghĩa của pháp luật nơi bạn ở). Luật sở hữu trí tuệ của Việt Nam, EU directive 2019/790, UK CDPA, và luật bản quyền Mỹ đều áp dụng cho stem AI tách ra giống hệt như áp dụng cho bản thu gốc.

Quyền riêng tư là theo thiết kế. Audio của bạn được giải mã bởi trình duyệt, AI inference chạy cục bộ trên tài nguyên tính toán của thiết bị, và stem kết quả được mã hóa lại thành WAV trong trình duyệt. Trang web dùng TensorFlow.js với WebGPU khi có sẵn; trọng số tải về một lần qua HTTPS và được cache. Chúng tôi không thấy, lưu, log hay chia sẻ audio của bạn.

Cách tách hoạt động

Tách nguồn là bài toán nghịch của mixing: cho hỗn hợp x = vocal + nhạc nền, khôi phục hai tín hiệu thành phần. Cách tiếp cận cổ điển những năm 1990 là phân tích thành phần độc lập (ICA), chỉ hoạt động khi nguồn độc lập thống kê và mixing cố định và tuyến tính — cả hai giả định đều không đúng cho âm nhạc. Hệ thống học sâu hiện đại học tách trực tiếp từ dữ liệu: chúng quan sát hàng nghìn ví dụ ghép cặp (mixture, vocal, nhạc nền) và học map spectrogram mixture sang spectrogram per-source.

Pipeline tiêu chuẩn bắt đầu bằng Short-Time Fourier Transform (STFT) đầu vào. Thiết lập điển hình là FFT size 4096 mẫu và hop size 1024 mẫu (chồng 75 %), cho spectrogram phức với một cột mỗi ~23 ms tại 44,1 kHz. Spectrogram biên độ đi qua U-Net — encoder–decoder hoàn toàn convolutional với kết nối skip — xuất hai mặt nạ tần số soft: một cho vocal, một cho nhạc nền. Mỗi mặt nạ được nhân với spectrogram đầu vào và inverse-STFT để khôi phục tín hiệu miền thời gian. Pha gốc được dùng lại; vocal nhận cùng pha với mixture ở mỗi tần số, là xấp xỉ nhỏ nhưng nghe vẫn tốt trong thực tế.

Spleeter (Hennequin, Cournou, Defossez & Moussallam, 2019, Deezer) là cột mốc open-source: U-Net huấn luyện trên 25 000 bài hát cho tách 2-stem (vocal/nhạc nền), 4-stem (vocal/drums/bass/other), và 5-stem (thêm piano). Mô hình 2-stem đủ nhỏ cho inference trong trình duyệt. Demucs (Défossez và cộng sự, 2019; Hybrid Demucs 2021) nâng cao bằng cách làm việc trong miền thời gian với kiến trúc Wave-U-Net và sau đó kết hợp nhánh waveform và spectrogram; đặt state of the art trên benchmark MUSDB18. Hybrid Transformer Demucs (HTDemucs, 2023) thêm Transformer block ở bottleneck. Series MDX (Music Demixing Challenge, 2021–2023) tại ISMIR là benchmark công khai.

Metric độ chính xác dùng trong các bài báo source-separation là SDR (Signal-to-Distortion Ratio) tính bằng decibel — cao hơn là tốt hơn. Spleeter báo SDR vocal ~6,6 dB trên MUSDB18; Demucs v3 báo ~9,0 dB; HTDemucs và quán quân MDX-23 cụm quanh 9,5–10 dB. Để tham chiếu, chất lượng nghe được bắt đầu cảm giác 'cấp thương mại' khi SDR > 7 dB trên bản thu studio sạch. Bản thu live, mix rất dày, autotune nặng và thể loại bất thường (opera cổ điển, hát cổ họng, một số subgenre metal) ghi điểm thấp hơn rõ rệt so với trung bình benchmark.

Trong công cụ trình duyệt này, buffer audio 4 giây được chia thành chunk chồng nhau, mỗi chunk chạy qua U-Net, và đầu ra chunk được crossfade với nhau để đường nối không nghe được. Tăng tốc WebGPU (Chrome 113+, Edge 113+) cho throughput 5–10× so với WebGL; trên desktop hiện đại bài 3 phút tách trong 30–60 giây với WebGPU và 2–3 phút với WebGL. CPU-only fallback chậm hơn nhiều (10–15 phút) nhưng luôn hoạt động. U-Net chạy ở 44,1 kHz, nên stem được xuất dưới dạng WAV stereo 44,1 kHz (16-bit, 24-bit hoặc 32-bit float, tùy bạn chọn); master 48/96 kHz được lấy mẫu lại về 44,1 kHz cho suy luận — chọn 24-bit hoặc 32-bit float để giữ trọn khoảng dự trữ cho các stem to.

Độ chính xác và kỳ vọng

Chất lượng thay đổi rõ rệt theo nguồn. Cho pop, rock, R&B, hip-hop, electronic được mix chuyên nghiệp hiện đại — vocal lead sạch, mix bus tách biệt, hình ảnh stereo rõ — bạn có thể kỳ vọng nhạc nền sạch với nhiều nhất là dư âm vocal mờ ('ghosting') ở đoạn yên tĩnh. Stem vocal sẽ nghe như acapella chất lượng cao có thể có chút reverb phòng. Đây là envelope vận hành nơi tách AI tỏa sáng và nơi điểm benchmark Spleeter / Demucs / HTDemucs được đo.

Chất lượng giảm trên bản thu live (audience bleed, room reverb làm rò năng lượng vocal vào stem nhạc nền), autotune nặng (vocal đã chuyển formant làm rối mạng), thể loại có chồng lấn timbre giọng và nhạc cụ mạnh (backing vocal a-cappella, hợp xướng, hát cổ họng), bản thu rất cũ hoặc fidelity thấp (mono, băng thông AM-radio, xước vinyl), và track nơi nhạc cụ bắt chước dải tần giọng người (saxophone, lead guitar méo, sample spoken-word). Bản thu Bolero và nhạc trữ tình Việt Nam cũ thường hoạt động tốt vì vocal được mix nổi bật và rõ; samba và pagode với nhịp đệm nặng và nhiều giọng phụ thì khó hơn.

Chế độ thất bại bạn sẽ nghe: vocal rò vào nhạc nền trong sibilant (âm 's' / 't' trải dải tần rộng), tiếng đánh trống bị nhầm là transient vocal, artifact pha hoặc 'nước' trên các nốt giữ lâu, và độ rộng stereo giảm trên nhạc nền vì mạng đôi khi gấp thông tin pan nhẹ vào mặt nạ vocal. Không có cái nào là lỗi của công cụ — đây là giới hạn vốn có của tách 2-stem. Nếu cần kết quả sạch hơn trên track khó, dịch vụ thương mại trả phí (LALAL.AI, Moises, Audio Shake) dùng ensemble lớn hơn của mô hình lớn hơn và có thể tốt hơn chút, nhưng chúng cũng có các chế độ thất bại này.

Tách hoạt động tốt nhất trên bản thu studio mix chuyên nghiệp; bản thu live và lo-fi có rò nghe được.
Autotune nặng, vocoder, talkbox hoặc giọng đã chuyển formant có thể bị phân loại một phần là nhạc nền.
Vocal phụ và hợp xướng thường để lại trong stem vocal; xóa vocal hoàn toàn trong harmony dày không đáng tin.
Sibilant ('s', 'sh', 't') thường để lại tiếng rít mờ trong track nhạc nền.
Nốt giữ và đuôi reverb dài có thể có artifact pha nhẹ sau khi tách.
Kích thước file tối đa 100 MB; audio rất dài (trên 30 phút) bị từ chối để tránh vấn đề bộ nhớ trình duyệt.
Stem là WAV 44,1 kHz (tần số suy luận của mô hình); nguồn 48/96 kHz được lấy mẫu lại. Chọn 24-bit hoặc 32-bit float để có khoảng dự trữ; tự chuyển sang MP3/AAC nếu cần file nhỏ hơn.
Bản quyền áp dụng cho stem trích xuất giống như áp dụng cho nguồn — kiểm tra quyền trước khi xuất bản hay dùng thương mại.
Yêu cầu trình duyệt: Chrome / Edge cho tăng tốc WebGPU; Firefox / Safari fallback về WebGL chậm hơn hoặc CPU.

Thuật ngữ

Source separation (tách nguồn): Bài toán xử lý tín hiệu khôi phục các tín hiệu nguồn riêng lẻ (vocal, drums, bass, ...) từ hỗn hợp đã thu. Là nghịch của mixing.
Stem: Track nguồn riêng lẻ trong một mix. Tách 2-stem chia thành vocal + nhạc nền; 4-stem chia thành vocal + drums + bass + other.
U-Net: Kiến trúc mạng nơ-ron encoder–decoder hoàn toàn convolutional (Ronneberger và cộng sự, 2015) với kết nối skip từ encoder đến decoder. Ban đầu thiết kế cho phân vùng ảnh y sinh, nay là tiêu chuẩn cho tách nguồn trong miền spectrogram.
Frequency mask (mặt nạ tần số): Ma trận 2D cùng hình dáng spectrogram, giá trị thường trong [0, 1], nói bao nhiêu của mỗi tần số tại mỗi thời điểm thuộc về một nguồn nhất định. Nhân spectrogram mixture với mặt nạ cô lập nguồn đó.
Time-frequency domain: Biểu diễn audio dưới dạng ma trận 2D nơi một trục là thời gian và trục kia là tần số, được tạo bởi Short-Time Fourier Transform. Biểu diễn tự nhiên cho phương pháp tách nguồn phổ.
Spleeter: Bộ tách nguồn 2-, 4- và 5-stem open-source do Deezer phát hành năm 2019. Bộ tách stem thân thiện trình duyệt hữu dụng rộng đầu tiên và baseline phổ biến.
Demucs / HTDemucs: Bộ tách open-source của Facebook AI Research, ban đầu là Wave-U-Net (miền thời gian), sau đó là hybrid waveform + spectrogram (Hybrid Demucs), rồi với Transformer block (Hybrid Transformer Demucs / HTDemucs).
SDR (Signal-to-Distortion Ratio): Metric chất lượng khách quan tiêu chuẩn cho tách nguồn, theo dB. Cao hơn nghĩa là stem sạch hơn. Pop/rock SDR > 7 dB nghe cấp thương mại; > 9 dB là dẫn đầu benchmark.
MUSDB18: Dataset công khai 150 bài hát multitrack (100 train, 50 test) dùng làm benchmark tiêu chuẩn cho tách nguồn. Mỗi bài hát chia thành stem vocal, drums, bass và other.

Câu Hỏi Thường Gặp

AI xóa vocal như thế nào?

Chạy mạng nơ-ron sâu U-Net trong trình duyệt. Audio được chuyển thành spectrogram qua STFT, mạng xuất mặt nạ tần số dự đoán cell time-frequency nào chứa năng lượng vocal, mixture được nhân với mặt nạ, và kết quả được inverse-STFT về WAV miền thời gian. Kiến trúc kế thừa từ Spleeter / Demucs và huấn luyện trên dữ liệu ghép cặp kiểu MUSDB18.

Tách mất bao lâu?

Trên desktop hiện đại với WebGPU (Chrome / Edge 113+), bài 3 phút tách khoảng 30–60 giây. Với WebGL chậm hơn 2–3×. CPU fallback là 10–15 phút cho bài 3 phút. Thiết bị di động chậm hơn desktop; file dài hơn được xử lý theo chunk có thanh tiến độ.

Stem có tần số lấy mẫu và độ sâu bit bao nhiêu?

U-Net chạy ở 44,1 kHz, nên stem được xuất dưới dạng WAV stereo 44,1 kHz — master 48 kHz / 96 kHz được lấy mẫu lại về 44,1 kHz cho suy luận (chúng tôi không còn giả vờ rằng đầu ra giữ tần số gốc). Bạn chọn độ sâu bit: 16-bit cho file nhỏ, 24-bit cho khoảng dự trữ phòng thu, hoặc 32-bit float để không vỡ tiếng. Nếu cần file nhỏ hơn, hãy chuyển WAV sang MP3 hoặc AAC sau trong bất kỳ trình biên tập nào.

Bộ tách AI này có tốt hơn phase cancellation không?

Có, đáng kể. Phase cancellation chỉ hoạt động trên vocal hoàn toàn ở tâm trong mix stereo sạch và cũng hủy nguồn ở tâm khác (bass, kick drum, snare). AI nhìn nội dung phổ thực tế của giọng so với nhạc cụ và hoạt động trên vocal stereo, mono, panned, double, harmony và reverb — tất cả phá vỡ phase cancellation.

Mô hình nào được dùng? Spleeter? Demucs?

Mô hình trình duyệt cùng họ với Spleeter (Deezer, 2019) và Hybrid Demucs (Facebook AI, 2019–2023): U-Net hoạt động trên spectrogram STFT, huấn luyện trên dữ liệu ghép cặp kiểu MUSDB18. Chúng tôi chọn mô hình đủ nhỏ (~68 MB) để tải và chạy trong trình duyệt qua TensorFlow.js, với tăng tốc WebGPU khi có sẵn.

Sao nhạc nền vẫn còn vocal mờ?

Tách mềm luôn để lại dư — mạng phải chọn, frame theo frame, bao nhiêu năng lượng trong mỗi bin tần số thuộc về vocal. Sibilant, hơi thở và nốt giữ rất nhẹ thường chia sẻ dải tần với cymbal, hi-hat và percussion khác, nên mạng không thể tách chúng sạch sẽ. Mô hình trả phí lớn hơn có thể tốt hơn chút nhưng không bao giờ zero residue.

Tách Lời Nhạc AI — Tách lời nhạc AI U-Net ngay trên máy: chia bài hát thành stem WAV giọng hát và nhạc nền. Không tải lên, sẵn sàng karaoke — **Tách Lời Nhạc AI**

Audio của tôi có bị upload lên server không?

Không. Tất cả xử lý — giải mã, STFT, inference mạng nơ-ron, inverse STFT, mã hóa WAV — chạy cục bộ trong trình duyệt qua TensorFlow.js. Lưu lượng mạng duy nhất là tải về một lần trọng số mô hình (~68 MB, cache). Byte audio không bao giờ rời thiết bị.

Có dùng stem trích xuất thương mại được không?

Chỉ khi bạn có quyền với bài gốc. Trích nhạc nền từ bản thu có bản quyền không chuyển bất kỳ bản quyền nào — phát hành kết quả thương mại giống như phát hành bản thu gốc không có giấy phép. Để dùng royalty-free bạn cần bài bạn tự sáng tác, bài bạn có giấy phép, hoặc bài Creative Commons / public-domain.

Sao mô hình đôi khi xuất vocal yếu ngay cả ở chế độ chỉ nhạc nền?

Vì nó ước lượng mặt nạ vocal trước rồi trừ; nếu mạng không chắc chắn về một vùng, cả đầu ra 'vocal' và 'nhạc nền' đều có thể chứa dư mềm. Đây là theo thiết kế (bảo toàn năng lượng tổng). Để im lặng tuyệt đối bạn cần gate dư hoặc dùng bước hậu xử lý mạnh hơn.

Kích thước và độ dài file tối đa là gì?

Tối đa 100 MB và 30 phút mỗi file. Giới hạn cứng tồn tại để tránh crash bộ nhớ trình duyệt — ngay cả với xử lý theo chunk, audio rất dài có thể làm cạn heap WebGPU. Cho bản thu dài hơn, chia bằng bất kỳ editor audio nào trước và xử lý từng đoạn.

Tại sao stem giọng của tôi bị vỡ tiếng và làm sao xuất an toàn?

Tách bằng mask mềm tính giọng bằng hỗn hợp trừ nhạc nền, và phép trừ đó thường vượt quá 0 dBFS — nhất là ở mức đỉnh thật giữa các mẫu (true-peak). WAV 16-bit cắt phần vượt đó và stem trở nên không dùng được trong DAW. Công cụ đo đỉnh mẫu và đỉnh thật lấy mẫu quá 4x (dBTP) của từng stem sau khi tách và hiển thị nhãn xanh 'An toàn' / đỏ 'Nguy cơ vỡ tiếng'. Xuất ở 24-bit hoặc 32-bit float để giữ phần vượt mức không tổn hao, hoặc tích 'Chuẩn hóa về -1 dBTP' để co giãn stem về mức trần an toàn trước khi tải về.

Có tách được drum hoặc bass không (4-stem hoặc 5-stem)?

Công cụ này hiện chạy mô hình 2-stem (vocal + nhạc nền) vì lý do kích thước và tốc độ. Mô hình Spleeter và Demucs cũng có phiên bản 4-stem và 5-stem nếu bạn chạy cục bộ với cài đặt Python. Chúng tôi có thể thêm tùy chọn 4-stem trong bản phát hành tương lai.

Công cụ chậm hoặc crash. Tôi làm gì?

Đóng các tab trình duyệt khác, ưu tiên Chrome hoặc Edge cho tăng tốc WebGPU, đảm bảo trình duyệt cập nhật, thử file ngắn hơn trước để xác nhận pipeline hoạt động, và xử lý trên desktop thay vì di động nếu có thể. Người dùng WebGPU trên GPU tích hợp có thể cần bật tăng tốc phần cứng trong cài đặt trình duyệt.