Tạo Phụ Đề Tự Động
Tạo phụ đề SRT/VTT từ video bằng OpenAI Whisper chạy cục bộ trên trình duyệt. Không upload, không đăng ký, đa ngôn ngữ. Thay thế miễn phí cho Rev/Otter.
Giới Thiệu Công Cụ Tạo Phụ Đề Tự Động
Phiên âm thủ công video 30 phút thành phụ đề mất một captioner chuyên nghiệp khoảng 90 phút; auto-caption của YouTube làm được nhưng cần upload unlisted và chỉ tinh chỉnh tiếng Anh; Rev tính $1.50/phút và Otter giới hạn gói miễn phí 300 phút/tháng. Công cụ này chạy Whisper của OpenAI (chính mô hình đa ngôn ngữ mà các dịch vụ phiên âm chuyên nghiệp dùng) hoàn toàn trên trình duyệt qua WebAssembly — video của bạn không bao giờ rời thiết bị, không hạn ngạch, không thuê bao. Nó trích xuất audio bằng ffmpeg.wasm, đưa vào Whisper để chuyển giọng nói thành văn bản trong 99 ngôn ngữ với timestamp chính xác đến mili-giây, rồi xuất ra SRT chuẩn (hỗ trợ player phổ quát) hoặc WebVTT (gốc HTML5/YouTube). Quan trọng cho tính riêng tư với footage bí mật, phỏng vấn dưới NDA, hoặc nội dung pháp lý/y tế.
Công cụ hoạt động như thế nào?
Công cụ trích xuất âm thanh từ video, sau đó sử dụng mô hình Whisper AI của OpenAI (chạy cục bộ trong trình duyệt qua WebAssembly) để phiên âm giọng nói thành văn bản với mốc thời gian. Cuối cùng, nó định dạng bản phiên âm thành file phụ đề chuẩn SRT hoặc VTT.
Những định dạng video nào được hỗ trợ?
Hỗ trợ các định dạng MP4, WebM và MOV. Kích thước tối đa là 500MB để đảm bảo xử lý mượt mà trong trình duyệt.
Nên chọn mô hình AI nào?
Tiny nhanh nhất và hoạt động tốt với giọng nói rõ ràng. Base cân bằng giữa tốc độ và độ chính xác. Small chính xác nhất nhưng chậm hơn và cần nhiều bộ nhớ hơn. Bắt đầu với Tiny để thử nghiệm.
Sự khác biệt giữa SRT và VTT là gì?
SRT (SubRip) là định dạng được hỗ trợ rộng rãi nhất, tương thích với hầu hết trình phát video và nền tảng. VTT (WebVTT) là tiêu chuẩn web, dùng cho video HTML5 và hỗ trợ định dạng nâng cao.
Video của tôi có được tải lên server không?
Không. Mọi xử lý diễn ra cục bộ trong trình duyệt của bạn bằng WebAssembly. Video của bạn không bao giờ rời khỏi thiết bị, đảm bảo sự riêng tư hoàn toàn.

Whisper chính xác đến đâu so với phiên âm thủ công?
Whisper Small đạt khoảng 95-97% độ chính xác từ trên audio tiếng Anh sạch, tương đương một phiên âm viên thủ công giá rẻ. Tiny giảm xuống 85-90% — đủ cho bản nháp nhưng bạn sẽ muốn chỉnh. Độ chính xác giảm mạnh với: giọng địa phương nặng, nhiều người nói chồng nhau, nhạc/tiếng ồn nền, thuật ngữ chuyên ngành, mic nhỏ tiếng/xa. Cho chất lượng broadcast (99%+), dùng Whisper làm pass đầu rồi chỉnh thủ công, vẫn tiết kiệm ~70% thời gian so với gõ từ đầu.
Tại sao chậm vậy với video dài?
Whisper xử lý audio ở khoảng 0.5-3x tốc độ thời gian thực tùy CPU và mô hình bạn chọn. Video 10 phút có thể mất 3-8 phút với Tiny trên laptop hiện đại, hoặc 15-30 phút với Small. Chưa có tăng tốc GPU trong Whisper trên trình duyệt (hỗ trợ WebGPU của Apple vẫn đang hoàn thiện). Với video 30+ phút, hãy chuẩn bị để tab mở một lúc. Mô hình tải về một lần và được cache, nên lần chạy sau bỏ qua bước đó.
Có xử lý được nhiều người nói hoặc speaker diarization không?
Bản thân Whisper không làm diarization (gán nhãn 'Người 1' vs 'Người 2'). Nó phiên âm tuần tự mà không xác định ai đang nói. Với họp, podcast, hoặc phỏng vấn cần nhãn người nói, bạn cần bước hậu xử lý dùng pyannote hoặc AWS Transcribe. Output SRT/VTT ở đây là dòng liên tục các câu có timestamp — hoàn hảo cho nội dung một người như bài giảng, tutorial, vlog, phim tài liệu có thuyết minh.
Hỗ trợ ngôn ngữ ngoài tiếng Anh tốt thế nào?
Whisper hỗ trợ 99 ngôn ngữ với độ chính xác khác nhau. Cao nhất (95%+ trên Small): Anh, Tây Ban Nha, Pháp, Đức, Ý, Bồ Đào Nha, Nhật. Tốt (85-92%): Trung, Hàn, Nga, Ả Rập, Hindi, Việt. Đặt 'Language' đúng ngôn ngữ để có kết quả tốt nhất — 'Auto Detect' thêm pass xác suất ban đầu đôi khi phân loại sai (đặc biệt với clip rất ngắn hoặc trộn ngôn ngữ). Với nội dung đa ngôn ngữ, chạy riêng từng phần ngôn ngữ.
Phụ đề có đồng bộ đúng khi nhúng vào video không?
Có — SRT và VTT đều dùng timestamp tuyệt đối (HH:MM:SS,mmm) tính từ đầu audio. Thả SRT vào HandBrake, DaVinci Resolve, Premiere, FFmpeg, hoặc bất kỳ player nào và timing chính xác đến mili-giây. Lưu ý duy nhất: nếu bạn chỉnh video gốc (cắt 30 giây đầu) sau khi tạo phụ đề, bạn sẽ phải dịch tất cả timestamp -30 giây hoặc tạo lại. Công cụ như Aegisub hoặc Subtitle Edit xử lý dịch timestamp hàng loạt dễ dàng.
