Tạo Phụ Đề Tự Động

Phụ đề AI ngay trên trình duyệt: video sang SRT và WebVTT, timestamp theo từng từ, 99 ngôn ngữ, kiểm soát độ dài dòng và CPS. Riêng tư, offline, không upload.

Chọn Video

Kéo thả video vào đây hoặc nhấp để chọn

MP4, WebM, MOV, MKV, AVI, M4V và nhiều định dạng khác (tối đa 200MB)

Information

Có góp ý? Báo lỗi, đề xuất tính năng, hoặc chia sẻ suy nghĩ — chúng tôi đọc tất cả

Giới Thiệu Công Cụ Tạo Phụ Đề Tự Động

Phiên âm thủ công video 30 phút thành phụ đề mất một captioner chuyên nghiệp khoảng 90 phút; auto-caption của YouTube làm được nhưng cần upload unlisted và chỉ tinh chỉnh tiếng Anh; Rev tính $1.50/phút và Otter giới hạn gói miễn phí 300 phút/tháng. Công cụ này chạy Whisper của OpenAI (chính mô hình đa ngôn ngữ mà các dịch vụ phiên âm chuyên nghiệp dùng) hoàn toàn trên trình duyệt qua WebAssembly — video của bạn không bao giờ rời thiết bị, không hạn ngạch, không thuê bao. Nó trích xuất audio bằng ffmpeg.wasm, đưa vào Whisper để chuyển giọng nói thành văn bản trong 99 ngôn ngữ với timestamp chính xác đến mili-giây, rồi xuất ra SRT chuẩn (hỗ trợ player phổ quát) hoặc WebVTT (gốc HTML5/YouTube). Quan trọng cho tính riêng tư với footage bí mật, phỏng vấn dưới NDA, hoặc nội dung pháp lý/y tế.

Công cụ hoạt động như thế nào?

Công cụ trích xuất âm thanh từ video, sau đó sử dụng mô hình Whisper AI của OpenAI (chạy cục bộ trong trình duyệt qua WebAssembly) để phiên âm giọng nói thành văn bản với mốc thời gian. Cuối cùng, nó định dạng bản phiên âm thành file phụ đề chuẩn SRT hoặc VTT.

Những định dạng video nào được hỗ trợ?

Hỗ trợ MP4, WebM, MOV, MKV, AVI, M4V, WMV, FLV, 3GP, OGV và MPEG/MPG — ffmpeg.wasm tách (demux) tất cả để trích xuất luồng âm thanh. Kích thước tối đa là 200MB, giữ cho âm thanh đã giải mã nằm thoải mái trong giới hạn bộ nhớ WebAssembly của trình duyệt (file 4K dài có thể vượt quá giới hạn này).

Nên chọn mô hình AI nào?

Tiny nhanh nhất và hoạt động tốt với giọng nói rõ ràng. Base cân bằng giữa tốc độ và độ chính xác. Small chính xác nhất nhưng chậm hơn và cần nhiều bộ nhớ hơn. Bắt đầu với Tiny để thử nghiệm.

Sự khác biệt giữa SRT và VTT là gì?

SRT (SubRip) là định dạng được hỗ trợ rộng rãi nhất, tương thích với hầu hết trình phát video và nền tảng. VTT (WebVTT) là tiêu chuẩn web cho video HTML5 và là định dạng YouTube ưa dùng; đặc tả cũng cho phép cue settings và kiểu ::cue, dù công cụ này xuất cue thuần không có kiểu để bạn tự tạo kiểu sau trong trình phát hoặc bằng CSS. Ngoài ra còn có tùy chọn TXT văn bản thuần chỉ xuất bản phiên âm không có mốc thời gian. Cả ba dùng chung văn bản đã ngắt dòng; chỉ SRT và VTT mang thông tin thời gian.

Video của tôi có được tải lên server không?

Không. Mọi xử lý diễn ra cục bộ trong trình duyệt của bạn bằng WebAssembly. Video của bạn không bao giờ rời khỏi thiết bị, đảm bảo sự riêng tư hoàn toàn.

Whisper chính xác đến đâu so với phiên âm thủ công?

Whisper Small đạt khoảng 95-97% độ chính xác từ trên audio tiếng Anh sạch, tương đương một phiên âm viên thủ công giá rẻ. Tiny giảm xuống 85-90% — đủ cho bản nháp nhưng bạn sẽ muốn chỉnh. Độ chính xác giảm mạnh với: giọng địa phương nặng, nhiều người nói chồng nhau, nhạc/tiếng ồn nền, thuật ngữ chuyên ngành, mic nhỏ tiếng/xa. Cho chất lượng broadcast (99%+), dùng Whisper làm pass đầu rồi chỉnh thủ công, vẫn tiết kiệm ~70% thời gian so với gõ từ đầu.

Tạo Phụ Đề Tự Động — Phụ đề AI ngay trên trình duyệt: video sang SRT và WebVTT, timestamp theo từng từ, 99 ngôn ngữ, kiểm soát độ dài dòng và — **Tạo Phụ Đề Tự Động**

Tại sao chậm vậy với video dài?

Whisper xử lý audio ở khoảng 0.5-3x tốc độ thời gian thực tùy CPU và mô hình bạn chọn. Video 10 phút có thể mất 3-8 phút với Tiny trên laptop hiện đại, hoặc 15-30 phút với Small. Chưa có tăng tốc GPU trong Whisper trên trình duyệt (hỗ trợ WebGPU của Apple vẫn đang hoàn thiện). Với video 30+ phút, hãy chuẩn bị để tab mở một lúc. Mô hình tải về một lần và được cache, nên lần chạy sau bỏ qua bước đó.

Có xử lý được nhiều người nói hoặc speaker diarization không?

Bản thân Whisper không làm diarization (gán nhãn 'Người 1' vs 'Người 2'). Nó phiên âm tuần tự mà không xác định ai đang nói. Với họp, podcast, hoặc phỏng vấn cần nhãn người nói, bạn cần bước hậu xử lý dùng pyannote hoặc AWS Transcribe. Output SRT/VTT ở đây là dòng liên tục các câu có timestamp — hoàn hảo cho nội dung một người như bài giảng, tutorial, vlog, phim tài liệu có thuyết minh.

Hỗ trợ ngôn ngữ ngoài tiếng Anh tốt thế nào?

Whisper hỗ trợ 99 ngôn ngữ với độ chính xác khác nhau. Cao nhất (95%+ trên Small): Anh, Tây Ban Nha, Pháp, Đức, Ý, Bồ Đào Nha, Nhật. Tốt (85-92%): Trung, Hàn, Nga, Ả Rập, Hindi, Việt. Đặt 'Language' đúng ngôn ngữ để có kết quả tốt nhất — 'Auto Detect' thêm pass xác suất ban đầu đôi khi phân loại sai (đặc biệt với clip rất ngắn hoặc trộn ngôn ngữ). Với nội dung đa ngôn ngữ, chạy riêng từng phần ngôn ngữ.

Phụ đề có đồng bộ đúng khi nhúng vào video không?

Có — SRT và VTT đều dùng timestamp tuyệt đối (HH:MM:SS,mmm) tính từ đầu audio. Thả SRT vào HandBrake, DaVinci Resolve, Premiere, FFmpeg, hoặc bất kỳ player nào và timing chính xác đến mili-giây. Để nung phụ đề mở (open caption) bằng FFmpeg dùng bộ lọc subtitles: ffmpeg -i in.mp4 -vf "subtitles=subs.srt" out.mp4. Để ghép thành closed caption mềm trong MP4 dùng -c:s mov_text (-c:s webvtt cho WebM/HLS). Một lưu ý: timestamp là giây đồng hồ, nên trên timeline drop-frame 29.97/59.94 thì timecode SMPTE và đồng hồ SRT lệch nhau qua thời lượng dài — hãy đặt frame rate dự án NLE khớp với nguồn trước khi tin vào điểm bắt đầu cue chính xác đến frame.

Làm sao giữ phụ đề tuân thủ chuẩn broadcast (ký tự mỗi dòng / CPS)?

Whisper thô đổ cả một câu vào một cue, QC sẽ loại bỏ. Hướng dẫn của BBC, Netflix và EBU giới hạn mỗi dòng khoảng 37-42 ký tự, tối đa hai dòng, và giữ tốc độ đọc dưới khoảng 17-20 ký tự mỗi giây (CPS). Đặt 'Số Ký Tự Tối Đa Mỗi Dòng' (mặc định 42) và công cụ tự ngắt mỗi chunk dài của Whisper thành cue tuân thủ một hoặc hai dòng theo ranh giới từ — không cắt giữa từ. Nó cũng giới hạn điểm kết thúc mỗi cue theo thời lượng thực của media để không phụ đề nào vượt quá EOF, điều mà các trình kiểm tra nghiêm ngặt và một số player từ chối. Với CEA-608/708 (caption line-21 nhúng trong luồng broadcast) bạn vẫn cần bộ mã hóa như CCExtractor, nhưng SRT/VTT là định dạng trao đổi mà mọi quy trình caption đều nạp được.

Làm sao đồng bộ lại phụ đề sau khi cắt video?

Dùng trường 'Dịch Thời Gian Bắt Đầu'. Sau khi biên tập viên cắt, ví dụ 5 giây ở đầu timeline, đặt dịch thời gian thành -5 và tạo lại (hoặc +3 nếu bạn thêm thẻ intro 3 giây). Mỗi timestamp dịch đi lượng đó và được giới hạn ở 0 để không âm, phần đuôi giới hạn theo thời lượng media. Đây chính là thao tác dịch hàng loạt mà bạn vốn phải làm trong Aegisub hoặc Subtitle Edit, nay thực hiện ngay trong công cụ trước khi xuất — không cần qua trình chỉnh phụ đề riêng.

Xem thêm

CôNG Cụ VIDEO36

WUTOOLS