Chuyển Giọng Nói Thành Văn Bản
Chuyển giọng nói thành văn bản bằng Whisper AI ngay trên trình duyệt. Xuất SRT, VTT, JSON. Chạy trên thiết bị với WebGPU/WASM, không tải lên.
Giới Thiệu Công Cụ Chuyển Giọng Nói Thành Văn Bản
Công cụ phiên âm AI này sử dụng mô hình Whisper của OpenAI để chuyển đổi giọng nói thành văn bản với độ chính xác cao. Khác với các dịch vụ đám mây, mọi xử lý diễn ra trực tiếp trên trình duyệt của bạn bằng WebGPU/WebAssembly - file audio không bao giờ được tải lên bất kỳ máy chủ nào, đảm bảo hoàn toàn riêng tư.
Phiên âm trên trình duyệt hoạt động như thế nào?
Công cụ sử dụng Transformers.js để chạy mô hình Whisper của OpenAI trực tiếp trên trình duyệt. Khi bạn phiên âm lần đầu, mô hình AI sẽ được tải xuống và lưu trong trình duyệt. Mọi xử lý audio và phiên âm diễn ra cục bộ trên thiết bị của bạn bằng CPU/GPU, không gửi dữ liệu nào đến máy chủ bên ngoài.
Nên chọn kích thước mô hình nào?
Có ba tùy chọn mô hình:
- Tiny (~40MB): Tải và xử lý nhanh nhất. Phù hợp với audio rõ ràng, ít tạp âm.
- Base (~75MB): Cân bằng giữa tốc độ và độ chính xác.
- Small (~250MB): Chính xác nhất, đặc biệt với audio có giọng địa phương hoặc tạp âm. Khuyến nghị cho các bản phiên âm quan trọng.
Mô hình lớn hơn chính xác hơn nhưng cần thời gian tải và xử lý lâu hơn.
Hỗ trợ những ngôn ngữ nào?
Whisper hỗ trợ hơn 99 ngôn ngữ bao gồm tiếng Việt, tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập, tiếng Hindi, tiếng Bồ Đào Nha, tiếng Nga và nhiều ngôn ngữ khác. Bạn có thể chọn ngôn ngữ thủ công để tăng độ chính xác, hoặc để AI tự nhận diện.
Hỗ trợ những định dạng audio và video nào?
Hỗ trợ tất cả định dạng audio phổ biến: MP3, WAV, M4A, AAC, FLAC, OGG, OPUS và WebA. File video cũng được hỗ trợ - phần audio sẽ tự động được trích xuất từ MP4, WebM, MKV, AVI, MOV và các định dạng video khác.
Độ chính xác của phiên âm như thế nào?
Whisper cung cấp độ chính xác hàng đầu cho nhận dạng giọng nói tự động. Kết quả tốt nhất với:
- Bản ghi rõ ràng, ít tạp âm
- Người nói với giọng chuẩn
- Audio một người nói
Độ chính xác có thể thay đổi với:
- Giọng địa phương hoặc phương ngữ nặng
- Nhiều người nói chồng chéo
- Chất lượng audio kém hoặc nhiều tạp âm
- Thuật ngữ chuyên môn hoặc từ ít phổ biến
Có thể lấy dấu thời gian và phụ đề không?
Có! Bật 'Bao gồm dấu thời gian' để nhận các đoạn có dấu thời gian hoàn hảo để tạo phụ đề. Bạn có thể tải xuống bản phiên âm dạng file SRT sẵn sàng cho chỉnh sửa video. Bật 'Dấu thời gian từng từ' để có thời gian chính xác hơn cho từng từ.
Tại sao xử lý chậm trên thiết bị của tôi?
Tốc độ phiên âm phụ thuộc vào phần cứng. Thiết bị hiện đại hỗ trợ WebGPU (Chrome 113+) sẽ nhanh hơn đáng kể. Để cải thiện hiệu suất:
- Sử dụng trình duyệt Chrome hoặc Edge để tăng tốc WebGPU
- Đóng các tab và ứng dụng khác
- Sử dụng mô hình Tiny để xử lý nhanh hơn
- Máy tính để bàn/laptop nhanh hơn điện thoại
- File audio dưới 10 phút hoạt động tốt nhất

Dữ liệu audio có được bảo mật không?
Hoàn toàn. Khác với các dịch vụ phiên âm đám mây, audio không bao giờ rời khỏi thiết bị của bạn. Mọi xử lý AI diễn ra cục bộ trên trình duyệt bằng WebGPU hoặc WebAssembly. Không có audio nào được tải lên, lưu trữ hay xử lý trên bất kỳ máy chủ nào. Khi bạn đóng trang, tất cả dữ liệu được xóa khỏi bộ nhớ.
Dung lượng và thời lượng file tối đa là bao nhiêu?
Dung lượng file tối đa là 100MB. Để có hiệu suất tốt nhất, chúng tôi khuyến nghị file audio dưới 10 phút. File dài hơn có thể xử lý được nhưng sẽ tốn nhiều thời gian và bộ nhớ hơn. Nếu bạn có bản ghi dài, hãy cân nhắc chia thành các phần nhỏ hơn.
Công cụ chạy chính xác mô hình và trọng số nào?
Công cụ chạy mô hình Whisper của OpenAI qua Transformers.js bằng các trọng số mở của ONNX-community: onnx-community/whisper-tiny, whisper-base và whisper-small. Trên WebGPU mô hình chạy ở fp32 để đạt độ chính xác cao nhất; trên WebAssembly (CPU) chạy ở q8 (lượng tử hóa 8-bit) để tải và chạy được trên thiết bị yếu hơn. Bản q8 đánh đổi một chút độ chính xác để lấy tốc độ và bộ nhớ, vì vậy mô hình lớn hơn sẽ giúp ích với audio ồn hoặc có giọng địa phương.
Tôi có thể chỉnh sửa bản phiên âm trước khi xuất không?
Có. Khung văn bản và từng đoạn có dấu thời gian đều có thể chỉnh sửa hoàn toàn. Sửa trực tiếp tên riêng, thuật ngữ và dấu câu, rồi mọi định dạng xuất — TXT, SRT, VTT, JSON, Markdown và CSV, cùng phần tải đoạn — sẽ phản ánh các sửa đổi của bạn thay vì kết quả gốc của mô hình. Sửa văn bản sẽ cập nhật bản xuất toàn văn; sửa một đoạn sẽ cập nhật phụ đề đó và đồng bộ lại toàn bộ bản phiên âm.
Có những định dạng xuất và lược đồ đoạn nào?
Sáu định dạng: TXT (văn bản thuần), SRT và WebVTT (phụ đề có dấu thời gian), Markdown (văn bản kèm danh sách đoạn có thời gian), CSV (chỉ số, start_seconds, end_seconds, text) và JSON. Lược đồ JSON là { language, text, segments: [{ start, end, text }], words: [{ start, end, text }] | null, exported_at, tool }. Dấu thời gian từng từ nằm trong mảng 'words' của JSON và được giữ riêng khỏi danh sách đoạn theo câu để SRT/VTT vẫn dễ đọc.
Công cụ có hoạt động ngoại tuyến không và mô hình có được lưu cache không?
Lần phiên âm đầu tiên sẽ tải mô hình Whisper đã chọn một lần; trình duyệt lưu nó vào cache (HTTP cache / Cache Storage). Sau đó, việc phiên âm hoạt động mà không cần tải lại mô hình và vẫn chạy hoàn toàn trên thiết bị của bạn. Không có gì — kể cả audio hay bản phiên âm — được tải lên máy chủ; toàn bộ suy luận diễn ra cục bộ trên trình duyệt bằng WebGPU hoặc WebAssembly.
Độ chính xác ra sao — tôi có thể xuất bản trực tiếp kết quả không?
Hãy xem kết quả là bản nháp đầu nhanh, không phải sản phẩm hoàn chỉnh. Tỷ lệ lỗi từ thay đổi theo kích thước mô hình, tạp âm, giọng địa phương, người nói chồng chéo và thuật ngữ chuyên môn, và bản WASM được lượng tử hóa (q8). Luôn đọc lại và kiểm tra trước khi xuất bản phụ đề hay sản phẩm — chính vì vậy bản phiên âm và các đoạn đều có thể chỉnh sửa và bản đã sửa là bản được xuất ra.
