TelegramTham gia nhóm Telegram để yêu cầu tool, báo lỗi & nhận cập nhật@WuToolsCommunity

Chuyển Giọng Nói Thành Văn Bản

Công cụ AI chuyển giọng nói thành văn bản miễn phí. Phiên âm file audio và video có dấu thời gian. 100% riêng tư, xử lý trực tiếp trên trình duyệt.

AI Phiên âm AI bằng OpenAI Whisper. Mọi xử lý diễn ra trên trình duyệt - file audio không rời khỏi thiết bị của bạn.
Đang kiểm tra...
Upload
Kéo thả file audio hoặc video vào đây
Hỗ trợ MP3, WAV, M4A, MP4, WebM và nhiều định dạng khác

Giới Thiệu Công Cụ Chuyển Giọng Nói Thành Văn Bản

Công cụ phiên âm AI này sử dụng mô hình Whisper của OpenAI để chuyển đổi giọng nói thành văn bản với độ chính xác cao. Khác với các dịch vụ đám mây, mọi xử lý diễn ra trực tiếp trên trình duyệt của bạn bằng WebGPU/WebAssembly - file audio không bao giờ được tải lên bất kỳ máy chủ nào, đảm bảo hoàn toàn riêng tư.

Phiên âm trên trình duyệt hoạt động như thế nào?

Công cụ sử dụng Transformers.js để chạy mô hình Whisper của OpenAI trực tiếp trên trình duyệt. Khi bạn phiên âm lần đầu, mô hình AI sẽ được tải xuống và lưu trong trình duyệt. Mọi xử lý audio và phiên âm diễn ra cục bộ trên thiết bị của bạn bằng CPU/GPU, không gửi dữ liệu nào đến máy chủ bên ngoài.

Nên chọn kích thước mô hình nào?

Có ba tùy chọn mô hình:
- Tiny (~40MB): Tải và xử lý nhanh nhất. Phù hợp với audio rõ ràng, ít tạp âm.
- Base (~75MB): Cân bằng giữa tốc độ và độ chính xác.
- Small (~250MB): Chính xác nhất, đặc biệt với audio có giọng địa phương hoặc tạp âm. Khuyến nghị cho các bản phiên âm quan trọng.

Mô hình lớn hơn chính xác hơn nhưng cần thời gian tải và xử lý lâu hơn.

Hỗ trợ những ngôn ngữ nào?

Whisper hỗ trợ hơn 99 ngôn ngữ bao gồm tiếng Việt, tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập, tiếng Hindi, tiếng Bồ Đào Nha, tiếng Nga và nhiều ngôn ngữ khác. Bạn có thể chọn ngôn ngữ thủ công để tăng độ chính xác, hoặc để AI tự nhận diện.

Hỗ trợ những định dạng audio và video nào?

Hỗ trợ tất cả định dạng audio phổ biến: MP3, WAV, M4A, AAC, FLAC, OGG, OPUS và WebA. File video cũng được hỗ trợ - phần audio sẽ tự động được trích xuất từ MP4, WebM, MKV, AVI, MOV và các định dạng video khác.

Độ chính xác của phiên âm như thế nào?

Whisper cung cấp độ chính xác hàng đầu cho nhận dạng giọng nói tự động. Kết quả tốt nhất với:
- Bản ghi rõ ràng, ít tạp âm
- Người nói với giọng chuẩn
- Audio một người nói

Độ chính xác có thể thay đổi với:
- Giọng địa phương hoặc phương ngữ nặng
- Nhiều người nói chồng chéo
- Chất lượng audio kém hoặc nhiều tạp âm
- Thuật ngữ chuyên môn hoặc từ ít phổ biến

Có thể lấy dấu thời gian và phụ đề không?

Có! Bật 'Bao gồm dấu thời gian' để nhận các đoạn có dấu thời gian hoàn hảo để tạo phụ đề. Bạn có thể tải xuống bản phiên âm dạng file SRT sẵn sàng cho chỉnh sửa video. Bật 'Dấu thời gian từng từ' để có thời gian chính xác hơn cho từng từ.

Tại sao xử lý chậm trên thiết bị của tôi?

Tốc độ phiên âm phụ thuộc vào phần cứng. Thiết bị hiện đại hỗ trợ WebGPU (Chrome 113+) sẽ nhanh hơn đáng kể. Để cải thiện hiệu suất:
- Sử dụng trình duyệt Chrome hoặc Edge để tăng tốc WebGPU
- Đóng các tab và ứng dụng khác
- Sử dụng mô hình Tiny để xử lý nhanh hơn
- Máy tính để bàn/laptop nhanh hơn điện thoại
- File audio dưới 10 phút hoạt động tốt nhất

Dữ liệu audio có được bảo mật không?

Hoàn toàn. Khác với các dịch vụ phiên âm đám mây, audio không bao giờ rời khỏi thiết bị của bạn. Mọi xử lý AI diễn ra cục bộ trên trình duyệt bằng WebGPU hoặc WebAssembly. Không có audio nào được tải lên, lưu trữ hay xử lý trên bất kỳ máy chủ nào. Khi bạn đóng trang, tất cả dữ liệu được xóa khỏi bộ nhớ.

Dung lượng và thời lượng file tối đa là bao nhiêu?

Dung lượng file tối đa là 100MB. Để có hiệu suất tốt nhất, chúng tôi khuyến nghị file audio dưới 10 phút. File dài hơn có thể xử lý được nhưng sẽ tốn nhiều thời gian và bộ nhớ hơn. Nếu bạn có bản ghi dài, hãy cân nhắc chia thành các phần nhỏ hơn.