Chuyển Văn Bản Thành Giọng Nói
Chuyển văn bản thành giọng nói miễn phí ngay trong trình duyệt. Chọn nhiều giọng, tùy chỉnh tốc độ, cao độ, âm lượng. Hoàn toàn riêng tư, không tải lên.
Giới Thiệu Công Cụ Chuyển Văn Bản Thành Giọng Nói
Công cụ này dùng Web Speech API tích hợp sẵn trong các trình duyệt hiện đại, nên mọi từ ngữ được phát ngay trên thiết bị của bạn. Văn bản không bị tải lên, không được lưu ở máy chủ và công cụ vẫn hoạt động khi mất mạng sau khi trang đã tải xong. Bạn có thể chọn bất kỳ giọng nào do hệ điều hành cung cấp, điều chỉnh tốc độ, cao độ, âm lượng và quan sát từ hiện tại được làm nổi bật theo thời gian thực. Công cụ phù hợp để soát lỗi bản thảo, học phát âm tiếng nước ngoài, tạo lồng tiếng nhanh hoặc tăng khả năng tiếp cận cho người gặp khó khăn khi đọc đoạn dài.
Công cụ chuyển văn bản thành giọng nói này hoạt động ra sao?
Công cụ gọi đến giao diện window.speechSynthesis có sẵn trong trình duyệt, thuộc Web Speech API của W3C. Khi bạn bấm Đọc, nội dung sẽ được chuyển cho động cơ giọng nói của hệ điều hành: Microsoft Speech Platform trên Windows, AVSpeechSynthesizer trên macOS và iOS, Google Text-to-Speech trên Android và Chromebook, hoặc eSpeak NG trên nhiều bản phân phối Linux. Động cơ tạo sóng âm ngay tại máy và phát ra loa. Dữ liệu không hề rời khỏi thiết bị, đó là lý do công cụ rất riêng tư và vẫn chạy khi mất mạng sau khi trang đã được tải. Danh sách giọng phụ thuộc hoàn toàn vào hệ điều hành, nên mỗi máy sẽ thấy các giọng khác nhau.
Tại sao trên mỗi thiết bị tôi lại thấy giọng khác nhau?
Các giọng không đi kèm với website mà đi kèm với hệ điều hành, trình duyệt và gói ngôn ngữ bạn đã cài thêm. Windows 11 mặc định có Microsoft David và Zira cho tiếng Anh, cộng với một giọng cho mỗi ngôn ngữ hiển thị. macOS có giọng Siri và các giọng cũ như Samantha, Daniel, Karen. Android dùng Google Text-to-Speech với khả năng tải thêm giọng chất lượng cao theo yêu cầu. Để có thêm giọng, vào phần Cài đặt của hệ điều hành, tìm mục Giọng nói, Voice Access hoặc Gói ngôn ngữ và cài đặt giọng bạn cần — chúng sẽ xuất hiện trong danh sách lần tải lại sau.
Các thanh trượt tốc độ, cao độ và âm lượng làm gì?
Tốc Độ điều chỉnh độ nhanh chậm, từ 0,5x (một nửa) đến 2,0x (gấp đôi). Giá trị 1,0 là nhịp tự nhiên của giọng, khoảng 150 đến 180 từ mỗi phút với các giọng tiếng Anh. Cao Độ thay đổi tần số cơ bản: 0 nghe rất trầm và khàn, 1,0 là cao độ tự nhiên, 2,0 thì rất the thé như hoạt hình. Âm Lượng đi từ im lặng (0) đến tối đa (1,0); thanh này độc lập với âm lượng hệ thống nên hãy chỉnh cả hai để có mức nghe phù hợp. Nhiều người thích đặt 1,1x với cao độ thấp hơn một chút khi nghe trong thời gian dài, vì đỡ mệt tai hơn.
Tôi có lưu giọng đọc thành tệp MP3 hoặc WAV được không?
Không trực tiếp được. Web Speech API chỉ cho phép phát âm thanh, không trả lại dữ liệu sóng âm cho JavaScript, nên trang web không có cách nào mã hóa giọng nói thành tệp âm thanh. Đây là giới hạn cố ý của trình duyệt để bảo vệ các giọng độc quyền của hệ điều hành. Để ghi lại, hãy dùng công cụ quay màn hình sẵn có (Game Bar trên Windows, QuickTime Player trên macOS, Screen Capture trên Chromebook) hoặc một cáp âm thanh ảo cùng phần mềm thu âm miễn phí trong khi công cụ đang phát. Nếu cần xuất tự động, hãy chuyển sang dịch vụ đám mây như Amazon Polly, Google Cloud TTS hay Microsoft Azure Speech — các dịch vụ này trả về MP3 hoặc WAV nhưng có tính phí.

Vì sao Chrome thường ngắt giữa chừng khi đọc văn bản dài?
Chrome có giới hạn khoảng 15 giây cho mỗi câu phát và đôi khi cắt âm thầm các đoạn dài. Công cụ đã giảm thiểu bằng cách gửi mỗi lần Đọc thành một câu phát duy nhất và gọi resume() ngay sau speak() để giữ động cơ hoạt động trên Chrome bản mới. Nếu vẫn bị cắt, hãy chia đoạn dài thành các đoạn nhỏ hơn và bấm Đọc cho từng đoạn, hoặc chuyển sang Microsoft Edge — Edge dùng giọng Azure chất lượng cao và không có giới hạn này. Firefox và Safari xử lý văn bản dài rất ổn định. Việc tạm dừng và tiếp tục nhiều lần cũng có thể khiến Chrome mất hàng đợi; cách khắc phục an toàn nhất là bấm Dừng rồi Đọc lại từ đầu.
Làm sao kiểm soát cách phát âm và khoảng nghỉ?
Phần lớn trình duyệt không hỗ trợ SSML, nên nhịp đọc phải được điều khiển qua dấu câu. Dấu phẩy tạo khoảng nghỉ ngắn khoảng 150 ms, dấu chấm phẩy và gạch ngang dài cho khoảng nghỉ trung bình, dấu chấm và dấu hỏi tạo khoảng dừng dài hơn cùng ngữ điệu. Muốn có khoảng lặng vài giây, hãy gõ dấu ba chấm hoặc một hàng chấm trên một dòng riêng. Để chỉnh phát âm, hãy viết lại từ khó theo cách đánh vần — ví dụ ghi 'Vietnam' thành 'vi-ệt-nam' hoặc 'IPv6' thành 'I P V sáu'. Chữ viết hoa toàn bộ thường được đọc thành từng chữ cái, còn chữ hoa lẫn thường được đọc như một từ.
Công cụ này có thực sự riêng tư không?
Có. Mọi xử lý đều diễn ra bên trong tab trình duyệt nhờ động cơ giọng nói cục bộ của hệ điều hành. Văn bản bạn nhập không hề rời khỏi máy: chúng tôi không gửi về máy chủ, không gửi đến nền tảng phân tích, không gửi đến bất kỳ dịch vụ TTS bên thứ ba nào. Bạn có thể tự kiểm tra bằng cách mở DevTools, vào tab Network rồi bấm Đọc — sẽ không có yêu cầu nào được gửi đi. Ngoại lệ duy nhất là các giọng 'natural' trên Chromebook do Google phát trực tuyến và đã ghi rõ chữ natural trong tên; nếu cần riêng tư tuyệt đối, hãy bỏ chọn các giọng đó và dùng giọng đánh dấu là cục bộ hoặc mặc định hệ thống.
Ai sẽ hưởng lợi nhiều nhất từ công cụ này?
Người viết dùng để soát lỗi bản thảo, vì tai bắt được câu lủng củng và từ bị thiếu mà mắt thường bỏ qua. Người học ngoại ngữ dùng để nghe phát âm bản xứ của danh sách từ vựng. Người gặp khó đọc như dyslexia, ADHD hay thị lực kém dùng làm công cụ đọc hỗ trợ. Podcaster và YouTuber tạo lồng tiếng nhanh để dựng bản nháp. Giáo viên biến tài liệu thành phiên bản audio cho học sinh khuyết tật. Lập trình viên thử nghiệm giao diện với đầu ra giống trình đọc màn hình. Tài xế và người đi đường biến bài viết thành audio nghe rảnh tay. Công cụ cố tình nhẹ và miễn phí để mọi người — kể cả khi mạng chậm hay máy cấu hình thấp — đều dùng được mà không cần đăng ký, không trả phí và không cài thêm gì.
