Chuyển Văn Bản Thành Giọng Nói

Chuyển văn bản thành giọng nói miễn phí với giọng AI tự nhiên. Chỉnh tốc độ, cao độ, tô sáng từ để soát lỗi, hỗ trợ tiếp cận. Riêng tư, offline, không đăng ký.

Văn Bản Cần Đọc

Mở file

Xóa

Dán

Chọn

Mẹo: dấu phẩy nghỉ ngắn, dấu chấm dừng hẳn câu, dấu chấm phẩy nghỉ vừa, dấu hỏi thêm ngữ điệu lên cao.0 / 5000

Cài Đặt Giọng Đọc

Giọng ĐọcCác giọng có sẵn lấy từ hệ điều hành và trình duyệt của bạn. Mỗi thiết bị sẽ có danh sách giọng khác nhau.

Lọc Theo Ngôn Ngữ

Tự động chia nhỏ văn bản dài (khuyên dùng cho Chrome)Chia văn bản của bạn thành các đoạn cỡ một câu rồi đọc lần lượt, để Chrome không bao giờ cắt ngang đoạn dài tại giới hạn khoảng 15 giây.

Tốc Độ: 1.00x

0.5x1.0x2.0x

Cao Độ: 1.00

01.02.0

Âm Lượng: 100%

0%50%100%

Trạng Thái

Thời Lượng Ước Tính

Từ Hiện Tại

Về việc tải audio:Trình duyệt không cho phép truy cập trực tiếp luồng audio từ Web Speech API, nên công cụ không thể lưu giọng đọc thành MP3 hay WAV. Để ghi lại, hãy dùng tính năng quay màn hình hoặc thu âm có sẵn của hệ điều hành trong khi công cụ đang phát giọng.

Có góp ý? Báo lỗi, đề xuất tính năng, hoặc chia sẻ suy nghĩ — chúng tôi đọc tất cả

Giới Thiệu Công Cụ Chuyển Văn Bản Thành Giọng Nói

Công cụ này dùng Web Speech API tích hợp sẵn trong các trình duyệt hiện đại, nên mọi từ ngữ được phát ngay trên thiết bị của bạn. Văn bản không bị tải lên, không được lưu ở máy chủ và công cụ vẫn hoạt động khi mất mạng sau khi trang đã tải xong. Bạn có thể chọn bất kỳ giọng nào do hệ điều hành cung cấp, điều chỉnh tốc độ, cao độ, âm lượng và quan sát từ hiện tại được làm nổi bật theo thời gian thực. Công cụ phù hợp để soát lỗi bản thảo, học phát âm tiếng nước ngoài, tạo lồng tiếng nhanh hoặc tăng khả năng tiếp cận cho người gặp khó khăn khi đọc đoạn dài.

Công cụ chuyển văn bản thành giọng nói này hoạt động ra sao?

Công cụ gọi đến giao diện window.speechSynthesis có sẵn trong trình duyệt, thuộc Web Speech API của W3C. Khi bạn bấm Đọc, nội dung sẽ được chuyển cho động cơ giọng nói của hệ điều hành: Microsoft Speech Platform trên Windows, AVSpeechSynthesizer trên macOS và iOS, Google Text-to-Speech trên Android và Chromebook, hoặc eSpeak NG trên nhiều bản phân phối Linux. Động cơ tạo sóng âm ngay tại máy và phát ra loa. Dữ liệu không hề rời khỏi thiết bị, đó là lý do công cụ rất riêng tư và vẫn chạy khi mất mạng sau khi trang đã được tải. Danh sách giọng phụ thuộc hoàn toàn vào hệ điều hành, nên mỗi máy sẽ thấy các giọng khác nhau.

Tại sao trên mỗi thiết bị tôi lại thấy giọng khác nhau?

Các giọng không đi kèm với website mà đi kèm với hệ điều hành, trình duyệt và gói ngôn ngữ bạn đã cài thêm. Windows 11 mặc định có Microsoft David và Zira cho tiếng Anh, cộng với một giọng cho mỗi ngôn ngữ hiển thị. macOS có giọng Siri và các giọng cũ như Samantha, Daniel, Karen. Android dùng Google Text-to-Speech với khả năng tải thêm giọng chất lượng cao theo yêu cầu. Để có thêm giọng, vào phần Cài đặt của hệ điều hành, tìm mục Giọng nói, Voice Access hoặc Gói ngôn ngữ và cài đặt giọng bạn cần — chúng sẽ xuất hiện trong danh sách lần tải lại sau.

Các thanh trượt tốc độ, cao độ và âm lượng làm gì?

Tốc Độ điều chỉnh độ nhanh chậm, từ 0,5x (một nửa) đến 2,0x (gấp đôi). Giá trị 1,0 là nhịp tự nhiên của giọng, khoảng 150 đến 180 từ mỗi phút với các giọng tiếng Anh. Cao Độ thay đổi tần số cơ bản: 0 nghe rất trầm và khàn, 1,0 là cao độ tự nhiên, 2,0 thì rất the thé như hoạt hình. Âm Lượng đi từ im lặng (0) đến tối đa (1,0); thanh này độc lập với âm lượng hệ thống nên hãy chỉnh cả hai để có mức nghe phù hợp. Nhiều người thích đặt 1,1x với cao độ thấp hơn một chút khi nghe trong thời gian dài, vì đỡ mệt tai hơn.

Tôi có lưu giọng đọc thành tệp MP3 hoặc WAV được không?

Không trực tiếp được. Web Speech API chỉ cho phép phát âm thanh, không trả lại dữ liệu sóng âm cho JavaScript, nên trang web không có cách nào mã hóa giọng nói thành tệp âm thanh. Đây là giới hạn cố ý của trình duyệt để bảo vệ các giọng độc quyền của hệ điều hành. Để ghi lại, hãy dùng công cụ quay màn hình sẵn có (Game Bar trên Windows, QuickTime Player trên macOS, Screen Capture trên Chromebook) hoặc một cáp âm thanh ảo cùng phần mềm thu âm miễn phí trong khi công cụ đang phát. Nếu cần xuất tự động, hãy chuyển sang dịch vụ đám mây như Amazon Polly, Google Cloud TTS hay Microsoft Azure Speech — các dịch vụ này trả về MP3 hoặc WAV nhưng có tính phí.

Vì sao Chrome thường ngắt giữa chừng khi đọc văn bản dài?

Chrome có giới hạn khoảng 15 giây cho mỗi câu phát và đôi khi cắt âm thầm các đoạn dài. Công cụ đã giảm thiểu bằng cách gửi mỗi lần Đọc thành một câu phát duy nhất và gọi resume() ngay sau speak() để giữ động cơ hoạt động trên Chrome bản mới. Nếu vẫn bị cắt, hãy chia đoạn dài thành các đoạn nhỏ hơn và bấm Đọc cho từng đoạn, hoặc chuyển sang Microsoft Edge — Edge dùng giọng Azure chất lượng cao và không có giới hạn này. Firefox và Safari xử lý văn bản dài rất ổn định. Việc tạm dừng và tiếp tục nhiều lần cũng có thể khiến Chrome mất hàng đợi; cách khắc phục an toàn nhất là bấm Dừng rồi Đọc lại từ đầu.

Chuyển Văn Bản Thành Giọng Nói — Chuyển văn bản thành giọng nói miễn phí với giọng AI tự nhiên. Chỉnh tốc độ, cao độ, tô sáng từ để soát lỗi, hỗ trợ tiếp — **Chuyển Văn Bản Thành Giọng Nói**

Làm sao kiểm soát cách phát âm và khoảng nghỉ?

Phần lớn trình duyệt không hỗ trợ SSML, nên nhịp đọc phải được điều khiển qua dấu câu. Dấu phẩy tạo khoảng nghỉ ngắn khoảng 150 ms, dấu chấm phẩy và gạch ngang dài cho khoảng nghỉ trung bình, dấu chấm và dấu hỏi tạo khoảng dừng dài hơn cùng ngữ điệu. Muốn có khoảng lặng vài giây, hãy gõ dấu ba chấm hoặc một hàng chấm trên một dòng riêng. Để chỉnh phát âm, hãy viết lại từ khó theo cách đánh vần — ví dụ ghi 'Vietnam' thành 'vi-ệt-nam' hoặc 'IPv6' thành 'I P V sáu'. Chữ viết hoa toàn bộ thường được đọc thành từng chữ cái, còn chữ hoa lẫn thường được đọc như một từ.

Công cụ này có thực sự riêng tư không?

Có. Mọi xử lý đều diễn ra bên trong tab trình duyệt nhờ động cơ giọng nói cục bộ của hệ điều hành. Văn bản bạn nhập không hề rời khỏi máy: chúng tôi không gửi về máy chủ, không gửi đến nền tảng phân tích, không gửi đến bất kỳ dịch vụ TTS bên thứ ba nào. Bạn có thể tự kiểm tra bằng cách mở DevTools, vào tab Network rồi bấm Đọc — sẽ không có yêu cầu nào được gửi đi. Ngoại lệ duy nhất là các giọng 'natural' trên Chromebook do Google phát trực tuyến và đã ghi rõ chữ natural trong tên; nếu cần riêng tư tuyệt đối, hãy bỏ chọn các giọng đó và dùng giọng đánh dấu là cục bộ hoặc mặc định hệ thống.

Cài đặt nào tốt nhất để thu một bản lồng tiếng?

Để có bản đọc nháp sạch tiếng, hãy bắt đầu với giọng tự nhiên hoặc neural: trên Edge tìm các giọng Microsoft 'Online (Natural)', trên macOS dùng giọng Siri, trên Android dùng giọng mạng của Google — tất cả đều nghe giống người hơn nhiều so với giọng eSpeak cũ. Đặt tốc độ trong khoảng 0,95x đến 1,1x: thấp hơn 1,0 một chút sẽ đọc khoan thai và dễ cắt ghép hơn, còn cao hơn 1,0 một chút giúp giữ năng lượng cho video hướng dẫn. Giữ cao độ ở 1,0 trừ khi bạn muốn nhân vật trầm hơn hay sáng hơn, và đặt âm lượng 100% để máy thu bắt tín hiệu mạnh nhất, sau đó mới chỉnh mức. Vì Web Speech API không xuất audio trực tiếp, hãy dẫn âm thanh phát ra vào công cụ thu của hệ điều hành: trên Windows dùng Game Bar hoặc cáp âm thanh ảo đưa vào Audacity, trên macOS thu âm thanh hệ thống bằng QuickTime. Hãy chú ý dấu câu — dấu phẩy và dấu chấm điều khiển nhịp đọc và chỗ lấy hơi — và dùng phần tô sáng từ theo thời gian thực để theo dõi văn bản, phát hiện từ bị đọc sai trước khi bấm thu.

Làm sao đọc tài liệu rất dài mà không bị ngắt giữa chừng?

Hãy để bật công tắc 'Tự động chia nhỏ văn bản dài' (mặc định đã bật). Thay vì gửi cả tài liệu trong một lần — điều mà Chromium âm thầm dừng lại sau khoảng 15 giây — công cụ sẽ chia văn bản thành các đoạn cỡ một câu bằng bộ tách câu của trình duyệt rồi đọc liền mạch, áp dụng lại giọng, tốc độ, cao độ và âm lượng bạn chọn cho từng đoạn. Những câu rất dài còn được ngắt thêm tại dấu phẩy hoặc khoảng trắng gần nhất để không đoạn nào chạm giới hạn của động cơ. Thanh tiến trình và phần tô sáng trong văn bản dựa trên vị trí thật do động cơ giọng nói báo về, chứ không phải ước tính theo đồng hồ, nên luôn chính xác ở mọi tốc độ, giọng hay ngôn ngữ — kể cả các giọng không phải tiếng Anh nơi việc đếm từ thiếu tin cậy. Nhờ vậy, một bài 5.000 ký tự, một chương sách hay cả kịch bản đều được đọc từ đầu đến cuối trên Chrome, Edge, Firefox và Safari mà không phải bấm đọc từng đoạn. Nếu cần kiểu đọc một câu phát như trước, chỉ cần tắt công tắc này.

Ai sẽ hưởng lợi nhiều nhất từ công cụ này?

Người viết dùng để soát lỗi bản thảo, vì tai bắt được câu lủng củng và từ bị thiếu mà mắt thường bỏ qua. Người học ngoại ngữ dùng để nghe phát âm bản xứ của danh sách từ vựng. Người gặp khó đọc như dyslexia, ADHD hay thị lực kém dùng làm công cụ đọc hỗ trợ. Podcaster và YouTuber tạo lồng tiếng nhanh để dựng bản nháp. Giáo viên biến tài liệu thành phiên bản audio cho học sinh khuyết tật. Lập trình viên thử nghiệm giao diện với đầu ra giống trình đọc màn hình. Tài xế và người đi đường biến bài viết thành audio nghe rảnh tay. Công cụ cố tình nhẹ và miễn phí để mọi người — kể cả khi mạng chậm hay máy cấu hình thấp — đều dùng được mà không cần đăng ký, không trả phí và không cài thêm gì.

Xem thêm

CôNG Cụ âM THANH43

WUTOOLS