Phân loại thể loại nhạc AI
Phát hiện thể loại và 400+ phong cách bằng AI, chạy 100% trên trình duyệt, không tải lên, miễn phí. Model Discogs EffNet, dòng thời gian theo đoạn và xuất CSV/JSON.
Về công cụ phân loại thể loại nhạc AI
Công cụ này sử dụng model AI deep learning được huấn luyện trên hơn 2 triệu bài hát để phân loại nhạc thành 400+ phong cách trong 14 thể loại. Sử dụng TensorFlow.js, tất cả xử lý diễn ra ngay trên trình duyệt để bảo mật tối đa.
Phân loại thể loại nhạc AI hoạt động như thế nào?
Công cụ sử dụng mạng neural tích chập (CNN) được huấn luyện trên cơ sở dữ liệu Discogs. Nó trích xuất đặc trưng mel-spectrogram từ âm thanh và so sánh với các mẫu học được từ hàng triệu bài hát để xác định thể loại và phong cách phù hợp nhất.
Những thể loại và phong cách nào có thể phát hiện?
AI có thể nhận diện 400+ phong cách nhạc trong 14 thể loại chính: Blues, Cổ điển, Điện tử (House, Techno, Dubstep...), Dân ca/World/Country, Funk/Soul/R&B (bao gồm Contemporary R&B, Neo Soul), Hip Hop (Trap, Boom Bap...), Jazz, Latin (Reggaeton, Salsa...), Pop (K-pop, J-pop...), Reggae, Rock (Metal, Punk, Indie...) và nhiều hơn.
Công cụ có thể phát hiện nhạc R&B không?
Có! Không giống các bộ phân loại cơ bản, AI này có thể phát hiện chính xác R&B và các phong cách liên quan bao gồm Contemporary R&B, Neo Soul, New Jack Swing, Rhythm & Blues và Soul. Chúng được phân loại trong thể loại 'Funk / Soul'.
Độ chính xác của phân loại AI như thế nào?
Model đạt độ chính xác cao trên tập dữ liệu Discogs. Hoạt động tốt nhất với các bài hát có đặc điểm thể loại rõ ràng. Với bài hát pha trộn nhiều thể loại, nó hiển thị phân bố xác suất trên nhiều phong cách, cung cấp thông tin hữu ích hơn một nhãn duy nhất.
Những định dạng âm thanh nào được hỗ trợ?
Tất cả định dạng âm thanh phổ biến được hỗ trợ bao gồm MP3, WAV, OGG, AAC, M4A, FLAC, OPUS và nhiều hơn. File tối đa 100MB có thể được xử lý. Công cụ phân tích đến 60 giây âm thanh từ giữa bài hát.

Dữ liệu âm thanh của tôi có an toàn không?
Có! Tất cả xử lý diễn ra ngay trên trình duyệt của bạn sử dụng TensorFlow.js. File âm thanh không bao giờ được tải lên server. Model AI được tải một lần và chạy hoàn toàn trên thiết bị của bạn.
Tại sao lần phân tích đầu tiên chậm hơn?
Model AI (~50MB) cần được tải và khởi tạo lần đầu sử dụng. Các lần phân tích tiếp theo nhanh hơn nhiều vì model được lưu trong bộ nhớ. Model cũng 'khởi động' với một dự đoán thử để tối ưu hiệu suất GPU.
Sự khác biệt giữa thể loại và phong cách là gì?
Thể loại (genre) là danh mục rộng (ví dụ: Electronic, Hip Hop). Phong cách (style) là thể loại con cụ thể (ví dụ: Deep House, Trap). Công cụ hiển thị cả hai: các phong cách phát hiện hàng đầu và cách chúng tổng hợp thành thể loại cha.
Tôi có thể xem thể loại thay đổi theo bài hát và xuất kết quả không?
Có. Mỗi cửa sổ phân tích ứng với một mốc thời gian thực, nên Dòng thời gian thể loại liệt kê thể loại, phong cách và độ tin cậy hàng đầu cho từng đoạn - rất hữu ích để nhận ra intro, drop hay outro, đánh dấu điểm cue hoặc tách các bản liên khúc. Bạn có thể xuất toàn bộ dòng thời gian cùng top 10 phong cách ra CSV hoặc JSON để dùng trong bảng tính, DAW, cơ sở dữ liệu catalog hay gắn thẻ playlist DJ/thư viện. Mọi thứ được tạo cục bộ; không có gì được tải lên.
Phân tích hoạt động kỹ thuật như thế nào (tần số lấy mẫu, dải mel, cửa sổ)?
Âm thanh được trộn về mono, lấy mẫu lại còn 16 kHz và chuyển thành mel-spectrogram dạng log với 96 dải mel (khung 512 mẫu, bước nhảy 256 mẫu), khớp đúng đầu vào của Discogs EffNet. Model chạy trên các patch 128 khung chồng nhau; các dự đoán được lấy trung bình cho kết quả tổng thể và giữ riêng từng patch cho dòng thời gian. Mặc định phân tích tối đa 60 giây ở giữa bài hát, giúp lấy phần chính mà vẫn nhanh. Hãy coi các phong cách trên khoảng 20-30% độ tin cậy là mạnh, và dùng toàn bộ phân bố cho nhạc pha trộn nhiều thể loại.
