Convertidor de Audio a MIDI
Convertidor de audio a MIDI en el navegador con detección de tono YIN. Sin subir archivos, vista previa piano roll, cuantización y .mid listo para tu DAW.
Acerca del Convertidor de Audio a MIDI
Esta herramienta online convierte archivos de audio a formato MIDI detectando tonos y notas en el audio. Utiliza algoritmos avanzados de detección de tono para analizar tu audio y crear un archivo MIDI que puedes usar en cualquier software de producción musical.
¿Qué formatos de audio son compatibles?
Todos los formatos de audio comunes son compatibles incluyendo MP3, WAV, OGG, AAC, M4A, FLAC, OPUS y más. También puedes usar archivos de video (MP4, MKV, etc.) - la pista de audio se extraerá automáticamente.
¿Qué tipo de audio funciona mejor?
Esta herramienta funciona mejor con audio monofónico - es decir, líneas melódicas simples como voces, flauta, violín, o cualquier instrumento solista tocando una nota a la vez. El audio polifónico complejo (como grabaciones de bandas completas o piano con acordes) puede no convertirse con precisión porque múltiples notas simultáneas son difíciles de separar.
¿Qué tan precisa es la conversión?
La precisión depende de la calidad y complejidad del audio. Las grabaciones limpias y aisladas con tonos claros producirán los mejores resultados. El ruido de fondo, la reverberación o los sonidos superpuestos pueden reducir la precisión. Puedes ajustar la configuración de sensibilidad y duración mínima de nota para mejorar los resultados para tu audio específico.
¿Qué es la sensibilidad de detección?
La sensibilidad controla qué tan suave debe ser un sonido antes de ser detectado como una nota. Una sensibilidad más baja detectará notas más suaves pero también puede captar ruido. Una sensibilidad más alta solo detectará notas más fuertes y claras. Ajusta según la calidad de tu audio.
¿Qué es la duración mínima de nota?
Esta configuración filtra notas muy cortas que pueden ser artefactos o ruido. Si estás obteniendo demasiadas notas falsas, aumenta este valor. Si te estás perdiendo notas rápidas (como apoyaturas), disminúyelo.
¿Cómo uso el archivo MIDI?
El archivo .mid descargado se puede abrir en cualquier Estación de Trabajo de Audio Digital (DAW) como FL Studio, Ableton Live, Logic Pro, GarageBand, Cubase, etc. Luego puedes editar las notas, cambiar el instrumento, cuantizar el timing, o usarlo como punto de partida para tu producción musical.
¿Qué es el Piano Roll?
El piano roll es una representación visual de las notas detectadas a lo largo del tiempo. El eje vertical muestra el tono (notas musicales), y el eje horizontal muestra el tiempo. Cada rectángulo coloreado representa una nota detectada. Puedes usar los controles de zoom para ver más detalle.
¿Por qué mi conversión es imprecisa?
Las razones comunes para una conversión imprecisa incluyen: audio polifónico (múltiples notas a la vez), ruido de fondo, reverberación o efectos pesados, pasajes muy rápidos, o audio fuera del rango de tono seleccionado. Intenta ajustar la configuración o usar audio fuente más limpio.

¿Mi archivo de audio se sube a un servidor?
¡No! Todo el procesamiento ocurre directamente en tu navegador usando Web Audio API. Tu archivo de audio nunca sale de tu dispositivo, asegurando completa privacidad y procesamiento más rápido.
¿Qué es la configuración de rango de tono?
El rango de tono define las frecuencias mínima y máxima a detectar. Para voces, C2-C6 generalmente funciona bien. Para instrumentos de bajo, prueba C1-C4. Para instrumentos más altos como el violín, C3-C7 podría ser mejor. Establecer el rango correcto mejora la precisión y velocidad.
¿Qué es la velocidad en MIDI?
La velocidad representa qué tan fuerte se toca una nota, afectando su volumen. En modo Dinámico, la velocidad se calcula del volumen del audio. En modo Fijo, todas las notas tienen la misma velocidad. El modo Dinámico es más expresivo pero puede variar más.
¿Puedo convertir canto a MIDI?
¡Sí! Las melodías vocales funcionan muy bien con esta herramienta ya que el canto es típicamente monofónico. Para mejores resultados, usa una grabación vocal limpia sin música de fondo o efectos pesados.
¿Detecta acordes o polifonía?
No. Es un transcriptor monofónico: estima un tono fundamental por cada cuadro de análisis, por lo que destaca con material de una sola línea (voces, tarareos, bajo, sintetizador líder, flauta, violín) pero no puede resolver acordes ni dos notas simultáneas. El audio polifónico (una mezcla completa o un piano tocando acordes) devolverá el tono más dominante por cuadro, no todas las notas. Para transcribir una progresión de acordes, aísla cada parte primero o toca una nota a la vez.
¿Cómo funciona la detección de tono (YIN)?
Ejecuta el algoritmo YIN completamente en tu navegador. YIN calcula una función de diferencia normalizada por media acumulada sobre cada cuadro de ~46 ms y se fija en la depresión más profunda por debajo de un umbral de claridad, refinándola luego con interpolación parabólica. Elegir la mejor depresión global (en lugar de la primera) evita errores de octava o subarmónicos, por eso YIN es preciso y estable con voces e instrumentos solistas. Cada nota detectada recibe un valor de claridad (confianza), y los pasajes más fuertes se mapean a mayor velocidad MIDI en escala dBFS para conservar la dinámica.
¿Puedo cuantizar el resultado al ritmo?
Sí. Elige una Rejilla de Cuantización (1/4, 1/8, 1/16, tresillo de 1/8 o tresillo de 1/16) y la herramienta ajusta el inicio de cada nota a esa rejilla según los BPM que ingresaste, para que el .mid exportado caiga en la rejilla en FL Studio, Ableton, Logic o cualquier DAW. El control de Intensidad de Cuantización (0-100%) permite cuantizar parcialmente: 100% ajusta totalmente a la rejilla, mientras valores menores conservan el feel humano de la interpretación original. La cuantización se aplica antes de exportar MIDI/TXT y se refleja en vivo en el piano roll, y puedes cambiar la rejilla sin volver a analizar el audio.
¿Qué frecuencia de muestreo y volumen debe tener la entrada?
Funciona cualquier frecuencia de muestreo común (44.1 o 48 kHz es ideal); el análisis se adapta a la del archivo. Busca una señal limpia y bien grabada con picos alrededor de -6 a -3 dBFS sin recorte. Como la velocidad se mapea en escala dB, una toma normalizada da la dinámica más expresiva. Todos los canales se promedian a mono para el análisis, así que una melodía con paneo extremo se detecta correctamente.
