Detector de Tipo de Archivo

Detecta el tipo real de un archivo por su número mágico, no su extensión. Descubre extensiones falsas, MIME divergente y ejecutables disfrazados de imágenes.

¿Tienes comentarios? Reporta errores, sugiere funciones o comparte tus ideas — leemos todos

Acerca del Detector de Tipo de Archivo

Esta herramienta detecta el tipo de archivo real analizando bytes mágicos (firmas de archivo) en lugar de confiar en extensiones de archivo. Cargue cualquier archivo para descubrir su verdadero tipo MIME y extensión recomendada. Útil para verificar autenticidad de archivo, detectar archivos renombrados o identificar archivos desconocidos. Todo el procesamiento ocurre en su navegador para privacidad completa.

¿Cómo funciona un detector de tipo de archivo sin la extensión?

Los detectores reales de tipo de archivo leen los primeros bytes del archivo — llamados número mágico o firma de archivo — en lugar de confiar en la extensión. La mayoría de los formatos binarios comienzan con un patrón de bytes único: PNG comienza con 89 50 4E 47 0D 0A 1A 0A, JPEG con FF D8 FF, PDF con 25 50 44 46 (que es ASCII para %PDF) y ZIP con 50 4B 03 04 (PK más bytes de versión). El detector compara estos bytes con una base de datos de firmas conocidas y devuelve la mejor coincidencia. Este enfoque es mucho más confiable que la detección basada en extensiones porque los usuarios pueden renombrar archivo.exe a archivo.txt, pero no pueden cambiar fácilmente los bytes mágicos incrustados sin corromper el archivo. La técnica está documentada en estándares como RFC 2046 (MIME) y sustenta herramientas como el comando file(1) de Unix.

¿Por qué mi archivo tiene la extensión incorrecta pero aún se abre correctamente?

Las aplicaciones modernas a menudo ignoran la extensión e inspeccionan el contenido real. Cuando haces doble clic en un archivo, el sistema operativo usa la extensión como primera conjetura para elegir una aplicación, pero la aplicación misma lee los bytes mágicos para decidir cómo analizar el contenido. Así que un JPEG renombrado a foto.png aún se abrirá en cualquier visor de imágenes porque el visor detecta el encabezado JPEG FF D8 FF y cambia su analizador en consecuencia. La extensión importa principalmente para la capa de asociación de archivos del SO y para usuarios navegando carpetas. Por eso también un adjunto .pdf malicioso puede ser en realidad un .exe — el SO puede iniciar un lector de PDF esperando contenido PDF válido, pero si Windows está configurado para ocultar extensiones y el archivo es realmente factura.pdf.exe, puede ejecutarse como código.

¿Qué son los tipos MIME y cómo se relacionan con los tipos de archivo?

Los tipos MIME (Extensiones Multipropósito de Correo de Internet, definidos en RFC 2045–2049 y registrados vía RFC 6838) son cadenas estandarizadas como image/png, application/pdf o text/html que describen el formato de un archivo para su uso en encabezados HTTP, adjuntos de correo y APIs web. Cada tipo MIME tiene una categoría de nivel superior (text, image, audio, video, application, multipart, message, model, font) y un subtipo. Los detectores de tipo de archivo generalmente devuelven tanto el nombre del formato legible como el tipo MIME para que el resultado pueda usarse directamente en código: estableciendo un encabezado Content-Type en una respuesta web, eligiendo un icono de archivo o enrutando el archivo al procesador correcto. IANA mantiene el registro oficial de tipos MIME — se registran más de 2000.

¿Cuándo debo detectar el tipo de archivo en lugar de confiar en la extensión?

Siempre detecta por contenido cuando manejes cargas de usuarios, proceses adjuntos de correo, escanees malware o construyas cualquier sistema donde la seguridad importe. Las extensiones son metadatos controlados por el usuario y pueden estar equivocadas por accidente (Windows oculta extensiones por defecto, así que los usuarios renombran sin cuidado) o por intención maliciosa (los atacantes disfrazan ejecutables como imágenes o documentos). Detecta por extensión solo para pistas de UI de bajo riesgo — elegir un icono en un explorador de archivos, ordenar una carpeta o adivinar una aplicación inicial. Las aplicaciones web que cargan contenido del usuario deben rechazar archivos cuyo MIME detectado no coincida con la extensión reclamada, o almacenar el tipo detectado y servir archivos con los encabezados Content-Type y Content-Disposition correctos.

¿Qué tipos de archivo son más difíciles de detectar de manera confiable?

Los formatos de texto plano tienen las firmas más débiles porque consisten principalmente en caracteres ASCII sin un encabezado fijo. Distinguir entre CSV, TSV, JSON, YAML, XML, Markdown y código fuente a menudo requiere análisis estadístico o detección de esquema — verificando delimitadores comunes, llaves balanceadas o las reglas de indentación de YAML. Los archivos UTF-8 pueden comenzar con una marca de orden de bytes (EF BB BF) pero es opcional. Los formatos contenedores como ZIP, OOXML (.docx, .xlsx), JAR y EPUB comparten la misma firma PK porque OOXML y similares son técnicamente archivos ZIP con un diseño interno específico. Los detectores deben leer el directorio central del ZIP para encontrar archivos como [Content_Types].xml o META-INF/MANIFEST.MF para refinar la clasificación. Los archivos cifrados, por diseño, parecen ruido aleatorio.

Detector de Tipo de Archivo — Detecta el tipo real de un archivo por su número mágico, no su extensión. Descubre extensiones falsas, MIME divergente y — **Detector de Tipo de Archivo**

¿Puede un archivo tener múltiples tipos válidos o ser un híbrido?

Sí — los archivos políglotas se fabrican deliberadamente para ser válidos en dos o más formatos simultáneamente. Un ejemplo clásico es GIFAR (GIF+JAR), un archivo que se carga como imagen en un navegador pero se ejecuta como archivo Java en una JVM, usado en ataques web tempranos. También existen políglotas PDF/JPEG y PDF/ZIP porque PDF tolera datos finales mientras que ZIP escanea hacia atrás desde el final del archivo. Estos no son errores en ningún formato individual sino exploits de tolerancias de análisis superpuestas. Más allá de los políglotas, los formatos contenedores como Matroska (MKV) e ISO BMFF (MP4) pueden contener muchos códecs, así que el tipo de archivo solo reduce el envoltorio — los flujos de audio y video reales requieren una inspección más profunda.

¿Qué tan preciso es el sniffing de MIME en los navegadores, y cuál es el riesgo de seguridad?

Históricamente los navegadores realizaban sniffing agresivo de MIME — sobrescribiendo el encabezado Content-Type del servidor inspeccionando los primeros cientos de bytes de la respuesta. Esto era útil cuando los servidores configuraban mal los encabezados pero se convirtió en un desastre de seguridad: un archivo HTML servido con image/png aún podía ser interpretado como HTML y ejecutar scripts, permitiendo ataques de inyección de contenido. La solución es el encabezado de respuesta X-Content-Type-Options: nosniff (definido en el estándar WHATWG fetch), que obliga a los navegadores a honrar el Content-Type declarado. Los navegadores modernos también restringen el sniffing en muchos contextos. Los detectores de tipo de archivo del lado del servidor complementan esto asegurando que el contenido cargado realmente coincida con su tipo declarado antes del almacenamiento.

¿Cuál es la diferencia entre formato de archivo, contenedor y códec?

Un formato de archivo es la disposición en disco (orden de bytes, encabezados, secciones de metadatos, ubicaciones de carga útil). Un contenedor es un tipo específico de formato diseñado para envolver flujos de datos multimedia sin dictar cómo se codifican esos flujos — ejemplos incluyen MP4, MKV, OGG, WebM y AVI. Un códec es el algoritmo que comprime y descomprime las muestras reales de audio o video dentro del contenedor — ejemplos incluyen H.264, H.265, VP9, AV1 para video y AAC, MP3, Opus, FLAC para audio. El mismo contenedor puede contener muchos códecs, y el mismo códec puede vivir en muchos contenedores. La detección de tipo de archivo identifica el contenedor de manera confiable a partir de bytes mágicos pero generalmente necesita analizar metadatos internos (el átomo moov en MP4, la cabecera EBML en MKV) para enumerar los códecs y pistas dentro.

¿Qué tipos de archivo disfrazados son realmente peligrosos y cómo distingo una discrepancia inofensiva de una amenaza real?

No toda discrepancia es un ataque. Una foto guardada como photo.jpeg cuando la biblioteca la llama jpg, o un navegador que reporta image/jpg en lugar de image/jpeg, es una variación de nombre inofensiva: esta herramienta las califica como SEGURO porque la extensión y el MIME son alias válidos del tipo real. Una DISCREPANCIA genuina (ámbar) significa que la extensión simplemente es incorrecta, pero el contenido real sigue siendo un formato de datos pasivo, como un PNG guardado con nombre .jpg: molesto, rara vez hostil. El patrón peligroso es ALTO RIESGO (rojo): los bytes mágicos revelan un ejecutable o contenido activo — un PE/EXE de Windows (MZ, hex 4D 5A), un ELF de Linux (hex 7F 45 4C 46), un binario Mach-O, un script de shell o batch, un JAR o un módulo WebAssembly — mientras el archivo lleva una extensión pasiva como .jpg, .pdf, .png o .docx. Ese es el disfraz clásico de malware en subidas y correos que advierte OWASP: la víctima confía en el icono de imagen o documento y ejecuta código. Cuando veas ALTO RIESGO, no abras el archivo; ponlo en cuarentena e inspecciónalo en un entorno aislado. Los archivos ZIP y el HTML ocultos bajo extensiones de imagen o documento merecen la misma sospecha porque pueden llevar scripts o provocar ataques de MIME sniffing.

¿Qué significan los valores de la firma de bytes mágicos en hexadecimal?

El campo Firma de Bytes Mágicos muestra los primeros 16 bytes del archivo en hexadecimal: la misma cabecera cruda que leen el comando file(1) de Unix y los antivirus para identificar el contenido. Cada par (dos dígitos hex, 00–FF) es un byte. Los formatos conocidos comienzan con un patrón fijo que puedes verificar a simple vista contra una referencia de firmas: JPEG es FF D8 FF, PNG es 89 50 4E 47 0D 0A 1A 0A, PDF es 25 50 44 46 (ASCII %PDF), GIF es 47 49 46 38 (GIF8), ZIP y archivos de Office son 50 4B 03 04 (PK..), un ejecutable de Windows es 4D 5A (MZ) y un binario ELF es 7F 45 4C 46. Si un archivo llamado image.jpg muestra 4D 5A en lugar de FF D8 FF, el hex por sí solo demuestra que en realidad es un ejecutable. Leer la cabecera a simple vista es práctica estándar en respuesta a incidentes, te permite confirmar el veredicto de la herramienta y ayuda a clasificar formatos raros que la biblioteca no reconoce.

Ver también