Visor de Parquet

Visor de Apache Parquet en el navegador. Abre archivos comprimidos con SNAPPY, GZIP y ZSTD, muestra datos columnares y exporta a CSV/JSON. Los archivos no salen de tu dispositivo.

¿Tienes comentarios? Reporta errores, sugiere funciones o comparte tus ideas — leemos todos

Acerca del Visor de Parquet

Apache Parquet es el formato de almacenamiento columnar de facto para big data — creado en Twitter y Cloudera en 2013, donado a la Apache Software Foundation, y ahora el formato de archivo predeterminado para etapas Snowflake, lagos de datos AWS S3, exportaciones de Google BigQuery, Databricks Delta Lake y modelos dbt. Su diseño columnar, compresión Snappy/ZSTD y metadatos de esquema enriquecidos lo hacen 3-10 veces más pequeño que CSV equivalente mientras soporta predicate pushdown y column pruning para consultas analíticas rápidas. Pero a diferencia de CSV, no puedes abrir un archivo Parquet en Excel o un editor de texto — el diseño binario requiere herramientas especializadas. Este visor usa la biblioteca parquet-wasm (una implementación de Rust compilada a WebAssembly) para leer tu archivo completamente en el navegador, renderizar una vista previa tipo hoja de cálculo y exportar a CSV o JSON sin nunca subir bytes a un servidor.

¿Qué es un archivo Parquet?

Apache Parquet es un formato de archivo de almacenamiento columnar optimizado para usar con marcos de procesamiento de big data. Proporciona esquemas eficientes de compresión y codificación de datos, lo que lo hace popular para análisis de datos, lagos de datos y pipelines de aprendizaje automático. Los archivos Parquet se usan ampliamente con herramientas como Apache Spark, Hadoop y AWS Athena.

¿Mis datos salen de mi dispositivo?

No. Todo el análisis y procesamiento de Parquet ocurre localmente en tu navegador usando WebAssembly (parquet-wasm). Tus datos nunca salen de tu máquina, garantizando privacidad completa para conjuntos de datos sensibles como datos de clientes, registros financieros o análisis confidenciales.

¿Puedo editar datos Parquet?

Esta herramienta es de solo lectura para ver archivos Parquet. Puedes previsualizar los datos y exportarlos a formatos CSV o JSON. Si necesitas editar los datos, exporta primero a CSV y usa nuestra herramienta Visor y Editor de CSV.

¿Qué tamaño de archivo puedo ver?

La herramienta puede manejar archivos Parquet de varios tamaños. Para archivos muy grandes (>100MB), es posible que desees limitar el número de filas mostradas para garantizar un rendimiento fluido. La herramienta usa análisis eficiente de WebAssembly para manejar archivos rápidamente.

¿Puedo exportar a diferentes formatos?

Sí. Puedes exportar tus datos Parquet como archivo CSV (separado por comas) o formato JSON. Esto facilita usar los datos en aplicaciones de hojas de cálculo, bases de datos o aplicaciones web.

Visor de Parquet — Visor de Apache Parquet en el navegador. Abre archivos comprimidos con SNAPPY, GZIP y ZSTD, muestra datos columnares y e — **Visor de Parquet**

¿Por qué usar el formato Parquet?

Parquet es ideal para big data y análisis porque almacena datos en columnas en lugar de filas. Esto proporciona mejor compresión, rendimiento de consulta más rápido para cargas de trabajo analíticas y esquemas de codificación eficientes. Se usa ampliamente en ingeniería de datos, ciencia de datos y almacenes de datos en la nube.

¿Cómo se compara Parquet con CSV, JSON y Avro?

CSV es orientado a filas, sin comprimir, sin tipado y legible por humanos — perfecto para entregas pequeñas pero lento e inflado para análisis. JSON es orientado a filas con anidamiento completo y tipos, pero verboso. Avro es un formato binario orientado a filas con esquema incrustado, bueno para datos en streaming (Kafka) donde escribes una vez y reproduces secuencialmente. Parquet es columnar con esquema incrustado y compresión agresiva — los archivos son típicamente 30-50% del tamaño del CSV gzipeado equivalente. La ventaja se nota en consultas analíticas: SELECT avg(price) FROM 10M filas lee solo la columna price del disco (column pruning), y el predicate pushdown salta grupos de filas completos que fallan la cláusula WHERE. Para análisis interactivo en >1M filas, Parquet es 5-50x más rápido que CSV. Para inserciones fila por fila o búsquedas de un solo registro, un formato orientado a filas o una base de datos sigue siendo mejor.

¿Qué códecs de compresión soporta Parquet?

Parquet soporta seis códecs de compresión por column chunk: SNAPPY (predeterminado — compresión/descompresión rápida, ratio modesto), GZIP (archivos más pequeños pero más lento), ZSTD (moderno, más rápido que GZIP a ratios similares — recomendado para pipelines nuevos desde Parquet 2.4), LZ4_RAW (el más rápido, ratio más bajo), BROTLI (mejor ratio para columnas con mucho texto, compresión más lenta), y UNCOMPRESSED. La compresión se aplica por columna, así que un solo archivo puede mezclar códecs según qué funcione mejor por tipo de columna. SNAPPY se volvió el predeterminado porque ofrece un buen equilibrio de velocidad y tamaño para cargas analíticas típicas; ZSTD nivel 3 es ahora la recomendación para almacenamiento frío donde la velocidad de lectura importa menos que el ahorro de disco.

¿Cuál es la estructura típica de un archivo Parquet?

Un archivo Parquet está organizado jerárquicamente: archivo -> grupos de filas -> column chunks -> páginas. Los grupos de filas son particiones horizontales (típicamente 128 MB o 100k-1M filas) que permiten lectura paralela. Dentro de cada grupo de filas, los datos para cada columna se almacenan juntos en column chunks, que se dividen en páginas (usualmente 1 MB). Las estadísticas a nivel de página (min, max, conteo de null) habilitan predicate pushdown: una consulta como 'price > 100' puede saltar páginas donde max(price) < 100 sin leer los datos reales. El footer del archivo contiene el esquema, offsets de grupos de filas y metadatos — los lectores buscan al final primero para conocer la estructura, luego leen solo los column chunks relevantes. Este diseño es por qué Parquet es tan eficiente en almacenamiento en la nube: la mayoría de consultas obtienen solo unos pocos MB de un archivo de múltiples GB.

¿Puedo ver esquemas Parquet anidados o complejos (structs, maps, lists)?

Sí. Parquet soporta el sistema de tipos completo de Apache Arrow: primitivos (int32, double, string, timestamp, decimal), structs (registros anidados), lists (arrays de longitud variable), maps (pares clave-valor), y combinaciones arbitrarias. Este visor aplana los campos anidados usando notación de punto en los encabezados de columna (user.address.city) y renderiza listas/maps como JSON en sus celdas. Los esquemas complejos son comunes en la salida de Spark/Databricks, datos VARIANT de Snowflake y exportaciones de event-streaming. Si tu archivo usa tipos lógicos como TIMESTAMP_MILLIS, DECIMAL(18,2) o UUID, el visor los respeta y renderiza valores legibles por humanos. Para inspección solo de esquema sin ver datos, usa 'parquet-tools schema file.parquet' o la sentencia DESCRIBE de DuckDB: DESCRIBE SELECT * FROM 'file.parquet' LIMIT 0.

¿Cómo maneja esta herramienta archivos Parquet grandes eficientemente?

Tres optimizaciones: (1) la biblioteca parquet-wasm lee solo los metadatos del footer primero (típicamente <100 KB), así que abrir un archivo de 1 GB tarda milisegundos antes de que se solicite cualquier dato de fila; (2) el control 'Filas máximas a mostrar' limita cuántas filas se decodifican para vista previa — útil para archivos con millones de filas donde solo necesitas verificar el esquema y valores de muestra; (3) solo las columnas a las que te desplazas se decodifican ávidamente gracias al diseño columnar. Para archivos más grandes que la memoria del navegador (>500 MB en móvil, >2 GB en escritorio), considera herramientas como DuckDB-WASM que pueden hacer streaming de Parquet desde URLs sin nunca cargar el archivo completo. Para cargas analíticas de producción, consulta Parquet directamente desde almacenamiento en la nube usando Polars, Pandas read_parquet, Spark, BigQuery external tables o Athena — nunca cargues el archivo en memoria solo para consultarlo.

Ver también