Visualizador de Parquet

Visualizador de Apache Parquet no navegador. Abre arquivos comprimidos com SNAPPY, GZIP e ZSTD, mostra dados em colunas, exporta para CSV/JSON. Os arquivos não saem do dispositivo.

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

Sobre o Visualizador de Parquet

Apache Parquet é o formato de armazenamento colunar de fato para big data — criado no Twitter e Cloudera em 2013, doado à Apache Software Foundation, e agora o formato de arquivo padrão para stages Snowflake, data lakes AWS S3, exportações Google BigQuery, Databricks Delta Lake e modelos dbt. Seu layout colunar, compressão Snappy/ZSTD e metadados ricos de schema o tornam 3-10x menor que CSV equivalente enquanto suporta predicate pushdown e column pruning para consultas analíticas rápidas. Mas diferente de CSV, você não pode abrir um arquivo Parquet no Excel ou editor de texto — o layout binário requer ferramentas especializadas. Este visualizador usa a biblioteca parquet-wasm (uma implementação Rust compilada para WebAssembly) para ler seu arquivo inteiramente no navegador, renderizar uma pré-visualização tipo planilha e exportar para CSV ou JSON sem nunca enviar bytes para um servidor.

O que é um arquivo Parquet?

Apache Parquet é um formato de arquivo de armazenamento colunar otimizado para uso com frameworks de processamento de big data. Ele fornece esquemas eficientes de compressão e codificação de dados, tornando-o popular para análise de dados, data lakes e pipelines de machine learning. Arquivos Parquet são amplamente usados com ferramentas como Apache Spark, Hadoop e AWS Athena.

Meus dados saem do meu dispositivo?

Não. Todo o processamento e análise de Parquet acontece localmente no seu navegador usando WebAssembly (parquet-wasm). Seus dados nunca saem do seu dispositivo, garantindo privacidade completa para conjuntos de dados sensíveis como dados de clientes, registros financeiros ou análises confidenciais.

Posso editar dados Parquet?

Esta ferramenta é somente leitura para visualizar arquivos Parquet. Você pode pré-visualizar os dados e exportá-los para formatos CSV ou JSON. Se você precisa editar os dados, exporte para CSV primeiro e use nossa ferramenta Visualizador e Editor de CSV.

Qual tamanho de arquivo posso visualizar?

A ferramenta pode lidar com arquivos Parquet de vários tamanhos. Para arquivos muito grandes (>100MB), você pode querer limitar o número de linhas exibidas para garantir desempenho suave. A ferramenta usa análise eficiente com WebAssembly para lidar com arquivos rapidamente.

Posso exportar para diferentes formatos?

Sim. Você pode exportar seus dados Parquet como um arquivo CSV (separado por vírgula) ou formato JSON. Isso facilita o uso dos dados em aplicações de planilha, bancos de dados ou aplicações web.

Visualizador de Parquet — Visualizador de Apache Parquet no navegador. Abre arquivos comprimidos com SNAPPY, GZIP e ZSTD, mostra dados em colunas, — **Visualizador de Parquet**

Por que usar o formato Parquet?

Parquet é ideal para big data e análise porque armazena dados em colunas em vez de linhas. Isso fornece melhor compressão, desempenho de consulta mais rápido para cargas de trabalho analíticas e esquemas de codificação eficientes. É amplamente usado em engenharia de dados, ciência de dados e data warehouses em nuvem.

Como Parquet se compara com CSV, JSON e Avro?

CSV é orientado a linhas, sem compressão, sem tipos e legível por humanos — perfeito para entregas pequenas mas lento e inflado para análise. JSON é orientado a linhas com aninhamento completo e tipos, mas verboso. Avro é um formato binário orientado a linhas com schema embutido, bom para dados em streaming (Kafka) onde você escreve uma vez e reproduz sequencialmente. Parquet é colunar com schema embutido e compressão agressiva — arquivos são tipicamente 30-50% do tamanho do CSV gzipado equivalente. A vantagem aparece em consultas analíticas: SELECT avg(price) FROM 10M linhas lê apenas a coluna price do disco (column pruning), e predicate pushdown pula grupos de linhas inteiros que falham a cláusula WHERE. Para análise interativa em >1M linhas, Parquet é 5-50x mais rápido que CSV. Para inserções linha a linha ou pesquisas de registro único, um formato orientado a linhas ou banco de dados ainda é melhor.

Quais codecs de compressão o Parquet suporta?

Parquet suporta seis codecs de compressão por column chunk: SNAPPY (padrão — compressão/descompressão rápida, ratio modesto), GZIP (arquivos menores mas mais lento), ZSTD (moderno, mais rápido que GZIP em ratios similares — recomendado para novos pipelines desde Parquet 2.4), LZ4_RAW (o mais rápido, ratio mais baixo), BROTLI (melhor ratio para colunas com muito texto, compressão mais lenta), e UNCOMPRESSED. A compressão é aplicada por coluna, então um único arquivo pode misturar codecs baseado no que funciona melhor por tipo de coluna. SNAPPY se tornou o padrão porque oferece um bom equilíbrio de velocidade e tamanho para cargas analíticas típicas; ZSTD nível 3 é agora a recomendação para armazenamento frio onde velocidade de leitura importa menos que economia de disco.

Qual a estrutura típica de um arquivo Parquet?

Um arquivo Parquet é organizado hierarquicamente: arquivo -> row groups -> column chunks -> páginas. Row groups são partições horizontais (tipicamente 128 MB ou 100k-1M linhas) que permitem leitura paralela. Dentro de cada row group, dados para cada coluna são armazenados juntos em column chunks, que são divididos em páginas (geralmente 1 MB). Estatísticas em nível de página (min, max, contagem de null) habilitam predicate pushdown: uma consulta como 'price > 100' pode pular páginas onde max(price) < 100 sem ler os dados reais. O footer do arquivo contém o schema, offsets de row group e metadados — leitores buscam o final primeiro para aprender a estrutura, então leem apenas os column chunks relevantes. Este design é por que Parquet é tão eficiente em armazenamento em nuvem: a maioria das consultas busca apenas alguns MB de um arquivo de múltiplos GB.

Posso ver schemas Parquet aninhados ou complexos (structs, maps, lists)?

Sim. Parquet suporta o sistema completo de tipos do Apache Arrow: primitivos (int32, double, string, timestamp, decimal), structs (registros aninhados), lists (arrays de comprimento variável), maps (pares chave-valor), e combinações arbitrárias. Este visualizador achata campos aninhados usando notação de ponto nos cabeçalhos de coluna (user.address.city) e renderiza lists/maps como JSON em suas células. Schemas complexos são comuns na saída de Spark/Databricks, dados VARIANT do Snowflake e exportações de event-streaming. Se seu arquivo usa tipos lógicos como TIMESTAMP_MILLIS, DECIMAL(18,2) ou UUID, o visualizador os respeita e renderiza valores legíveis por humanos. Para inspeção apenas de schema sem ver dados, use 'parquet-tools schema file.parquet' ou a instrução DESCRIBE do DuckDB: DESCRIBE SELECT * FROM 'file.parquet' LIMIT 0.

Como esta ferramenta lida com arquivos Parquet grandes eficientemente?

Três otimizações: (1) a biblioteca parquet-wasm lê apenas os metadados do footer primeiro (tipicamente <100 KB), então abrir um arquivo de 1 GB leva milissegundos antes de qualquer dado de linha ser solicitado; (2) o controle 'Máximo de linhas a exibir' limita quantas linhas são decodificadas para pré-visualização — útil para arquivos com milhões de linhas onde você só precisa verificar schema e valores de amostra; (3) apenas as colunas para as quais você rola são decodificadas avidamente graças ao layout colunar. Para arquivos maiores que a memória do navegador (>500 MB no móvel, >2 GB no desktop), considere ferramentas como DuckDB-WASM que podem fazer streaming de Parquet de URLs sem nunca carregar o arquivo completo. Para cargas analíticas de produção, consulte Parquet diretamente do armazenamento em nuvem usando Polars, Pandas read_parquet, Spark, BigQuery external tables ou Athena — nunca carregue o arquivo na memória apenas para consultá-lo.

Veja também