Desduplicador de Dados

Desduplique CSV e JSON por colunas-chave: remova e-mails duplicados, correspondência por espaços e maiúsculas, mantenha primeira ou última. 100% privado.

Selecionar Arquivo CSV ou JSON

Arraste e solte um arquivo CSV ou JSON aqui

ou clique para procurar no seu dispositivo

Escolha um arquivo CSV ou JSON para encontrar e remover duplicados

Delimitador

Primeira linha é cabeçalho

Relatório de Desduplicação

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

Sobre o Desduplicador de Dados

Desduplicador de Dados é uma ferramenta online poderosa que identifica e remove linhas duplicadas de arquivos CSV e JSON. Escolha colunas-chave (como e-mail ou ID do cliente), opcionalmente ignore maiúsculas e normalize os espaços para detectar quase-duplicados que diferem apenas por espaços perdidos, depois decida manter a primeira ou última ocorrência e exporte registros únicos limpos. Todo o processamento acontece localmente no seu navegador, então até listas de e-mail grandes, exportações de CRM e dados confidenciais nunca saem do seu dispositivo.

Como funciona a detecção de duplicados?

A ferramenta compara linhas baseado nas colunas que você seleciona (colunas chave). Se duas ou mais linhas tiverem valores idênticos em todas as colunas selecionadas, elas são consideradas duplicatas. Você pode escolher comparar todas as colunas ou apenas colunas específicas, tornando-a flexível para diferentes cenários de limpeza de dados.

Qual é a diferença entre manter primeira vs última ocorrência?

Quando duplicatas são encontradas, você pode escolher qual cópia manter. 'Manter primeira ocorrência' retém a primeira linha que aparece no arquivo e remove duplicatas subsequentes. 'Manter última ocorrência' mantém a duplicata mais recente e remove cópias anteriores. Isso é útil quando dados mais novos devem substituir entradas antigas.

Meus dados estão seguros?

Sim. Todo processamento de desduplicação acontece localmente no seu navegador usando JavaScript. Seus arquivos nunca saem do seu dispositivo, garantindo privacidade completa para conjuntos de dados sensíveis como registros de clientes, dados financeiros ou listas confidenciais.

Quais formatos de arquivo são suportados?

Desduplicador de Dados suporta arquivos CSV (com vários delimitadores: vírgula, ponto e vírgula, tab, pipe) e arquivos JSON (arrays de objetos). Ambos os formatos podem ser desduplicados e exportados para formato CSV ou JSON após processamento.

Desduplicador de Dados — Desduplique CSV e JSON por colunas-chave: remova e-mails duplicados, correspondência por espaços e maiúsculas, mantenha — **Desduplicador de Dados**

Posso ver quais linhas eram duplicadas?

Sim. A ferramenta fornece duas visualizações separadas: Registros Únicos (linhas que serão mantidas) e Registros Duplicados (linhas que foram removidas). Isso permite revisar ambos os conjuntos de dados antes de baixar, garantindo que a desduplicação funcionou como esperado.

O que faz a comparação sensível a maiúsculas?

Quando habilitado, 'Apple' e 'apple' são tratados como valores diferentes. Quando desabilitado (padrão), letras maiúsculas e minúsculas são consideradas idênticas. Isso é útil quando seus dados podem ter capitalização inconsistente mas você quer tratar entradas similares como duplicatas.

O que faz 'Normalizar espaços antes de comparar'?

Quando habilitado, a ferramenta remove os espaços do início e do fim e une sequências de espaços, tabulações e quebras de linha internas em um único espaço antes de comparar. Assim ' João Silva ' e 'João Silva', ou '[email protected] ' e '[email protected]', são detectados como o mesmo registro. Isso é essencial para exportações de CRM, listas de e-mail e planilhas, onde espaços perdidos são o motivo mais comum de a desduplicação por correspondência exata deixar passar duplicatas reais. Combine com a comparação sem distinção de maiúsculas para obter os resultados mais limpos.

Quais colunas-chave devo escolher para desduplicar e-mails ou CRM?

Para listas de e-mail, selecione apenas a coluna de e-mail como chave, assim os contatos são mesclados sempre que o endereço corresponder, independentemente de nomes ou tags diferentes. Para registros de CRM, use um identificador único estável como ID do cliente, ou uma pequena combinação como e-mail mais telefone, em vez de todas as colunas; selecionar todas as colunas só remove linhas idênticas em todos os campos e deixará duplicatas reais que diferem em uma única nota ou data/hora. Ativar a normalização de espaços e a correspondência sem maiúsculas nessas colunas-chave captura as variações típicas dos dados exportados.

A ferramenta lida com arquivos grandes e por que a prévia para em 100 linhas?

Todas as linhas do seu arquivo são desduplicadas, e o resultado completo é incluído em cada download CSV ou JSON. Apenas a prévia na tela é limitada às primeiras 100 linhas de cada aba para manter a interface rápida e responsiva em conjuntos de dados grandes; a contagem mostrada ao lado de cada aba (por exemplo 'mostrando 100 de 24.500') reflete os totais reais. Observe que o Total de linhas é igual às Linhas únicas mais as Linhas duplicadas, então você pode verificar a divisão de relance antes de exportar.

Veja também