Remover Linhas Duplicadas

Deduplique qualquer lista de texto, log, CSV ou e-mails com um clique. Mantém primeira ocorrência, ordenação opcional, correspondência sem caixa.

Tem feedback? Reporte bugs, sugira recursos ou compartilhe suas ideias — lemos todos

Remover Linhas Duplicadas - Ferramenta de Deduplicação de Texto

Remover Linhas Duplicadas é um deduplicador em nível de linha equivalente ao idiomático Unix `awk '!seen[$0]++'` ou `sort -u`, mas com interface, dobramento de caixa opcional, remoção de linhas vazias opcional e um painel lateral mostrando exatamente quais duplicatas foram descartadas. O algoritmo constrói um Set de JavaScript com as chaves de linha canonicalizadas (minúsculas se você desligar a sensibilidade à caixa) e percorre a entrada uma vez na ordem original, mantendo apenas a primeira vez que cada linha única aparece. Essa política de 'primeira ocorrência vence' é importante: ao contrário de `sort -u` que reordena, esta ferramenta preserva sua ordem de entrada a menos que você ative Ordenar explicitamente. Casos de uso típicos: deduplicar listas de destinatários de e-mail coletadas de várias newsletters, limpar linhas CSV de clientes exportados onde o mesmo registro foi carregado duas vezes, remover mensagens de erro repetidas de arquivos de log para encontrar padrões únicos de falha, consolidar listas de hostnames para inventários do Ansible, e deduplicar strings de tradução antes de mesclar em um arquivo de localização.

O que conta exatamente como 'linha duplicada' — espaços e caixa importam?

Por padrão, duas linhas são consideradas duplicadas se suas sequências de caracteres coincidem exatamente — espaços iniciais e finais contam, e a caixa importa ('Maçã' é diferente de 'maçã'). Alternar a opção de caixa para MAIÚSCULAS ou minúsculas normaliza ambas as strings comparadas antes de combinar, então 'MAÇÃ', 'Maçã' e 'maçã' colapsam em uma linha. Para também ignorar diferenças de espaços (' a' vs 'a '), pré-processe com um Limpador de Texto ou apare cada linha primeiro.

Qual cópia é mantida quando há duplicatas — primeira ou última ocorrência?

Sempre a primeira ocorrência. O percorredor de deduplicação usa um Set que registra o conteúdo da linha na primeira vez que aparece, e pula cada linha idêntica subsequente. Isso importa quando sua entrada tem significância de ordem — ex.: um CSV onde a linha 1 é o registro canônico e a linha 7 é uma importação duplicada antiga. Se você precisa manter a última ocorrência em vez disso (comum em mesclagens 'última escrita vence'), inverta a lista primeiro com a ferramenta Inverter Lista, deduplique e inverta de volta.

Como isso difere de `sort -u`, `awk` ou `uniq` do Unix?

`uniq` só colapsa duplicatas adjacentes e exige entrada ordenada — duplicatas não adjacentes sobrevivem. `sort -u` ordena e deduplica mas destrói a ordem original. `awk '!seen[$0]++'` preserva a ordem da deduplicação e bate com o que esta ferramenta faz, mas exige um terminal. 'Remover Duplicatas' do Excel funciona similar mas é limitado por contagem de linhas e te prende a uma plataforma. Esta ferramenta dá o mesmo resultado da abordagem awk com GUI, mais um painel de linhas removidas que nenhuma ferramenta de linha de comando expõe.

Remover Linhas Duplicadas — Deduplique qualquer lista de texto, log, CSV ou e-mails com um clique. Mantém primeira ocorrência, ordenação opcional, c — **Remover Linhas Duplicadas**

O que a opção 'Exibir removidos' mostra de fato?

Ela emite um painel separado listando cada linha duplicada que foi pulada, na ordem em que foram encontradas. Cada entrada mostra o conteúdo e (quando útil) qual número de linha de entrada ela ocupava. Esse rastro de auditoria é crítico para cenários de conformidade — digamos limpar uma base de dados de clientes sob LGPD — para você poder provar que uma linha específica era duplicada e não dados perdidos silenciosamente. Também ajuda a depurar surpresas de sensibilidade à caixa ('[email protected]' vs '[email protected]').

Escala para arquivos grandes como CSV de 100.000 linhas?

Sim. A deduplicação baseada em Set é O(n) em tempo médio e ~O(n) em memória, então uma lista de 100k linhas tipicamente dedupliica em menos de 100 ms num notebook moderno. O gargalo é o textarea do navegador — além de ~5 MB de texto colado a colagem em si pode travar, mas a deduplicação em si continua rápida. Para arquivos de milhões de linhas use Unix: `awk '!seen[$0]++' input.txt > output.txt` faz streaming sem carregar o arquivo completo na RAM, e aguenta entradas arbitrariamente grandes.

A opção 'Remover linhas vazias' também tira linhas só com espaços?

Sim. Quando ativada, linhas que estão totalmente vazias ou contêm apenas caracteres de espaço (espaços, tabulações, espaços não separáveis) são descartadas antes da deduplicação rodar. Isso é útil porque linhas em branco em dados CSV frequentemente duplicam umas às outras (toda linha vazia parece idêntica), inflando sua contagem de 'duplicadas removidas' sem remover conteúdo real. Desative essa opção se quiser manter linhas em branco separadoras entre seções.

Meus dados são enviados ou armazenados em algum lugar?

Não. A deduplicação roda inteiramente em JavaScript do navegador no valor do textarea — sem fetch() para um backend, sem evento de analytics com conteúdo, sem escrita no localStorage. Você pode verificar na aba Network do DevTools que clicar Remover faz zero requisições de saída. Isso torna a ferramenta segura para listas sensíveis como e-mails de funcionários, registros de clientes, hostnames internos, ou conteúdo com direitos sob NDA.

Veja também

FERRAMENTAS DE TEXTO65

WUTOOLS