Extractor de Texto

Extractor de texto online gratuito. Extrae emails, URLs, números de teléfono, direcciones IP del texto. Elimina duplicados, ordena resultados. Herramienta de extracción masiva.

settings Settings

Acerca del Extractor de Texto

El Extractor de Texto saca datos estructurados de texto no estructurado usando expresiones regulares afinadas. Pega una factura, un hilo de correo, un chat, un log de servidor o una página web copiada y aísla al instante cada correo, enlace, teléfono, dirección IPv4/IPv6, hashtag o @mención. Los marketers lo usan para listas de leads, los desarrolladores para depurar logs, los investigadores para recopilar citas y los equipos de soporte para parsear tickets. Todo corre localmente en JavaScript, así que tus contactos sensibles nunca salen de tu equipo, y puedes deduplicar, ordenar y filtrar por mayúsculas/minúsculas antes de exportar.

¿Qué patrones regex usan para extraer correos y qué tan precisos son?

Usamos un subconjunto pragmático de RFC 5322 que coincide con ~99% de correos reales rechazando la mayoría de falsos positivos. El patrón /[a-zA-Z0-9._%+\-]+@[a-zA-Z0-9.\-]+\.[a-zA-Z]{2,}/g acepta puntos, alias con + ([email protected]) y TLDs desde 2 caracteres (.uk) en adelante. No valida formas exóticas como local-parts entrecomilladas ("juan perez"@example.com) o comentarios — representan menos del 0.01% de los buzones e incluirlos haría el regex ilegible. Para cumplir 100% RFC necesitarías un parser real, pero para generación de leads, parsing de logs o recolección de contactos este regex captura todo lo práctico y corre en microsegundos sobre entradas de megabytes.

¿Cómo detectan números de teléfono internacionales, soportan formato E.164?

Coincidimos varios formatos heurísticamente. El patrón principal captura código de país opcional (+1 a +999), paréntesis opcionales para código de área y grupos de dígitos separados por espacios, guiones, puntos o nada — cubriendo formatos USA/Canadá (123) 456-7890, españoles 911 23 45 67, y E.164 +34911234567. E.164 puro es un estándar ITU-T estricto que requiere + seguido de hasta 15 dígitos sin separadores; lo coincidimos pero también aceptamos las variantes formateadas que la gente realmente escribe. Cuidado: este patrón producirá falsos positivos en cadenas numéricas largas como IDs de orden o timestamps — siempre valida listas extraídas con libphonenumber si la precisión importa para facturación o cumplimiento.

¿Por qué no se extraen algunas URLs de mi texto?

Nuestro regex de URL requiere un esquema explícito (http://, https://, ftp://) o un prefijo www. Los dominios desnudos como ejemplo.com mencionados en prosa se omiten a propósito — distinguir 'visité ejemplo.com ayer' (URL) de 'mira mi correo [email protected]' (sólo dominio) es imposible sin contexto, así que preferimos menos falsos positivos. Los dominios IDN punycode (xn--80akhbyknj4f) funcionan. Los dominios internacionalizados en escritura nativa (例え.jp) no lo hacen porque su detección requiere una tabla de búsqueda. Las URLs que terminan en puntuación (punto, coma, paréntesis) tienen la puntuación final eliminada automáticamente, ya que casi siempre pertenecen a la oración circundante en vez del enlace.

Extractor de Texto — Extractor de texto online gratuito. Extrae emails, URLs, números de teléfono, direcciones IP del texto. Elimina duplicad
Extractor de Texto

¿Hay un límite de tamaño y qué tan rápida es la extracción?

El límite práctico es ~10 MB de texto — más allá, los navegadores empiezan a frenar el hilo de UI. En un portátil típico, extraer todos los tipos de entidad de 1 MB de texto mixto tarda 50-150 ms; de 10 MB tarda 1-3 segundos. El cuello de botella es el motor regex V8, no la memoria. Ejecutamos patrones secuencialmente en vez de en paralelo porque los Web Workers añaden sobrecarga que excede el ahorro para entradas bajo 50 MB. Si necesitas extraer de corpus enormes (escala GB), hazlo del lado del servidor con grep -oE o ripgrep en vez de en el navegador — esas herramientas transmiten los datos y evitan cargarlo todo en memoria a la vez.

¿Puedo extraer entidades que la herramienta no soporta nativamente, como fechas o códigos de producto?

Aún no por la UI, pero puedes post-procesar la salida 'Todos los Números' con un regex propio rápido en DevTools o una hoja de cálculo. Solicitudes comunes: ISBN-13 (978-84-376-0494-7), tarjetas de crédito (validadas Luhn), direcciones bitcoin (base58 con 1 o 3 inicial), NIE/DNI (X1234567L), direcciones MAC (00:1A:2B:3C:4D:5E) e IBANs. Omitimos deliberadamente tarjetas y documentos de identidad para no crear una herramienta de cosecha de PII. Si tienes un patrón específico que extraes seguido, abre una solicitud de función — añadir un regex toma minutos una vez sabemos que el caso de uso es lo bastante amplio para justificar un checkbox en la UI.

¿Cómo afecta la coincidencia con mayúsculas/minúsculas a la detección de duplicados?

Cuando 'Eliminar Duplicados' está activado, hasheamos cada coincidencia en un Set. Con sensibilidad a mayúsculas OFF (por defecto), pasamos a minúsculas primero, así '[email protected]' y '[email protected]' colapsan en una entrada — usualmente lo que quieres para correos (case-insensitive según RFC 5321) y dominios. Con sensibilidad ON, la capitalización original importa, lo cual es correcto para URLs (las rutas tras el dominio SÍ distinguen mayúsculas en servidores Unix), hashtags (#Bitcoin vs #bitcoin pueden ser campañas distintas en Twitter) y menciones. El toggle existe porque no hay respuesta universalmente correcta — los correos se comportan de una manera, las rutas URL de otra, y deberías coincidir con la convención del sistema que consume tu lista extraída.

¿Por qué la extracción ocurre en el navegador en vez del servidor?

Tres razones. Privacidad: correos, teléfonos e IPs suelen calificar como PII bajo el RGPD Artículo 4 — mantenerlos del lado cliente significa que nunca almacenamos, logueamos ni procesamos tus contactos en nuestros servidores, eliminando el riesgo de brecha. Velocidad: el viaje de ida y vuelta al servidor añade 50-300 ms de latencia de red que el regex local evita totalmente; para flujos por lotes esto se acumula. Coste: el procesamiento del lado cliente escala a millones de usuarios con coste de cómputo cero para nosotros, dejando la herramienta gratis para siempre. La contrapartida es no tener inteligencia del lado servidor (sin reconocimiento de entidades por ML, sin coincidencia corregida ortográficamente) — para esos casos de uso, servicios de pago como Google Cloud Natural Language API o AWS Comprehend son apropiados, pero para extracción tipo regex, el navegador es más rápido, seguro y gratis.