Dark data: o risco silencioso dos arquivos esquecidos nas empresas

O risco silencioso dos arquivos esquecidos: como o dark data se tornou uma bomba-relógio nas empresas

O volume de informações geradas e armazenadas pelas organizações disparou em ritmo exponencial nos últimos anos. Porém, o ponto crítico não é apenas a quantidade de dados, e sim o quanto eles estão fora de controle. Estudos recentes indicam que entre 52% e 68% de tudo o que as empresas guardam é classificado como “dark data” – informações que permanecem armazenadas, mas não são usadas, nem gerenciadas adequadamente. Esse cenário, apontado em análises de mercado de grandes players de tecnologia como IBM e Splunk, deixou de ser apenas um sinal de ineficiência operacional para se tornar um vetor relevante de risco de segurança, conformidade e reputação.

No Brasil, esse problema é amplificado pela rápida adoção de ambientes híbridos e multicloud. O relatório “Data Age 2025”, da IDC, projeta que mais de 80% dos dados corporativos globais serão não estruturados, como documentos de texto, planilhas, apresentações, e-mails, anexos, arquivos de colaboração, gravações de reunião e registros dispersos em múltiplos sistemas. Justamente esse tipo de dado é o mais difícil de catalogar, classificar e proteger – e, por isso, é o que mais tende a cair na categoria de dark data.

Quando se fala em dark data, não se trata apenas de arquivos antigos esquecidos em um servidor legado. O conceito abrange todo o conjunto de informações que a empresa armazena, mas não conhece de fato. Isso inclui arquivos ativos sem dono definido, cópias duplicadas, versões intermediárias de documentos, pastas temporárias nunca limpas, backups mantidos além do necessário e conteúdos espalhados em ferramentas como SharePoint, Google Drive, serviços de armazenamento em nuvem e servidores locais. De acordo com análises da Gartner, as organizações costumam subestimar drasticamente esse volume “invisível”, o que compromete a eficácia de estratégias de segurança, privacidade e compliance.

O impacto prático dessa realidade fica ainda mais evidente quando se observa a transformação no modo de operar dos cibercriminosos. Relatórios recentes de threat intelligence mostram que, em vez de explorar apenas falhas técnicas em sistemas, invasores têm priorizado o uso de credenciais legítimas – senhas roubadas, sessões sequestradas, contas comprometidas de usuários ou administradores. Uma vez dentro do ambiente, o atacante passa a explorar os mesmos acessos dos funcionários, navegando por pastas, repositórios e ferramentas de colaboração. Nessa etapa, o dark data torna-se um multiplicador de danos: quanto mais dados esquecidos e sem dono claro, maior o potencial de vazamento e de extorsão. Empresas de segurança indicam que ataques baseados em identidade cresceram significativamente nos últimos anos, reduzindo o tempo necessário para movimentação lateral dentro das redes corporativas.

Esse movimento altera a lógica tradicional da segurança da informação. Durante décadas, os investimentos estiveram concentrados na proteção de sistemas estruturados – bancos de dados, ERPs, CRMs, aplicações críticas, redes corporativas e perímetros bem definidos. Hoje, o risco migrou justamente para os pontos menos visíveis: compartilhamentos abertos, pastas públicas, e-mails antigos arquivados, anexos em ferramentas de chat corporativo e dados não classificados que ninguém sabe exatamente por que ainda estão guardados. É nesse “território nebuloso” que o dark data prospera.

Sob a ótica regulatória, o problema é ainda mais sensível. No Brasil, a Autoridade Nacional de Proteção de Dados (ANPD) exige que as organizações tenham clareza sobre onde estão os dados pessoais sob sua guarda, quem pode acessá-los, por quanto tempo são retidos e com qual finalidade são tratados. Isso inclui o controle sobre armazenamento, acesso, compartilhamento interno e ciclo de vida das informações. Por definição, o dark data inviabiliza esse nível de visibilidade: se a empresa não sabe que determinado conjunto de dados existe, tampouco conseguirá provar que o trata de forma adequada. O resultado é uma situação de potencial não conformidade com a LGPD – muitas vezes sem que a própria organização tenha consciência disso.

Dados ocultos fragilizam diretamente a governança de informações. Levantamentos de empresas especializadas em segurança de dados mostram que uma parcela relevante das organizações mantém arquivos sensíveis – como listas de clientes, dados financeiros, informações de saúde, relatórios de RH e contratos estratégicos – acessíveis a um número muito maior de usuários do que o necessário. Em alguns cenários extremos, pastas com conteúdo altamente crítico ficam disponíveis para todos os colaboradores, sem qualquer critério de necessidade de acesso. Quando esses dados ainda são “invisíveis” para a área de segurança ou para o jurídico, o risco se multiplica: não há monitoramento, não há dono definido e não há política clara de uso.

Do ponto de vista técnico, o desafio está diretamente ligado à natureza dos dados não estruturados. Diferentemente de bancos de dados, que seguem esquemas fixos e podem ser auditados com mais facilidade, arquivos soltos em diretórios, sistemas de colaboração e e-mails não obedecem a padrões rígidos. Conteúdos sensíveis podem estar diluídos em um parágrafo de uma apresentação, em uma aba secundária de uma planilha ou em uma conversa de chat com um anexo. Isso exige o uso de tecnologias mais avançadas para identificação, classificação e análise de risco.

Ferramentas de Data Security Posture Management (DSPM) e soluções baseadas em inteligência artificial vêm sendo cada vez mais adotadas para mapear esse ambiente caótico. Essas tecnologias atuam, em geral, sobre três frentes principais: descoberta de dados (localizar onde, de fato, as informações estão armazenadas), classificação automática (entender o tipo de informação, seu grau de sensibilidade e a presença de dados pessoais ou confidenciais) e análise de exposição (verificar quem tem acesso, em quais condições e se há violações de política). O objetivo é responder a três perguntas fundamentais: onde estão os dados, que tipo de dado é e quem pode acessá-los.

Mesmo com o apoio dessas ferramentas, a tecnologia sozinha não elimina o problema. O dark data é, em grande medida, sintoma de processos organizacionais fragmentados. Cada área de negócio cria seus próprios repositórios, guarda suas versões de arquivos, define suas formas de compartilhamento e muitas vezes não segue uma política corporativa unificada de governança da informação. Sem padrões claros de nomenclatura, retenção e descarte, o acúmulo de arquivos esquecidos torna-se apenas uma questão de tempo.

Sob o ponto de vista dos atacantes, o cenário nunca foi tão favorável. O mesmo avanço da inteligência artificial que permite às empresas mapear e classificar dados também pode ser usado por cibercriminosos para localizar rapidamente informações valiosas em grandes volumes de arquivos não estruturados. Ferramentas automatizadas são capazes de identificar padrões, detectar números de documentos, informações financeiras, credenciais, dados de saúde ou propriedade intelectual em meio a terabytes de conteúdo. O que antes demandava horas ou dias de trabalho manual de um invasor, hoje pode ser feito em questão de minutos, em escala.

Além dos riscos óbvios de vazamento e extorsão, o dark data impacta diretamente a eficiência operacional. Manter grandes volumes de dados inúteis em armazenamento de alto custo on-premises ou em nuvem eleva despesas com infraestrutura, backup, replicação e licenciamento. Em muitas empresas, parte relevante da conta de nuvem está relacionada a dados antigos ou redundantes que ninguém mais utiliza, mas que seguem sendo replicados e protegidos como se fossem críticos. Ao mesmo tempo, a dificuldade para encontrar a informação certa na hora certa reduz produtividade, aumenta retrabalho e favorece a criação de ainda mais cópias, perpetuando o ciclo.

Existe também o risco jurídico e reputacional. Em incidentes de segurança, a extensão do impacto costuma estar diretamente relacionada à quantidade de dados acessíveis ao atacante. Se a organização armazena, sem necessidade, informações pessoais de clientes de muitos anos atrás, e esses dados estão espalhados em múltiplos repositórios sem controle, qualquer violação tende a ser maior, com mais titulares afetados. Isso aumenta a chance de sanções, ações judiciais e danos à imagem. Em outras palavras: manter dark data não é apenas ineficiente, é também uma forma de acumular passivos futuros.

Enfrentar esse problema exige uma mudança de mentalidade: tratar dados como ativos estratégicos, e não como simples subproduto das operações diárias. Um primeiro passo prático é realizar um inventário sistemático de dados, começando por áreas mais sensíveis, como financeiro, jurídico, RH, vendas e atendimento ao cliente. A partir desse mapeamento inicial, é possível identificar repositórios críticos, definir prioridades de saneamento e estabelecer políticas de retenção mais rígidas, evitando o armazenamento indefinido de informações sem propósito claro.

Outra medida essencial é criar regras corporativas para o ciclo de vida da informação: por quanto tempo determinado tipo de dado deve ser mantido, quem é o “dono” responsável por ele, em que momento deixa de ter utilidade e qual é o procedimento seguro de descarte. Essas diretrizes precisam estar alinhadas tanto às exigências legais (como prazos mínimos de guarda) quanto às necessidades reais do negócio. Sem uma política clara, a tendência natural é sempre “guardar para depois” – e esse “depois” raramente chega.

A cultura organizacional também desempenha um papel central. Colaboradores precisam ser orientados a evitar a criação desnecessária de cópias locais, o envio indiscriminado de anexos, o uso de pendrives e a manutenção de arquivos pessoais em pastas corporativas. Treinamentos recorrentes, campanhas internas e o apoio de lideranças de negócio ajudam a reforçar a mensagem de que segurança de dados não é apenas assunto da área de TI, mas responsabilidade compartilhada.

As equipes de segurança e de privacidade, por sua vez, devem atuar de forma integrada com as áreas de negócios. Em vez de apenas impor controles técnicos, é necessário entender fluxos reais de trabalho, identificar onde o uso de dados é de fato essencial e onde há excessos, e co-criar soluções que conciliem proteção e produtividade. A adoção de classificações simples (por exemplo: público, interno, confidencial, restrito) e de controles automáticos baseados nesse grau de sensibilidade tende a reduzir o acúmulo de dark data ao longo do tempo.

Vale considerar ainda a criação de rotinas periódicas de “faxina digital”. Assim como há inventários físicos e auditorias financeiras em muitas empresas, faz sentido instituir revisões regulares de repositórios, com foco em eliminação de redundâncias, arquivamento adequado e descarte seguro. Essa prática, combinada a relatórios de exposição gerados por ferramentas de DSPM ou soluções similares, permite monitorar a evolução do problema e demonstrar, inclusive para órgãos reguladores, que a organização está em processo contínuo de melhoria.

No fim, o dark data representa um paradoxo: aquilo que a empresa não vê é justamente o que mais a expõe. Arquivos esquecidos, pastas sem dono, backups sem propósito e dados pessoais acumulados além do necessário formam um estoque invisível de riscos técnicos, regulatórios, financeiros e reputacionais. Encarar esse tema com seriedade, unindo tecnologia, processos e cultura, deixa de ser opcional e passa a ser uma questão de sobrevivência em um cenário em que incidentes de segurança são cada vez mais frequentes e reguladores, cada vez mais atentos.

Transformar dados “escuros” em dados conhecidos, classificados e governados não é um projeto pontual, e sim um programa contínuo. As organizações que entenderem isso mais cedo estarão em posição muito mais favorável: com menos exposição a ataques, maior aderência à LGPD, custos de armazenamento otimizados e, principalmente, uma base informacional mais confiável para tomada de decisão. O risco silencioso dos arquivos esquecidos só diminui quando a empresa decide, de forma deliberada, trazer esses dados para a luz.