it-swarm.it

Quali strumenti ci sono per il mascheramento dei dati? (MySQL, Linux)

Sto cercando strumenti di mascheramento dei dati (idealmente gratuiti, open source). Ne esiste qualcuno del genere?

Nota: questa domanda correlata riguarda gli strumenti per la generazione di dati di test, ma in questa domanda sono più interessato a iniziare con dati reali e mascherarli per l'uso in test senza perdere relazioni speciali che lo rendono interessante ai fini del test. I dati generati vanno bene per alcuni scopi di test, ma i dati del mondo reale porteranno problemi che non hai mai pensato. Strumento per generare grandi set di dati di dati di test

14
testerab

Sarei molto sorpreso se esistesse uno strumento generico per questo: come "conoscere" quali sono i dati sensibili e cosa no? Ad esempio, dovrebbe esaminare tutti i tuoi dati e riconoscere tutti i possibili formati di numero di carta di credito, numero di telefono, codice postale, indirizzo e-mail e qualsiasi altro dato sia considerato sensibile. Dovrebbe anche essere intelligente sul tuo schema - ad es. dovrebbe riscrivere tutti gli indirizzi e-mail dei clienti su "[email protected]" - oppure una parte del database, delle applicazioni o di altri strumenti presuppone che l'indirizzo e-mail di un cliente (o SSN o altro) sia unico? O hai qualche parte dell'applicazione che controlla i numeri di carta di credito, che si spezzerebbe se li ripristinassi su 0000 0000 0000 0000? Oppure il tuo sistema di telefonia presume che il prefisso di un cliente corrisponda al paese nel suo indirizzo?

Fondamentalmente, configurare qualsiasi strumento per farlo sarà tanto o più lavoro che scrivere semplicemente il tuo script, usando la tua conoscenza dell'applicazione. Sul mio sito, abbiamo semplicemente stabilito che chiunque aggiunga una colonna con tali dati negli aggiornamenti aggiorna lo script per anonimizzarlo allo stesso tempo, dopo un controllo iniziale per trovare tutte quelle colonne e scrivere la versione 1.

9
Gaius

Non ho mai visto un oggetto del genere, ma avendo lavorato con alcuni insiemi di dati sensibili ai miei tempi, la cosa principale che deve essere confusa sono le identità delle persone o le informazioni di identificazione personale. Questo dovrebbe appare solo in alcuni punti del database.

L'operazione di mascheramento dovrebbe conservare le proprietà statistiche e le relazioni dei dati e probabilmente deve conservare i codici di riferimento effettivi (o almeno una sorta di meccanismo di traduzione controllata) in modo da poterli riconciliare con i dati effettivi.

Questo genere di cose può essere ottenuto ottenendo un elenco distinto dei nomi nei campi e sostituendolo con qualcosa come FirstNameXXXX (dove XXXX è un numero progressivo, uno per ogni valore distinto). I numeri di carta di credito e le informazioni simili che potrebbero essere utilizzate per il furto di identità sono abbastanza probabili essere un no-no in un ambiente di sviluppo, ma hai bisogno di quelli reali solo se stai testando i sistemi di elaborazione dei pagamenti - in genere il fornitore ti fornirà codici speciali per account fittizi.

Non è particolarmente difficile scrivere procedure di anonimizzazione di questo tipo, ma dovrai concordare esattamente cosa deve essere reso anonimo con l'azienda. Se necessario, scorrere il campo del database per campo. Chiedere sì/no ti darà falsi positivi che non vuoi. Chiedere al rappresentante aziendale di spiegare perché o le conseguenze o le implicazioni normative della mancata anonimizzazione di determinati dati.

Se il tuo database è minuscolo, ha un modello di dati semplice ed è ben compreso dagli attuali DBA - gli script "potrebbero" essere la risposta. Tuttavia, lo sforzo (e il costo) di analizzare e mascherare manualmente i database tipici può sfuggire di mano piuttosto rapidamente quando cambiano i requisiti, si aggiungono funzionalità e gli sviluppatori/DBA vanno e vengono.

Anche se non sono a conoscenza di alcun prodotto di mascheramento dei dati open source, ci sono offerte commerciali disponibili ragionevolmente complete, relativamente facili da usare e che possono essere sorprendentemente ragionevoli in termini di costi. Molti di questi includono funzionalità di individuazione immediata per identificare e classificare i dati sensibili (SSN, carte di credito, numeri di telefono) e funzionalità per mantenere i checksum, la formattazione dell'indirizzo e-mail, il raggruppamento dei dati, ecc. In modo che i dati mascherati sembra reale.

Ma non devi prendere la mia Parola (di sicuro di parte) per questo. Chiedi agli analisti del settore come Gartner o Forrester che hanno un certo numero di rapporti imparziali disponibili sul mascheramento che potrebbero aiutare.

Spero che questi commenti ti incoraggino a prendere in considerazione l'esplorazione di prodotti commerciali e lo sviluppo di script interni. Alla fine della giornata, la cosa più importante è proteggere i dati sensibili che molti di noi vedono giorno dopo giorno che non abbiamo davvero bisogno di vedere per fare il nostro lavoro - mettendo noi e le persone il cui personale dati che riteniamo a rischio.

Kevin Hillier, Specialista senior integrazione, Camouflage Software Inc.

5
user757

Ho avuto lo stesso compito poche settimane fa. abbiamo valutato alcuni sistemi software, ma la maggior parte di essi riguarda solo un tipo di base di dati, ad es. Oracle e spesso sono molto complicati da usare ... quindi non è la cosa più bella da valutare. Ci sono volute settimane.

Abbiamo deciso di acquistare la versione professionale della suite di mascheramento dei dati poiché era la più semplice da utilizzare. Ha anche fantastiche possibilità di mascherare i dati, ad es. puoi cambiare gli indirizzi e-mail in quelli reali, ad es. ... @ siemens.com a [email protected]

Puoi provarlo gratuitamente per circa 500 (?) Record per quanto mi ricordo.

Ecco il link http://www.data-masking-tool.com/

3
SaJoe

Ho indicato per la prima volta questo percorso diversi anni fa e da allora ho creato una consulenza basata su questa pratica.

Suppongo che lo scopo sia quello di creare dati di test da utilizzare in ambienti di test in cui il personale che accede ai dati non disponga dei diritti per la visualizzazione delle informazioni di produzione.

La prima cosa da stabilire è esattamente quali elementi di dati è necessario mascherare e per farlo è meglio iniziare con uno strumento di individuazione dei dati come Schema Spy (Open source) e per questo compito sarà necessario il driver jdbc pertinente ma è un passaggio molto utile nel processo.

Talend Open Studio è uno dei migliori strumenti che ho usato negli ultimi anni per eseguire alcune delle funzioni ETL e sarai anche in grado di fare alcune pratiche di mascheramento di base sostituendo i valori con uno casuale o. Cerca/sostituisci - per mantenere la coerenza - usando il componente mappa.

Ma se stai cercando un vero strumento di mascheramento dei dati non ho trovato uno strumento open source adatto. Se hai un budget molto moderato per gli strumenti, suggerirei Data Masker, ma dovrai fare un po 'di importazione ed esportazione tramite MS SQL o Oracle poiché si collega solo tramite quei protocolli.

Dai un'occhiata a http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset per informazioni sul mascheramento dei dati, mascheramento dei dati metodologia, scoperta dei dati e gestione dei dati di prova. C'è anche un utile blog su http://www.dataobfuscation.com.a

2
user25272

Il mio modo di farlo:

  1. Crea un nuovo database con la sola visualizzazione e seleziona i diritti per gli utenti
  2. Crea viste su tabelle che dovrebbero essere visualizzabili in altri database
  3. Maschera le colonne che devono essere mascherate da: repeat ('*', char_length (column to be masked))
2

Quello che mi piace di più è IRI FieldShield ( https://www.iri.com/products/fieldshield ) in termini di versatilità (la maggior parte delle funzioni di mascheramento dei dati), velocità (motore CoSort per lo spostamento dei dati all'interno) ed ergonomia (semplici lavori 4GL supportati nella sua GUI Eclipse con tonnellate di connessioni DB e file). Per quanto riguarda il prezzo, si tratta di circa metà di IBM e Informatica, sebbene disponibili anche in una suite di integrazione dei dati più ampia per la trasformazione, la migrazione e la BI "grandi" dei dati. Quindi non è nemmeno gratuito, ma utilizza alcuni open source (l'IDE e può utilizzare OpenSSL e GPG) e gli script vengono eseguiti su Windows, Linux e altri tipi di Unix.

1
Urvashi Saxena

Quest'anno ho l'opportunità di lavorare con IBM Optim che sostiene di fare ciò che viene richiesto. Non è gratuito, ma funziona bene.

1
Mendes

C'è uno strumento disponibile sul mercato da Informatica che si chiama Informatica ILM (TDM). Questo utilizza PowerCenter come backone per ETL e maschera i dati con diverse opzioni di mascheramento disponibili. Anche se hai bisogno di un analista di dati o SME che può capire come mascherare i dati. Lo strumento stesso non fornisce informazioni su quali campi devono essere mascherati, tuttavia esiste un algoritmo interno o una procedura o un processo per identificare campi di dati sensibili come Nome, colonne ID con numero, carta di credito, numero SSN, numero di conto ecc.

1
Awadhesh Yona