Casa Caratteristiche Questi sostenitori vogliono assicurarsi che i nostri dati non scompaiano

Questi sostenitori vogliono assicurarsi che i nostri dati non scompaiano

Sommario:

Video: Le persone trasformate in dati - Presadiretta 10/02/2020 (Settembre 2024)

Video: Le persone trasformate in dati - Presadiretta 10/02/2020 (Settembre 2024)
Anonim

Alla fine di maggio di quest'anno, esattamente a cinque mesi dall'inaugurazione del 45 ° Presidente degli Stati Uniti, un gruppo di persone preoccupate della posizione della nuova amministrazione nei confronti della scienza e dei cambiamenti climatici ha segnato il suo speciale anniversario.

Non lontano dal campus della University of North Texas, nella pianura a nord di Dallas, diverse decine di persone si sono incontrate al Data Rescue Denton per identificare e scaricare copie dei set di dati climatici e ambientali federali. Questi incontri in stile hackathon hanno ricevuto molta attenzione nei giorni immediatamente precedenti l'inaugurazione; Denton è stato il 50 ° evento del genere da gennaio.

Organizzando inizialmente per timore che la nuova amministrazione potesse cancellare o oscurare il clima e altri dati ambientali, le peggiori paure dei soccorritori di dati sembravano avverarsi quando una delle prime azioni della Trump White House fu quella di eliminare dal suo sito Web le pagine sui cambiamenti climatici. Quindi il Dipartimento dell'Agricoltura degli Stati Uniti, dopo aver rimosso i rapporti di ispezione sul benessere degli animali dal proprio sito Web, ha risposto a una richiesta del National Geographic Freedom of Information Act con 1.771 pagine di materiale interamente redatto.

Chiunque può accedere agli oltre 153.000 set di dati federali tramite il portale open-data del governo centrale all'indirizzo data.gov. Ma questa è solo una parte dei dati esistenti nella nebulosa della burocrazia del governo, non importa la frazione ancora più piccola che si trova su un server.

"Da qualche parte circa il 20 percento delle informazioni governative è accessibile dal web", ha dichiarato Jim Jacobs, bibliotecario delle informazioni del governo federale presso la Stanford University Library. "Questa è una parte abbastanza grande di cose che non è disponibile. Sebbene le agenzie abbiano i loro wiki e i loro sistemi di gestione dei contenuti, l'unica volta che ne scopri alcune è se qualcuno lo dice."

A dire il vero, molte informazioni sono state effettivamente acquisite e ora risiedono su server non governativi. Tra eventi e progetti di Data Refuge come la scansione di fine periodo 2016, sono stati archiviati oltre 200 TB di siti Web e dati governativi. Ma gli organizzatori del salvataggio hanno iniziato a rendersi conto che gli sforzi frammentari per realizzare copie complete di terabyte di dati scientifici dell'agenzia governativa non potevano realisticamente essere sostenuti a lungo termine: sarebbe come salvare il Titanic con un ditale.

Quindi, sebbene Data Rescue Denton sia diventato uno degli ultimi eventi organizzati nel suo genere, lo sforzo collettivo ha spinto una comunità più ampia a lavorare in concerto per rendere più dati rilevabili, comprensibili e utilizzabili dal governo, Jacobs ha scritto in un post sul blog.

Guardando alle biblioteche

All'Università della Pennsylvania, Bethany Wiggin è la direttrice del Penn Program in Environmental Humanities, dove è stata al centro del movimento di Data Refuge, la creatrice degli eventi di Data Rescue. L'attenzione si è ora spostata, ha affermato, verso la valorizzazione dei quadri nazionali per gli sforzi a lungo termine anziché per gli episodi periodici su base locale.

"Abbiamo capito che le abilità che stavano emergendo in vari luoghi facendo eventi sui dati di salvataggio potevano essere ridimensionate", ha detto Wiggin, in particolare nelle biblioteche di ricerca. "Ma tutti questi sforzi si stavano verificando prima del lancio. Il potere di Data Refuge è stato quello di ispessire tali connessioni; catalizzare progetti di lunga data e lenti; e far luce su quanto siano importanti."

Wiggin ha recentemente contribuito a guidare Libraries + Network, una partnership emergente di biblioteche di ricerca, organizzazioni di biblioteche e gruppi di dati aperti catalizzati per espandere il ruolo tradizionale delle biblioteche nel preservare l'accesso alle informazioni. Tra i partecipanti vi sono la biblioteca di ricerca della Stanford University, la California Digital Library e la Mozilla Foundation, con contributi e collaborazioni di entità tanto ampie come l'Archivio Nazionale e i Chief Data Officer di numerosi uffici federali.

Un progetto, ad esempio, è LOCKSS ("molte copie tengono le cose al sicuro") che Jacobs ha coordinato per diversi anni. Si basa sullo stesso principio di una rete di biblioteche di 200 anni nota come Federal Depository Library Program; queste biblioteche sono archivi ufficiali delle pubblicazioni del Government Printing Office (GPO) degli Stati Uniti.

LOCKSS, al contrario, è una versione digitale privata di questo sistema, che finora comprende 36 biblioteche che raccolgono pubblicazioni dall'oggetto Criteri di gruppo con la sua collaborazione. È un modello per proteggere le informazioni digitali dall'eliminazione o dalla manomissione mediante un'ampia dispersione fisica.

"Non puoi assicurare la conservazione se non hai il controllo del contenuto", ha detto Jacobs. "Parte di ciò che ha reso importanti e utili le biblioteche del depositario negli ultimi 200 anni è stato che nessuno al governo poteva modificare un documento senza andare effettivamente a 1.500 biblioteche e dire 'Sì, cambia questa pagina qui.'"

Il software LOCKSS utilizza le cache di controllo dei contenuti a livello di bit e lo confronta con il contenuto contenuto in altre librerie, che Jacobs ha affermato che aiuta a garantire la conservazione a lungo termine attraverso la riparazione di file degradati.

John Chodacki, un altro collaboratore di Libraries + Network, è direttore della curation per la California Digital Library, una struttura di informazione virtuale che serve tutti e 10 i campus del sistema dell'Università della California. Lavorando con lo sviluppatore di Code for Science and Society Max Ogden e Philip Ashlock, capo architetto di data.gov, Chodacki afferma che il loro obiettivo è stato quello di utilizzare data.gov come strada a doppio senso.

Hanno prima dimostrato che il salvataggio dei dati stesso potrebbe essere molto più efficiente raccogliendo una copia di data.gov stesso e posizionandolo su un sito esterno, datamirror.org, con script di monitoraggio che controllano la disponibilità di aggiornamenti. Quindi Chodacki e collaboratori hanno anche iniziato a verificare se i set di dati e i metadati forniti al mirror potessero essere inseriti nei flussi di dati esistenti delle agenzie.

Secondo l'ordine esecutivo di Obama del 2013 che prevedeva la pubblicazione di dati leggibili meccanicamente su data.gov, le agenzie sarebbero comunque responsabili della generazione dei record che sono elencati su quel portale; L'idea di Chodacki e Ogden è che il crowdsourcing suggerisca insiemi di dati che semplicemente aiutano a distribuire il carico di lavoro.

"Non abbiamo bisogno di replicare l'intero ecosistema", ha detto Chodacki. "Il governo federale e queste agenzie hanno gestito i dati per molto più tempo di quanto sia stato utile parlare di big data, in un modo molto più robusto di chiunque altro."

Partenariati pubblico-privato

La questione del costo è ovvia quando si tratta di come le agenzie sono in grado di identificare quali set di dati sono più preziosi per il pubblico, quindi pubblicare collegamenti ai loro metadati o set di dati effettivi attraverso il portale governativo. Un rapporto del Congressional Budget Office (CBO) per la legge OPEN Government Data Act attualmente in Senato - che codificherebbe in legge l'ordine esecutivo di Obama - stima che la sua piena attuazione costerebbe 2 milioni di dollari tra il 2018 e il 2021.

In termini di denaro pubblico, ciò non rappresenta sostanzialmente alcun aumento reale della spesa, ha concluso CBO.

L'efficienza, tuttavia, è una domanda diversa, quella che Ed Kearns presso la National Oceanic and Atmospher Administration sta sperimentando insieme a partner privati ​​tra cui Amazon Web Services e Google. Kearns, Chief Data Officer di NOAA, ha affermato che aumentare la disponibilità pubblica e l'utilizzo dei dati NOAA è uno degli obiettivi principali del Big Data Project.

Le aziende identificano i set di dati che desiderano e NOAA li trasmette senza costi aggiuntivi per il pubblico. Qualunque cosa abbia NOAA è sul tavolo, ha detto Kearns, ma l'obiettivo della partnership quinquennale non è quello di ottenere tutti i dati NOAA sul cloud, solo blocchi strategici.

L'hosting di tali set di dati sui servizi cloud delle società private offre numerosi vantaggi all'accesso FTP in stile anni '80, che è ancora standard per il trasferimento di set di dati di grandi dimensioni dalle agenzie federali. Per iniziare, i set di dati di NOAA tendono ad essere vasti - l'agenzia monitora gli oceani, l'atmosfera, il sole e il tempo dello spazio terrestre - e talvolta richiedono settimane o mesi per la consegna pubblica.

Un esempio è l'archivio radar Doppler di livello II NEXRAD ad alta risoluzione dell'agenzia. Secondo uno studio pubblicato a maggio dall'American Meteorological Society, il trasferimento dell'intero archivio NEXRAD da 270 terabyte a un singolo cliente nell'ottobre 2015 avrebbe richiesto 540 giorni al costo di 203.310 $. Una copia completa dell'archivio non era mai stata disponibile per analisi esterne prima che NOAA lavorasse con Amazon e Google per metterne uno sul cloud.

L'esperimento ha avuto anche alcuni interessanti risultati iniziali con aumenti di utilizzo. Le pagine web di NOAA su meteo e previsioni già ricevono alcuni dei più alti livelli di traffico tra i siti governativi, ma dopo che Google ha recentemente integrato un set di dati su clima e meteo, di dimensioni circa un concerto, nel suo database BigQuery, la società ha riferito di consegnare 1, 2 petabyte di questo set di dati dal 1 ° gennaio al 30 aprile - molto più di quanto non si fosse mai potuto accedere in un periodo simile dai server NOAA.

"Google è stato in grado di aprirlo a un pubblico completamente nuovo", ha affermato Kearns.

Non è solo pioggia e temperature stagionali. I set di dati ora disponibili tramite i partner di Big Data includono informazioni sulla pesca, condizioni meteorologiche marine e un catalogo ospitato da IBM che elenca i set di dati attuali, di previsione, storici e geospaziali dei centri NOAA. I set di dati futuri potrebbero persino includere informazioni sugli ecosistemi e sulla genomica della pesca.

Ma in base alla progettazione, la partnership consente ai collaboratori di scegliere ciò che desiderano di più, il che comporta il rischio che insiemi di dati oscuri, ma potenzialmente di alto valore, non vedano molta luce del giorno. Kearns afferma che è troppo presto per dire ciò che alla fine potrebbe essere identificato come prezioso.

"La portata e la portata di ciò che può fare con questi dati è sbalorditiva per noi", ha aggiunto. "Non possiamo immaginare tutti gli usi possibili."

Su scala ridotta, la città di Filadelfia ha anche lavorato con un ente privato per pubblicare set di dati che il pubblico ha affermato che riterrebbe più utili. Sebbene le dimensioni di una città le diano più manovrabilità quotidiana rispetto a un'entità federale, il modello di Philly rappresenta un approccio per la strategia di rilasci di set di dati non ancora pubblicati.

Azavea, una società di software con sede a Philly specializzata nella visualizzazione dei dati, ha collaborato con Tim Wisniewski, Chief Information Officer della città, per sviluppare un elenco di set di dati inediti che le organizzazioni non profit della città potrebbero avere interesse a utilizzare. Wisniewski e Azavea hanno utilizzato sia il catalogo dei metadati online della città sia i contributi dei dipartimenti della città per sviluppare l'elenco. Azavea e altri partner hanno quindi distribuito l'elenco alle organizzazioni non profit di Filadelfia e hanno lanciato OpenDataVote, un concorso per il pubblico che vota i progetti proposti da tali organizzazioni non profit per l'utilizzo dei loro set di dati preferiti.

Un recente vincitore è stata una proposta avanzata dall'istruzione senza scopo di lucro MicroSociety per utilizzare i dati della città sui donatori al Distretto scolastico di Philadelphia per misurare l'impatto dei programmi senza scopo di lucro nelle scuole.

"Possiamo dire che questa città senza scopo di lucro è interessata a un particolare set di dati perché può farci qualcosa e che molte persone hanno votato per sostenerli", ha detto Wisniewski. "Ci consente di andare ai dipartimenti con un solido caso d'uso in mano piuttosto che dire, ehi, rilasciare questi dati solo perché."

Vecchi dati e il nuovo

Ma cosa succede anche quando c'è un ampio accesso ai dati che sono già in circolazione, quando nuove politiche e direttive di finanziamento significano che i dati stessi non vengono più generati? Questa è una vera preoccupazione, ha affermato Ann Dunkin, che ha ricoperto il ruolo di Chief Information Officer presso la Environmental Protection Agency sotto il presidente Obama e ora dirige l'IT nella contea di Santa Clara in California.

"Le persone sono preoccupate per i vecchi dati, ma ciò che mi preoccupa di più è che i nuovi dati non vengono resi disponibili alla stessa velocità di prima, o non generati affatto", ha detto Dunkin.

In un'analisi del budget federale 2018 proposto dalla rivista Science, molte agenzie governative realizzerebbero riduzioni significative dei loro budget di ricerca se il budget viene approvato come proposto. Una riduzione di circa il 22 percento presso il National Institutes of Health inciderebbe sui pagamenti alle università di ricerca; la richiesta di bilancio della NASA eliminerebbe le iniziative per monitorare le emissioni di gas serra e altri programmi di scienze della terra. Anche i programmi climatici al NOAA potrebbero essere chiusi con livelli simili di tagli.

Durante il suo mandato, l'EPA aveva lavorato per trasformare la sua raccolta di dati in uno strumento che chiunque potesse usare per comprendere la salute dell'ambiente circostante e come reagire ad esso. Brutta giornata aerea? Non andare fuori. Streaming lungo il modo in cui inquinato? Tieni lontano i bambini.

"La mia aspettativa è che si sposterà all'indietro", ha aggiunto Dunkin. "Potrei sbagliarmi, ma se stai dicendo che non renderemo disponibili i dati, la conclusione logica è che i set di dati che potrebbero aiutare anche i membri del pubblico non saranno disponibili o non generati in primo luogo."

Wiggin di Data Refuge sta lavorando a un progetto di storytelling relativo a questo problema che spera possa catalizzare più persone per richiedere il rilascio continuo di dati e creare una base di supporto per continuare i programmi di raccolta dati esistenti in tutto il governo federale. I racconti di "Three Stories in Our Town" descriveranno l'impatto spesso nascosto dei dati federali in luoghi inaspettati, iniziando prima a Filadelfia, poi in altri luoghi in tutto il paese.

"Un pezzo cruciale del movimento di Data Refuge, mentre passiamo alla fase successiva, è aiutare le persone a capire quanto siano ampiamente utilizzati i dati prodotti dalla federazione nella loro vita", ha detto Wiggin. "Sia che tu lo chiami clima, salute o sicurezza pubblica, sono ancora dati federali. È nelle comunità, nel municipio, nelle attività di polizia, nell'esercito. Dobbiamo continuare a ricordare quanto siano importanti quei dati."

risorse:

  • EPA Gateway di set di dati ambientali: il portale dei metadati dell'Agenzia per la protezione dell'ambiente.
  • Open Data @ DOE: il portale di dati aperti del Dipartimento dell'Energia.
  • Portale dati del servizio di ricerca economica dell'USDA
  • Risorse Big Data NOAA: collegamenti alle pagine della piattaforma dei partner Big Data che ospitano dati generati da NOAA.
  • University of North Texas: Cyber ​​Cemetery: un archivio di siti Web governativi defunti, obsoleti o chiusi.
  • Pagina del progetto sull'archiviazione di dati e governance ambientali: strumenti, codice e app relativi alla scoperta e all'archiviazione di dati governativi.
  • Wayback Machine Internet Archive
  • Internet Archive: come salvare le pagine nella Wayback Machine: sei modi per nominare le pagine per l'archiviazione.
  • California Digital Library: Archivio Web di fine mandato: una raccolta di siti Web del governo degli Stati Uniti salvati dalle ricerche per indicizzazione di fine periodo, dal 2008 ad oggi.
  • FreeGovInfo.info: contenuti ad ampio raggio con informazioni sui portali di dati a livello statale e federale e archivi di notizie su questioni di dati aperti.
  • Climate Mirror: una raccolta di set di dati climatici raccolti da volontari.

Questa storia è apparsa per la prima volta in PC Magazine Digital Edition. Iscriviti oggi per storie più originali, notizie, recensioni e come fare!

Questi sostenitori vogliono assicurarsi che i nostri dati non scompaiano