Dette er de beste gratis åpne datakildene noen kan bruke

Hva er åpne data?

Enkelt sagt betyr Open Data den typen data som er åpen for alle og enhver for tilgang, modifikasjon, gjenbruk og deling.

Open Data stammer fra forskjellige “åpne bevegelser” som åpen kildekode, åpen maskinvare, åpen regjering, åpen vitenskap etc.

Regjeringer, uavhengige organisasjoner og byråer har kommet frem for å åpne flomene for data for å skape mer og mer åpne data for gratis og enkel tilgang.

Hvorfor er åpne data viktig?

Åpne data er viktig fordi verden har vokst stadig mer datadrevet. Men hvis det er begrensninger på tilgang og bruk av data, vil ikke ideen om datadrevet virksomhet og styring materialiseres.

Derfor har åpne data sitt eget unike sted. Det kan gi en bedre forståelse av de globale problemene og universelle problemene. Det kan gi et stort løft for bedrifter. Det kan være en stor drivkraft for maskinlæring. Det kan bidra til å bekjempe globale problemer som sykdom eller kriminalitet eller sult. Åpne data kan styrke innbyggerne og dermed styrke demokratiet. Det kan strømlinjeforme prosessene og systemene som samfunnet og myndighetene har bygget. Det kan bidra til å transformere måten vi forstår og engasjerer oss i verden.

Så her er listen min over 15 fantastiske Open Data-kilder:

1. Verdensbankens åpne data

Som et lager av verdens mest omfattende data om hva som skjer i forskjellige land over hele verden, er Verdensbankens åpne data en viktig kilde til åpne data. Det gir også tilgang til andre datasett som er nevnt i datakatalogen.

Verdensbankens åpne data er enorme fordi den har 3000 datasett og 14000 indikatorer som omfatter mikrodata, tidsseriestatistikk og geospatiale data.

Å få tilgang til og oppdage dataene du ønsker er også ganske enkelt. Alt du trenger å gjøre er å spesifisere indikatornavn, land eller emner, og det vil åpne skattehuset for Open Data for deg. Det lar deg også laste ned data i forskjellige formater som CSV, Excel og XML.

Hvis du er journalist eller akademiker, vil du bli begeistret av en rekke verktøy som er tilgjengelig for deg. Du kan få tilgang til analyse- og visualiseringsverktøy som kan styrke forskningen din. Det kan føre til en dypere og bedre forståelse av globale problemer.

Du kan få tilgang til API-et som kan hjelpe deg med å lage datavisualiseringene du trenger, live kombinasjoner med andre datakilder og mange flere slike funksjoner.

Derfor er det ingen overraskelse at Verdensbankens åpne data topper listen over åpne datakilder!

2. WHO (Verdens helseorganisasjon) - Åpent datalager

WHOs åpne datalager er hvordan WHO holder oversikt over helsespesifikk statistikk fra sine 194 medlemsstater.

Datalageret holder dataene systematisk organisert. Den kan nås i henhold til forskjellige behov. Uansett om det er dødelighet eller sykdomsbyrde, kan man få tilgang til data klassifisert under 100 eller flere kategorier som tusenårsmålene (barns ernæring, barnehelse, mors og reproduktiv helse, immunisering, HIV / AIDS, tuberkulose, malaria, forsømte sykdommer, vann og sanitæranlegg), ikke-smittsomme sykdommer og risikofaktorer, epidemisk utsatte sykdommer, helsesystemer, miljøhelse, vold og skader, egenkapital mv.

For dine spesifikke behov kan du gå gjennom datasettene i henhold til temaer, kategori, indikator og land.

Det som er bra er at det er mulig å laste ned dataene du trenger i Excel-format. Du kan også overvåke og analysere data ved å bruke dataportalen.

API til Verdens helseorganisasjons data og statistikkinnhold er også tilgjengelig.

3. Google Public Data Explorer

Google Public Data Explorer ble lansert i 2010 og kan hjelpe deg med å utforske store mengder datasett av offentlig interesse. Du kan visualisere og kommunisere dataene for ditt respektive bruk.

Det gjør dataene fra forskjellige byråer og kilder tilgjengelige. For eksempel kan du få tilgang til data fra Verdensbanken, US Bureau of Labor Statistics og US Bureau, OECD, IMF og andre.

Ulike interessenter får tilgang til disse dataene for en rekke formål. Enten du er student eller journalist, enten du er politiker eller akademiker, kan du bruke dette verktøyet for å lage visualiseringer av offentlige data.

Du kan distribuere forskjellige måter å representere dataene på, som linjediagrammer, søylediagrammer, kart og boblediagrammer ved hjelp av Data Explorer.

Det beste er at du synes disse visualiseringene er ganske dynamiske. Det betyr at du vil se dem endres over tid. Du kan endre emner, fokusere på forskjellige oppføringer og endre skalaen.

Det kan også deles. Så snart du gjør diagrammet klart, kan du legge det inn på nettstedet ditt eller bloggen eller bare dele en lenke med vennene dine.

4. Register over åpne data på AWS (RODA)

Dette er et depot som inneholder offentlige datasett. Det er data som er tilgjengelige fra AWS-ressurser.

Når det gjelder RODA, kan du oppdage og dele dataene som er offentlig tilgjengelige.

I RODA kan du bruke nøkkelord og koder for vanlige typer data som genomisk, satellittbilder og transport for å søke i hvilke data du leter etter. Alt dette er mulig på et enkelt webgrensesnitt.

For hvert datasett vil du oppdage detaljside, brukseksempler, lisensinformasjon og opplæringsprogrammer eller applikasjoner som bruker disse dataene.

Ved å bruke et bredt spekter av beregnings- og dataanalyseprodukter, kan du analysere de åpne dataene og bygge hvilke tjenester du vil.

Selv om dataene du får tilgang til via AWS-ressurser, må du huske at de ikke leveres av AWS. Disse dataene tilhører forskjellige etater, offentlige organisasjoner, forskere, bedrifter og enkeltpersoner.

5. Den europeiske portal for åpne data

Du kan få tilgang til alle åpne data EU-institusjoner, byråer og andre organisasjoner publiserer på en enkelt plattform, nemlig EUs portal for åpne data.

EUs portal for åpne data er viktige åpne data knyttet til EUs politiske domener. Disse politiske domenene inkluderer økonomi, sysselsetting, vitenskap, miljø og utdanning.

Rundt 70 EU-institusjoner, organisasjoner eller avdelinger som Eurostat, Det europeiske miljøbyrået, Joint Research Center og andre generaldirektorater fra EU-kommisjonen og EU-byråer har offentliggjort datasettene sine og gitt tilgang. Disse datasettene har krysset tallet 11700 til dags dato.

Portalen gir enkel tilgang. Du kan enkelt søke, utforske, lenke, laste ned og gjenbruke dataene gjennom en katalog med vanlige metadata. Du kan gjøre det for dine spesifikke formål. Det kan være kommersielle eller ikke-kommersielle formål.

Du kan søke i metadatakatalogen gjennom en interaktiv søkemotor (Data-fanen) og SPARQL-spørsmål (Linked data-fanen).

Ved å benytte deg av denne katalogen kan du få tilgang til dataene som er lagret på de forskjellige nettstedene til EUs institusjoner, byråer og organisasjoner.

6. FiveThirtyEight

Det er et flott sted for datadrevet journalistikk og historiefortelling.

Den inneholder sine forskjellige datakilder for en rekke sektorer som politikk, sport, vitenskap, økonomi osv. Du kan også laste ned dataene.

Når du får tilgang til dataene, vil du komme over en kort forklaring om hvert datasett med hensyn til kilden. Du vil også bli kjent med hva den står for og hvordan du bruker den.

For å gjøre disse dataene brukervennlige, gir den datasett i så enkle, ikke-proprietære formater som CSV-filer som mulig. Det er unødvendig å si at disse formatene lett kan nås og behandles av mennesker så vel som maskiner.

Ved hjelp av disse datasettene kan du lage historier og visualiseringer i henhold til dine egne krav og preferanser.

7. US Census Bureau

US Census Bureau er det største statistiske byrået til den føderale regjeringen. Den lagrer og gir pålitelige fakta og data angående mennesker, steder og økonomi i Amerika.

Census Bureau anser sitt edle oppdrag å utvide sine tjenester som den mest pålitelige leverandøren av kvalitetsdata.

Enten det er en føderal, statlig, lokal eller stammestyring, bruker alle tellingsdata for en rekke formål. Disse myndighetene bruker disse dataene til å bestemme plasseringen av nye boliger og offentlige fasiliteter. De bruker det også når de undersøker de demografiske egenskapene til samfunn, stater og USA.

Disse dataene blir også brukt ved planlegging av transportsystemer og veier. Når det gjelder å bestemme kvoter og skape politi- og branngrenser, kommer disse dataene til nytte. Når regjeringer oppretter lokaliserte områder med valg, skoler, verktøy osv., Bruker de disse dataene. Det er en praksis å samle befolkningsinformasjon en gang i tiåret, og disse dataene er ganske nyttige for å oppnå det samme.

Det er forskjellige verktøy som American Fact Finder, Census Data Explorer og Quick Facts som er nyttige i tilfelle du vil søke, tilpasse og visualisere data.

For eksempel inneholder Quick Facts alene statistikk for alle stater, fylker, byer og til og med byer med en befolkning på 5000 eller mer.

På samme måte kan American Fact Finder hjelpe deg med å oppdage populære fakta som befolkning, inntekt osv. Den gir informasjon som ofte blir etterspurt.

Det gode er at du kan søke, samhandle med dataene, bli kjent med populær statistikk og se relaterte diagrammer gjennom Census Data Explorer. Videre kan du også bruke visuelt verktøy for å tilpasse data på en interaktiv kartopplevelse.

8. Data.gov

Data.gov er skattehuset for amerikanske myndigheters åpne data. Det var bare nylig at beslutningen ble tatt om å gjøre all offentlig informasjon tilgjengelig gratis.

Da den ble lansert var det bare 47. Det er nå 180 000 datasett.

Hvorfor Data.gov er en flott ressurs, er fordi du kan finne data, verktøy og ressurser som du kan distribuere for en rekke formål. Du kan utføre forskning, utvikle web- og mobilapplikasjoner og til og med designe datavisualiseringer.

Alt du trenger å gjøre er å skrive inn nøkkelord i søkeboksen og bla gjennom typer, koder, formater, grupper, organisasjonstyper, organisasjoner og kategorier. Dette vil lette enkel tilgang til data eller datasett du trenger.

Data.gov følger prosjektets åpne dataskjema - et sett med nødvendige felt (tittel, beskrivelse, tagger, siste oppdatering, utgiver, kontaktnavn, etc.) for hvert datasett som vises på Data.gov.

9. DBpedia

Som du vet er Wikipedia en god informasjonskilde. DBpedia har som mål å få strukturert innhold fra verdifull informasjon som Wikipedia opprettet.

Med DBpedia kan du semantisk søke etter og utforske forhold og egenskaper til Wikipedia-ressursen. Dette inkluderer også lenker til andre relaterte datasett.

Det er rundt 4,58 millioner enheter i DBpedia-datasettet. 4,22 millioner er klassifisert i ontologi, inkludert 1 445 000 personer, 735 000 steder, 123 000 musikkalbum, 87 000 filmer, 19 000 videospill, 241 000 organisasjoner, 251 000 arter og 6 000 sykdommer.

Det er etiketter og abstrakter for disse enhetene på rundt 125 språk. Det er 25,2 millioner lenker til bilder. Det er 29,8 millioner lenker til eksterne websider.

Alt du trenger å gjøre for å bruke DBpedia er å skrive SPARQL-spørsmål mot endepunktet eller ved å laste ned dumpene.

DBpedia har hatt fordeler av flere bedrifter, som Apple (via Siri), Google (via Freebase og Google Knowledge Graph) og IBM (via Watson), og spesielt deres respektive prestisjetunge prosjekter knyttet til kunstig intelligens.

10. freeCodeCamp Open Data

Det er et open source-fellesskap. Hvorfor det betyr noe er fordi det lar deg kode, bygge pro bono-prosjekter etter ideelle organisasjoner og ta en jobb som utvikler.

For å få dette til, stiller freeCodeCamp.org-fellesskapet til rådighet enorme mengder data hver måned. De har gjort det til åpne data.

Du finner en rekke ting i dette depotet. Du kan finne datasett, analyse av det samme og til og med demoer av prosjekter basert på freeCodeCamp-dataene. Du kan også finne lenker til eksterne prosjekter som involverer freeCodeCamp-dataene.

Det kan hjelpe deg med et mangfold av prosjekter og oppgaver du kan ha i tankene. Enten det er nettanalyse, sosial medianalyse, sosialt nettverksanalyse, utdanningsanalyse, datavisualisering, datadrevet webutvikling eller bots, kan dataene som tilbys av dette samfunnet være ekstremt nyttige og effektive.

11. Yelp Åpne datasett

Yelp-datasettet er i utgangspunktet en delmengde av ingenting annet enn våre egne virksomheter, anmeldelser og brukerdata for bruk i personlige, pedagogiske og akademiske sysler.

Det er 5 996 996 anmeldelser, 188 593 bedrifter, 280 991 bilder og 10 byområder inkludert i Yelp åpne datasett.

Du kan bruke dem til forskjellige formål. Siden de er tilgjengelige som JSON-filer, kan du bruke dem for å lære elevene om databaser. Du kan bruke dem til å lære NLP eller for eksempler på produksjonsdata mens du forstår hvordan du designer mobilapper.

I dette datasettet finner du hver fil sammensatt av en enkelt objekttype, en JSON-objekt per linje.

12. UNICEF datasett

Siden UNICEF arbeider med et bredt utvalg av kritiske spørsmål, har de samlet relevante data om utdanning, barnearbeid, funksjonshemming, barnedødelighet, morsdødelighet, vann og sanitet, lav fødselsvekt, fødselsomsorg, lungebetennelse, malaria, jodmangel lidelse, kjønnslemlestelse / kutting av kvinner og ungdommer.

UNICEFs åpne datasett publisert i IATI Registry: //www.iatiregistry.org/publisher/unicef ​​er hentet direkte fra UNICEFs operativsystem (VISION) og andre datasystemer, og det gjenspeiler innspill fra individuelle UNICEF-kontorer.

Det gode er at det er en jevnlig oppdatering når det gjelder disse datasettene. Hver måned oppdateres dataene for å gjøre det mer omfattende, pålitelig og nøyaktig.

Du kan enkelt og enkelt få tilgang til disse dataene. For å gjøre det kan du laste ned disse dataene i CSV-format. Du kan også forhåndsvise eksempeldata før du laster den ned.

Mens noen kan utforske og visualisere UNICEFs datasett, er det tre hovedutgivere:

UNICEFs AID TRANSPARENCY PORTAL: Du får langt lettere tilgang til datasettene hvis du bruker denne portalen. Den inneholder også detaljer for hvert land som UNICEF jobber i.

Utgiver d-portal: Det er for øyeblikket i BETA. Med denne portalen kan du utforske IATI-data.

Du kan søke i informasjonen knyttet til utviklingsaktiviteter, budsjetter osv. Du kan utforske denne informasjonen landsmessig.

Forlagets dataplattform: På denne plattformen kan du enkelt få tilgang til statistikk, diagrammer og beregninger på data som er tilgjengelige via IATI-registeret. Hvis du klikker på overskriftene, kan du også sortere mange av tabellene du ser på plattformen. Du vil også finne mange av datasettene på plattformene i maskinlesbart JSON-format.

13. Kaggle

Kaggle er flott fordi det fremmer bruken av forskjellige datasettpublikasjonsformater. Imidlertid er det bedre at det på det sterkeste anbefaler at datasettutgivere deler dataene sine i et tilgjengelig, ikke-proprietært format.

Plattformen støtter åpne og tilgjengelige dataformater. Det er viktig ikke bare for tilgang, men også for hva du vil gjøre med disse dataene. Derfor definerer Kaggle datasett tydelig filformatene som anbefales når du deler data.

Det unike med Kaggle datasett er at det ikke bare er et datalager. Hvert datasett står for et fellesskap som lar deg diskutere data, finne ut offentlige koder og teknikker og konseptualisere dine egne prosjekter i kjerner.

CSV, JSON, SQLite, Archive, Big Query etc. er filtyper som Kaggle støtter. Du kan finne en rekke ressurser for å begynne å jobbe med prosjektet med åpne data.

Det beste er at Kaggle lar deg publisere og dele datasett privat eller offentlig.

14. LODUM

Det er Open Data-initiativet fra Universitetet i Münster. Under dette initiativet er det mulig for alle å få tilgang til offentlig informasjon om universitetet i maskinlesbare formater. Du kan enkelt få tilgang til og bruke den i henhold til dine behov.

Åpne data om vitenskapelige gjenstander og kodet som koblede data blir gjort tilgjengelig under dette prosjektet.

Ved hjelp av koblede data er det mulig å dele og bruke data, ontologier og ulike metadatastandarder. Det er faktisk tenkt at det vil være den aksepterte standarden for å levere metadata, og selve dataene på nettet.

LODUM-teamet har samarbeidet med LinkedUniversities.org og LinkedScience.org.

Du kan bruke SPARQL-editor eller SPARQL-pakke med R til å analysere data.

SPARQL-pakke gjør det mulig å koble til et SPARQL-endepunkt over HTTP, stille et SELECT-spørsmål eller et oppdateringsspørsmål (LOAD, INSERT, DELETE).

15. UCI Machine Learning Repository

Det fungerer som et omfattende lager av databaser, domeneteorier og datageneratorer som brukes av maskinlæringssamfunnet for empirisk analyse av maskinlæringsalgoritmer.

I dette depotet er det for tiden 463 datasett som en tjeneste for maskinlæringssamfunnet.

Center for Machine Learning and Intelligent Systems ved University of California, Irvine, er vert for og vedlikeholder det. David Aha hadde opprinnelig opprettet det som en kandidatstudent ved UC Irvine.

Siden den gang har studenter, lærere og forskere over hele verden brukt det som en pålitelig kilde til datasett for maskinlæring.

Hvordan det fungerer er at hvert datasett har sin distinkte webside som viser alle kjente detaljer, inkludert relevante publikasjoner som undersøker det. Du kan laste ned disse datasettene som ASCII-filer, ofte det nyttige CSV-formatet.

Detaljene i datasett er oppsummert av aspekter som attributtyper, antall forekomster, antall attributter og utgitt år som kan sorteres og søkes.

Åpne dataportaler og søkemotorer:

Selv om det er mange datasett som hvert år publiseres av mange byråer, blir svært få datasett anerkjent og etablert.

Årsaken til at svært få slike datasett opprettholder som nyttig ressurs, er at det er en utfordring å utvikle, administrere og levere dataene på en måte som mennesker og organisasjoner synes det er nyttig og enkelt å bruke.

Imidlertid finner du nedenfor en liste over andre få viktige åpne dataportaler og plattformer som tillater brukere å få tilgang til åpne data ganske enkelt, studere virkningen og få verdifull innsikt.

  1. Google datasett
  2. Datavers
  3. Åpne datasett
  4. Ckan
  5. Åpne datamonitor
  6. Plenar.io
  7. Åpne dataeffektkart

Konklusjon

Åpne data er dagens orden. Verden har gradvis begynt å bevege seg mot åpne systemer, og åpne data er riktig synkronisert med det.

Virksomheten og organisasjonene som utnytter åpne data vil få et konkurransefortrinn og være i stand til å dominere fremtiden.