Hvordan jeg importerer UFO-data fra Internet til et Google-regneark

  • Brian Curtis
  • 0
  • 3862
  • 666
Reklame

Når det kommer til online databaser og information, der kan findes inde i det, der almindeligvis kaldes the “usynlig web De 12 bedste søgemaskiner til at udforske det usynlige web De 12 bedste søgemaskiner til at udforske det usynlige web Google eller Bing kan ikke søge efter alt. For at udforske det usynlige web skal du bruge disse specielle søgemaskiner. “, Jeg er ikke din typiske bruger. Jada, jeg bruger lidt for meget af min tid på at søge gennem online databaser på steder som Nationalarkivet og CIA FOIA-læseværelset, men jeg må ikke sige, at intet gør mig mere ophidset, end når jeg finder en HTML-baseret tabel fyldt med bind af tilsyneladende komplekse og uforbundne data.

Faktum er, datatabeller er en guldgruve af vigtige sandheder. Data indsamles ofte af hære af dataindsamlingsgummi med støvler på jorden. Du har folk fra den amerikanske folketælling, der rejser rundt i hele landet for information om husholdning og familie. Du har ikke-kommercielle miljøgrupper, der samler alle mulige interessante oplysninger om miljøet, forurening, global opvarmning og mere. Og hvis du går ind i den paranormale eller Ufology, er der også konstant opdaterede tabeller med information om observationer af mærkelige objekter på himlen over os.

Ironisk nok skulle du tro, at enhver regering i verden ville være interesseret i at vide, hvilken slags fremmed håndværk der bliver set i himlen over ethvert land, men tilsyneladende ikke - i det mindste ikke i USA alligevel. I Amerika er samlingen af ​​usædvanlige observationer af håndværk blevet henvist til hold af amatørhobbyister, der strømmer til nye UFO-observationer som møll til en flamme. Min interesse for disse observationer stammer faktisk ikke fra en fascination af udlændinge eller håndværk fra andre planeter, men fra en videnskabelig fascination af mønstre - hvor og hvorfor flere mennesker ser ting på himlen, og om disse synspunkter kunne afspejle noget meget reelt og meget mere jordnær faktisk foregår.

For at udforske mængderne af data indsamlet af teams med UFO-hobbyister har jeg faktisk udviklet en måde at importere store HTML-tabeller med data til et Google Spreadsheet og derefter manipulere og analysere disse data for at udtrække og opdage meningsfuld og vigtig information. I denne artikel har jeg til hensigt at vise dig, hvordan du gør det samme.

Vigtige HTML-data i Google-regnearket

I dette eksempel viser jeg dig, hvordan du importerer data, der muligvis er gemt i en tabel på ethvert websted på Internettet, til dit Google Spreadsheet. Tænk på den enorme mængde data, der er tilgængelig på Internettet i dag i form af HTML-tabeller. Wikipedia alene har data i tabeller for emner som global opvarmning, det amerikanske folketællingsbureau har masser af befolkningsdatasæt, og en lille smule Googling vil lande dig meget mere ud over det.

I mit eksempel starter jeg med en database på National UFO Reporting Center, der rent faktisk ser ud som om det kan være en deep-web-database med forespørgselstilstand, men hvis du ser URL-strukturen, er det faktisk en semikompleks web- baseret rapporteringssystem bestående af statiske websider og statiske HTML-tabeller - nøjagtigt hvad vi ønsker, når vi ser efter data, der skal importeres.

NUForc.org er en af ​​de organisationer, der fungerer som et af de største rapporteringscentre for UFO-observationer. Det er ikke den eneste, men det er stort nok til at finde nye datasæt med aktuelle observationer for hver måned. Du vælger at se dataene sorteret efter kriterier som stat eller dato, og hver af disse leveres i form af en statisk side. Hvis du sorterer efter dato og derefter klikker på den seneste dato, vil du se, at tabellen der er anført der er en statisk webside, der er navngivet i henhold til datoformatet.

Så vi har nu et mønster til regelmæssigt at udtrække de nyeste observationsoplysninger fra denne HTML-baserede database. Alt hvad du skal gøre er at importere den første tabel, bruge den seneste post (den øverste) til at identificere den seneste opdatering og derefter bruge datoen for denne bogføring til at oprette URL-linket, hvor den seneste HTML-datatabel findes. Det kræver blot et par tilfælde af ImportHTML-funktionen og derefter et par kreative anvendelser af tekstmanipulationsfunktioner. Når du er færdig, har du et af de fedeste, selvopdaterende rapporteringsspreadsheets af dit helt eget. Lad os komme igang.

Import af tabeller og manipulation af data

Det første trin er selvfølgelig at oprette det nye regneark.

Så hvordan importerer du HTML-tabeller? Alt hvad du behøver er den URL, hvor tabellen er gemt, og nummeret på tabellen på siden - normalt er den første, der er opført på 1, den anden er 2, og så videre. Da jeg kender URL'en til den første tabel, der viser datoer og tællinger af de nævnte observationer, er det muligt at importere ved at indtaste følgende funktion i celle A1.

= Importhtml (“http://www.nuforc.org/webreports/ndxpost.html?”& H2,”bord”,1)

H2 holder funktionen “= Time (nu ())“, så tabellen opdateres hver time. Dette er sandsynligvis ekstremt for data, der opdaterer dette sjældent, så jeg kunne sandsynligvis slippe af sted med at gøre det dagligt. Under alle omstændigheder bringer ovenstående ImportHTML-funktion tabellen som vist nedenfor.

Du bliver nødt til at lave en smule datamanipulation på denne side, før du kan dele URL'en til den anden tabel sammen med alle UFO-observationer. Men fortsæt med at oprette det andet ark i projektmappen.

Før du prøver at bygge det andet ark, er det tid til at udtrække postdatoen fra denne første tabel for at oprette linket til den anden tabel. Problemet er, at datoen indføres som et datoformat, ikke som en streng. Så skal du først bruge TEXT-funktionen til at konvertere rapportpostdatoen til en streng:

= Tekst (A2,”mm / dd / åå”)

I den næste celle til højre skal du bruge SPLIT-funktionen med “/” afgrænser for at opdele datoen i måned, dag og år.

= Split (D2,”/”)

Ser godt ud! Dog skal hvert nummer tvinges til to cifre. Dette gør du i cellerne lige under dem ved hjælp af kommandoen TEXT igen.

= Tekst (E2,”00" )

Et format på “00” (det er nuller) tvinger to cifre eller a “0” som pladsholder.

Nu er du klar til at genopbygge hele URL'en til den nyeste HTML-tabel med nye observationer. Du kan gøre dette ved at bruge CONCATENATE-funktionen og sammensætte alle de informationsbits, du lige har uddraget fra den første tabel.

= CONCATENATE (“http://www.nuforc.org/webreports/ndxp”,G3, E3, F3,”.html”)

Nu på det nye ark, du oprettede ovenfor (det blanke ark), skal du lave et nyt “importhtml” funktion, men denne gang for den første URL-linkparameter, så du kommer til at navigere tilbage til det første regneark og klikke på cellen med det URL-link, du lige har oprettet.

Den anden parameter er “bord” og den sidste er “1” (fordi synstabellen er den første og eneste på siden). Klik på enter, og nu har du lige importeret hele mængden af ​​observationer, der blev lagt ud på den bestemte dato.

Så tænker du sandsynligvis, at dette er en dejlig nyhedshandling og alt - jeg mener, at alt, hvad du har gjort, udtrækkes eksisterende oplysninger fra et bord på Internettet og migreret det til et andet bord, omend et privat i din Google Dokumenter-konto. Ja det er sandt. Men nu, hvor det er på din egen private Google Docs-konto, har du lige ved hånden værktøjer og funktioner til bedre at analysere disse data og begynde at opdage fantastiske forbindelser.

Brug af Pivot-rapporter til analyse af importerede data

For nylig skrev jeg en artikel om brug af Pivot-rapporter i Google Regneark Bliv ekspertdataanalytiker natten over ved hjælp af Google Regnearkrapportværktøjer Bliv ekspertdataanalytiker natten over ved hjælp af Google Regnearkrapportværktøjer Vidste du, at et af de største værktøjer af alle til at udføre data analyse er faktisk Google Spreadsheet? Årsagen til dette er ikke kun fordi det kan gøre næsten alt det, du måske vil ... for at udføre alle mulige seje dataanalysefejer. Nå, du kan gøre det samme fantastiske dataanalyseakrobatik på de data, du har importeret fra Internettet - hvilket giver dig muligheden for at afdække interessante forbindelser, som muligvis ingen andre har afsløret før dig.

Fra den endelige observationstabel kan jeg for eksempel beslutte at bruge en pivotrapport til at se på antallet af forskellige unikke figurer, der er rapporteret i hver tilstand, sammenlignet med det samlede antal observationer i denne bestemte tilstand. Endelig filtrerer jeg også alt, der nævner “udlændinge” i kommentarfeltet for forhåbentlig at udslette nogle af de mere wingnut-poster.

Dette afslører faktisk nogle ret interessante ting lige fra flagermus, såsom det faktum, at Californien helt klart har det højeste antal rapporterede observationer af enhver anden stat sammen med sondringen mellem at rapportere det største antal håndværksformer i landet. Det viser også, at Massachusetts, Florida og Illinois også er store møder i UFO-observationsafdelingen (i det mindste i de seneste data).

En anden sej ting ved Google Spreadsheet er det brede udvalg af diagrammer, der er tilgængelige for dig, inklusive et Geo-Map, der giver dig mulighed for at lægge ud “hot spots” af data i et grafisk format, der virkelig skiller sig ud og gør disse forbindelser inden for dataene ganske åbenlyse.

Hvis du tænker over det, er dette virkelig kun toppen af ​​isbjerget. Hvis du nu kan importere data fra datatabeller på en hvilken som helst side på Internettet, skal du bare tænke på mulighederne. Få de seneste aktienumre eller de seneste top 10 bøger og forfattere på New York Times bestsellerliste eller verdens mest solgte biler. Der er HTML-tabeller derude om næsten ethvert emne, du kan forestille dig, og i mange tilfælde opdateres disse tabeller ofte.

ImportHtml giver dig mulighed for at tilslutte dit Google Spreadsheet til Internettet og fodre de data, der findes derude. Det kan blive din egen personlige hub af information, som du kan bruge til at manipulere og massere til et format, som du faktisk kan arbejde med. Det er bare en meget mere lækker ting at elske ved Google Spreadsheet.

Har du nogensinde importeret data til dine regneark? Hvilken slags interessante ting opdagede du i disse data? Hvordan brugte du dataene? Del dine oplevelser og ideer i kommentarfeltet nedenfor!

Billedkreditter: Forretningsgrafik




Endnu ingen kommentarer

Om moderne teknologi, enkel og overkommelig.
Din guide i en verden af moderne teknologi. Lær hvordan du bruger de teknologier og gadgets, der omgiver os hver dag, og lær, hvordan du finder interessante ting på Internettet.