Gør data videnskab i skyen med ScraperWiki

  • Lesley Fowler
  • 0
  • 4193
  • 1257
Reklame

Hvis du har mentale koteletter, en flair til programmering og historiefortælling og øje for design, kan du gøre det værre end at gå ind i datavidenskab. Det er den nye store ting inden for teknologi; meget trendy og højt betalt, hvor dataforskere søges af nogle af de største virksomheder i verden.

ScraperWiki er et firma, der længe har været forbundet med datavidenskabsfeltet. I de sidste par år har denne Liverpool-baserede opstart tilbudt en platform for kodere til at skrive værktøjer, der får data, rense dem og analysere dem i skyen.

Med en fornyelse for nylig og den stadigt stigende efterspørgsel efter datavidenskabsmænd i virksomheden er det værd at se godt på ScraperWiki.

Fuld offentliggørelse: Jeg var praktikant hos ScraperWiki sidste sommer.

Hvad gør ScraperWiki?

ScraperWiki markedsfører sig selv som et sted at få, rense og analysere data, og det leverer på hver af disse tællinger. I sin enkleste form giver det dig - brugeren - et sted, hvor du kan skrive kode, der henter data fra en kilde, værktøjer til at konvertere dem til et format, der er let at analysere, og opbevaring for at bevare det til senere visualisering - som du kan også håndtere med ScraperWiki.

Det leveres også med et antal forudbyggede værktøjer, der automatiserer gentagne opgaver, herunder at hente data fra PDF-filer, som er notorisk vanskelige at afkode. Dette er ud over at Twitter søger efter 5 coole Twitter-søgningstricks til at overvåge, hvad folk siger om dig 5 Cool Twitter-søgningstricks til at overvåge, hvad folk siger om dig, hvis du ejer et websted eller bare prøver at tjene penge online som freelancer, det er altid godt at vide, hvad folk siger om dig via Internettet. Folk citerer muligvis ... og skraber hjælpeprogrammer. Du behøver ikke nogen softwareudviklingserfaring for at bruge disse.

Koste

Som tidligere nævnt omfatter ScraperWiki freemium-prismodellen og tilbyder en service, der har flere niveauer. Dem, der lige er kommet i gang med datavidenskab eller med begrænsede behov, kan benytte sig af den gratis service. Dette giver dig tre datasæt - hvor du gemmer dine data og kode.

De, der planlægger at skrive flere skrabere eller ønsker at lave bjerge med dataanalyse, kan uddele nogle kontanter til en premiumkonto. Disse starter ved $ 9 per måned og tilbyder 10 datasæt. Hvis det stadig ikke er nok, kan du altid opgradere til deres højeste niveau, som leveres med 100 datasæt og koster $ 29 per måned.

Coding

Programmerere er ofte ret specielle, når det gælder hvordan de koder. Nogle foretrækker scripting-sprog frem for kompilerede sprog. Nogle foretrækker den pared-back oplevelse af en tekstredigerer frem for en integreret udviklingsmiljø (IDE). ScraperWiki genkender det og giver brugeren en enorm mængde valg, når det kommer til hvordan du skriver din kode.

Hvis du er så tilbøjelig, kan du skrive din kode i browseren. Som du kunne forvente af enhver professionel, webbaseret Top 3 browserbaserede IDE'er til kode i skyen Top 3 Browserbaserede IDE'er til kode i skyudviklingsværktøjet kommer dette med funktioner, som enhver programmør ville overveje at være essentiel, såsom syntaksbelysning.

Der er et antal sprog, der tilbydes. Disse inkluderer Python De 5 bedste websteder til at lære Python-programmering De 5 bedste websteder til at lære Python-programmering Vil du lære Python-programmering? Her er de bedste måder at lære Python online, hvoraf mange er helt gratis. , et populært scriptingsprog, der bruges af folk som Google og NASA; Ruby 3 interaktive, sjove, gratis måder at begynde at lære Ruby-programmeringssprog 3 Interaktive, sjove, gratis måder at begynde at lære Ruby-programmeringssprog Ruby er et udtryksfuldt, meget højt niveau, scriptingsprog på. Det bruges hovedsageligt på Internettet som en del af webudviklingsrammen Ruby on Rails, men også som enkeltstående. Hvis du er nysgerrig efter, hvad Ruby (ikke ..., der driver en række populære websteder som Living Social; og det populære statistiske analysesprog, R.

Derudover kan du også skrive kode fra kommandolinjen ved hjælp af SSH, Git og hvilken teksteditor du nyder at bruge. Ja, du læser det rigtigt. SSH Hvad SSH er & hvordan det er forskelligt fra FTP [Teknologi forklaret] Hvad SSH er & hvordan det er forskelligt fra FTP [Teknologi forklaret]. Hver boks, du bruger, er sin egen Linux-konto, og du er i stand til at oprette forbindelse til den, som du ville have en VPS eller enhver anden shell-konto. Der er et antal teksteditorer tilgængelige, herunder Vim The Top 7 Årsager til at give Vim Text Editor en chance De Top 7 Årsager til at give Vim Text Editor en chance I årevis har jeg prøvet den ene teksteditor efter den anden. Navn det, jeg prøvede det. Jeg brugte hver eneste af disse redaktører i over to måneder som min primære daglige redaktør. På en eller anden måde, jeg ... som kan udvides med plugins og ved at redigere konfigurationen. Dem, der er skræmt af Vim, kan bruge Nano, som er en let kommandolinjeteksteditor.

Bibliotekerne skal være tilstrækkelige til at skriveværktøjer kan hente data og til at behandle dem. Hvis du har brug for noget, der er lidt mere uklar, kan du altid oprette en virtualenv fra kommandolinjen. Som du kan se, er der en enorm mængde fleksibilitet, som udviklere yder.

Datavisualisering

Så du har dine data. Du har normaliseret det. Du har renset det. Du har analyseret det. Nu er det tid til at gøre noget visualisering og vise verden, hvad du har lært.

ScraperWiki giver udviklere mulighed for at vise deres data ved hjælp af websider, der er konstrueret ud fra den velkendte trifekta af HTML, CSS og JavaScript. Derudover understøttes Bootstrap-komponenter ud af boksen.

Der er en række foruddannede visualiseringer tilgængelige, herunder dem, der plotter dine data på et kort og finder tendenser inden for dine fund. For at bruge disse skal du sikre dig, at dine data gemmes som SQLite-fil med filnavnet 'scraperwiki.sqlite'. Derefter tilføjer du blot den visualisering, du er interesseret i. Enkelt, rigtigt?

Konklusion

ScraperWiki tilbyder meget til udviklere, der ønsker at foretage en vis dataanalyse, uden at deres udviklingsmiljø kommer i vejen, samtidig med at de har fleksibilitet til at glæde selv de mest krævende af brugere. Men hvad synes du? Fortæl mig det i kommentarerne herunder.
Fotokredit: Rocket Science (Dan Brown)




Endnu ingen kommentarer

Om moderne teknologi, enkel og overkommelig.
Din guide i en verden af moderne teknologi. Lær hvordan du bruger de teknologier og gadgets, der omgiver os hver dag, og lær, hvordan du finder interessante ting på Internettet.