
Michael Cain
0
3636
823
Hvis du kører et websted 10 måder at oprette et lille og simpelt websted uden overdreven 10 måder at oprette et lille og enkelt websted uden overdreven WordPress kan være en overkill. Som disse andre fremragende tjenester beviser, er WordPress ikke alt sammen og afslutter oprettelsen af websteder. Hvis du vil have enklere løsninger, er der en række at vælge imellem. , har du sandsynligvis hørt om en robots.txt-fil (eller “standarder for ekskludering af robotter”). Uanset om du har det eller ikke, er det tid til at lære det, fordi denne enkle tekstfil er en vigtig del af dit websted. Det kan virke ubetydeligt, men du kan blive overrasket over, hvor vigtigt det er.
Lad os se på, hvad en robots.txt-fil er, hvad den gør, og hvordan du korrekt indstiller den til dit websted.
Hvad er en robots.txt-fil?
For at forstå, hvordan en robots.txt-fil fungerer, skal du vide lidt om søgemaskiner. Hvordan fungerer søgemaskiner? Hvordan fungerer søgemaskiner? For mange mennesker er Google internettet. Det er uden tvivl den vigtigste opfindelse siden Internettet i sig selv. Og selvom søgemaskinerne har ændret sig meget siden, er de underliggende principper stadig de samme. . Den korte version er, at de sender ud “crawlere,” der er programmer, der søger internettet for information. De gemmer derefter nogle af disse oplysninger, så de kan henvise folk til dem senere.
Disse gennemsøgere, også kendt som “bots” eller “edderkopper,” find sider fra milliarder af websteder. Søgemaskiner giver dem retninger om, hvor de skal hen, men individuelle websteder kan også kommunikere med botterne og fortælle dem, hvilke sider de skal se på.
Det meste af tiden gør de faktisk det modsatte og fortæller dem, hvilke sider de har bør ikke se på. Ting som administrative sider, backend-portaler, kategori- og tag-sider og andre ting, som webstedsejere ikke ønsker skal vises på søgemaskiner. Disse sider er stadig synlige for brugere, og de er tilgængelige for alle, der har tilladelse (hvilket ofte er alle).
Men ved at fortælle disse edderkopper om ikke at indeksere nogle sider, gør robots.txt-filen alle en fordel. Hvis du søgte efter “Gøre brug af” på en søgemaskine, vil du have, at vores administrative sider vises højt i placeringerne? Nej. Det ville ikke gøre nogen godt, så vi beder søgemaskiner om ikke at vise dem. Det kan også bruges til at forhindre søgemaskiner i at tjekke sider, der muligvis ikke hjælper dem med at klassificere dit websted i søgeresultater.
Kort sagt, robots.txt fortæller webcrawlere, hvad de skal gøre.
Kan gennemsøgere ignorere robots.txt?
Ignorerer crawler nogensinde robots.txt-filer? Ja. Faktisk mange crawlere gøre ignorer det. Generelt er disse crawler imidlertid ikke fra hæderlige søgemaskiner. De kommer fra spammere, e-mail-høstere og andre typer automatiserede bots, der strejfer rundt på internettet. Det er vigtigt at huske på dette - at bruge robot ekskluderingsstandarden til at fortælle bots om at holde ude er ikke en effektiv sikkerhedsforanstaltning. Faktisk kan nogle bots muligvis Start med de sider, du beder dem om ikke at gå til.
Søgemaskiner gør imidlertid, som din robots.txt-fil siger, så længe den er formateret korrekt.
Sådan skrives en robots.txt-fil
Der er et par forskellige dele, der går ind i en standardfil for en robotudelukkelse. Jeg nedbryder dem hver for sig her.
Brugeragent-erklæring
Før du fortæller en bot, hvilke sider den ikke skal se på, skal du angive, hvilken bot du taler med. Det meste af tiden bruger du en simpel erklæring, der betyder “alle bots.” Det ser sådan ud:
Bruger-agent: *
Stjernen står ind for “alle bots.” Du kan dog specificere sider for bestemte bots. For at gøre det, skal du kende navnet på den bot, du lægger retningslinjer for. Det kan se sådan ud:
Bruger-agent: Googlebot [liste over sider, der ikke skal gennemgå] Bruger-agent: Googlebot-Image / 1.0 [liste over sider, der ikke skal gennemgå] Bruger-agent: Bingbot [liste over sider, der ikke skal gennemgå]
Og så videre. Hvis du opdager en bot, som du overhovedet ikke ønsker at gennemgå dit websted, kan du også specificere det.
For at finde navnene på brugeragenter, tjek useragentstring.com [No Longer Available].
Afvisning af sider
Dette er hoveddelen af din robot-ekskluderingsfil. Med en simpel erklæring beder du en bot eller en gruppe af bots om ikke at gennemgå bestemte sider. Syntaks er let. Her er, hvordan du afviser adgang til alt i “admin” bibliotek for dit websted:
Afvis: / admin /
Denne linje forhindrer bots i at gennemgå yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html og alt andet, der falder ind under admin-biblioteket.
For at afvise en enkelt side skal du bare angive den på disallow-linjen:
Afvis: /public/exception.html
Nu “undtagelse” siden bliver ikke trukket, men alt andet i “offentlig” mappen vil.
Hvis du vil inkludere flere mapper eller sider, skal du bare liste dem på de følgende linjer:
Disallow: / private / Disallow: / admin / Disallow: / cgi-bin / Disallow: / temp /
Disse fire linjer gælder for hvilken brugeragent du har angivet øverst i sektionen.
Hvis du vil forhindre bots i at se på en side på dit websted, skal du bruge dette:
Afvis: /
Indstilling af forskellige standarder for bots
Som vi så ovenfor, kan du specificere bestemte sider for forskellige bots. Ved at kombinere de to foregående elementer er det sådan, der ser ud:
Bruger-agent: googlebot Disallow: / admin / Disallow: / private / User-agent: bingbot Disallow: / admin / Disallow: / private / Disallow: / secret /
Det “admin” og “privat” sektioner vil være usynlige på Google og Bing, men Google vil se “hemmelighed” mens Bing ikke gør det.
Du kan specificere generelle regler for alle bots ved hjælp af stjerne-brugeragenten og derefter give specifikke instruktioner til bots i de efterfølgende sektioner også.
Samler det hele
Med viden ovenfor kan du skrive en komplet robots.txt-fil. Bare fyr din favorit teksteditor (vi er fans af Sublime 11 Sublime Text Tips til produktivitet og en hurtigere arbejdsgang 11 Sublime Text Tips til produktivitet og en hurtigere Workflow Sublime Text er en alsidig teksteditor og en guldstandard for mange programmerere. Vores tip fokuserer på effektiv kodning, men generelle brugere vil sætte pris på tastaturgenveje. Her omkring) og begynde at fortælle bots, at de ikke er velkomne i visse dele af dit websted.
Hvis du gerne vil se et eksempel på en robots.txt-fil, skal du bare gå til ethvert sted og tilføje “/robots.txt” til slutningen. Her er en del af filen Giant Bicycles robots.txt:
Som du kan se, er der en hel del sider, som de ikke ønsker at vises på søgemaskiner. De har også inkluderet et par ting, som vi ikke har talt om endnu. Lad os se på hvad du ellers kan gøre i din robot-ekskluderingsfil.
Find dit sitemap
Hvis din robots.txt-fil fortæller bots hvor ikke at gå, dit sitemap gør det modsatte Sådan opretter du et XML-sitemap i 4 nemme trin Sådan opretter du et XML-sitemap i 4 nemme trin Der er to typer sitemaps - HTML-side eller en XML-fil. Et HTML-sitemap er en enkelt side, der viser besøgende alle sider på et websted og som regel har links til disse…, og hjælper dem med at finde, hvad de leder efter. Og selvom søgemaskiner sandsynligvis allerede ved, hvor dit sitemap er, skader det ikke at fortælle dem igen.
Erklæringen for en sitemap-placering er enkel:
Sitemap: [URL til sitemap]
Det er det.
I vores egen robots.txt-fil ser det sådan ud:
Sitemap: //www.makeuseof.com/sitemap_index.xml
Det er alt, hvad der er til det.
Indstilling af en gennemgangsforsinkelse
Direktivet om gennemsøgning af forsøg fortæller visse søgemaskiner, hvor ofte de kan indeksere en side på dit websted. Det måles i sekunder, selvom nogle søgemaskiner fortolker det lidt anderledes. Nogle ser en gennemsøgningsforsinkelse på 5 som at fortælle dem at vente fem sekunder efter hver gennemgang med at starte den næste. Andre fortolker det som en instruktion om kun at gennemgå en side hvert femte sekund.
Hvorfor vil du bede en crawler om ikke at gennemgå så meget som muligt? For at bevare båndbredde 4 måder Windows 10 spilder din internetbåndbredde 4 måder Windows 10 spilder din internetbåndbredde Spilder Windows 10 din internetbåndbredde? Her er, hvordan du kontrollerer, og hvad du kan gøre for at stoppe det. . Hvis din server kæmper for at følge med i trafikken, kan det være en god idé at indstille en gennemgangsforsinkelse. Generelt behøver de fleste ikke at bekymre sig om dette. Store højtrafikpladser vil dog muligvis gerne eksperimentere lidt.
Sådan indstiller du en gennemsøgningsforsinkelse på otte sekunder:
Gennemsøgningsforsinkelse: 8
Det er det. Ikke alle søgemaskiner overholder dit direktiv. Men det skader ikke at spørge. Som med ikke-tilladte sider, kan du indstille forskellige gennemsøgningsforsinkelser for specifikke søgemaskiner.
Upload af din robots.txt fil
Når du har konfigureret alle instruktionerne i din fil, kan du uploade dem til dit websted. Sørg for, at det er en almindelig tekstfil og har navnet robots.txt. Upload det derefter til dit websted, så det kan findes på yoursite.com/robots.txt.
Hvis du bruger et indholdsstyringssystem 10 mest populære indholdsstyringssystemer online 10 mest populære indholdsstyringssystemer online Dage med håndkodede HTML-sider og mestring af CSS er længe gået. Installer et indholdsstyringssystem (CMS), og inden for få minutter kan du have et websted til at dele med verden. ligesom WordPress, er der sandsynligvis en bestemt måde, du skal bruge til dette. Da det adskiller sig i hvert indholdsstyringssystem, skal du læse dokumentationen til dit system.
Nogle systemer kan også have online-grænseflader til upload af din fil. For disse skal du bare kopiere og indsætte den fil, du oprettede i de foregående trin.
Husk at opdatere din fil
Det sidste råd, jeg giver, er lejlighedsvis at se på din robot-ekskluderingsfil. Dit websted ændres, og du skal muligvis foretage nogle justeringer. Hvis du bemærker en mærkelig ændring i din søgemaskintrafik, er det en god ide at tjekke filen også. Det er også muligt, at standardnotationen kan ændre sig i fremtiden. Som alt andet på dit websted er det værd at tjekke det op en gang imellem.
Hvilke sider ekskluderer du crawler fra på dit websted? Har du bemærket nogen forskel i søgemaskintrafikken? Del dine råd og kommentarer nedenfor!