Parsero: Unterschied zwischen den Versionen
Zur Navigation springen
Zur Suche springen
| Zeile 3: | Zeile 3: | ||
*Disallow-Einträge sind die Links die nicht von Suchmaschinen wie z.B. Bing. Google, etc. indexiert werden dürfen. | *Disallow-Einträge sind die Links die nicht von Suchmaschinen wie z.B. Bing. Google, etc. indexiert werden dürfen. | ||
[[Datei:Bildschirmfoto von 2021-08-12 15-38-00.png]] | [[Datei:Bildschirmfoto von 2021-08-12 15-38-00.png]] | ||
| + | ==Robots.txt== | ||
| + | *Robots.txt ist dafür um die komplette Website, Verzeichnisse, Unterverzeichnisse oder einzelne Dateien für alle Webcrawler oder auch nur für bestimmte zu sperren. | ||
| + | *Sie ist das erste Dokument das ein Bot beim Crawlen der Website aufruft | ||
=Funktion= | =Funktion= | ||
Version vom 12. August 2021, 13:51 Uhr
Parsero Definition
- Mithilfe von Parsero wird die Robots.txt eines Web-Servers ausgelesen und die Disallow-Einträge angezeigt.
- Disallow-Einträge sind die Links die nicht von Suchmaschinen wie z.B. Bing. Google, etc. indexiert werden dürfen.
Robots.txt
- Robots.txt ist dafür um die komplette Website, Verzeichnisse, Unterverzeichnisse oder einzelne Dateien für alle Webcrawler oder auch nur für bestimmte zu sperren.
- Sie ist das erste Dokument das ein Bot beim Crawlen der Website aufruft
Funktion
- Mit dem Befehl parsero -u ''LINK'' wird die Robots.txt gelesen
- Beispiel:
parsero -u facebook.de
Befehle
- parsero -h - Für Hilfe
- parsero -u URL
- parsero -u URL -o - gibt nur HTTP 200 status code anFetter Text
- parsero -u URL -sb - Nur Disallow Einträge für Bing suchen
