Sitemapcrawler

Konsolenanwendung, die alle in der Sitemap.xml-Datei aufgeführten URLs einkacken
Jetzt downloaden

Sitemapcrawler Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • Freeware
  • Name des Herausgebers:
  • Summer Son
  • Website des Verlags:
  • http://www.codeproject.com/Members/Summer-son
  • Betriebssysteme:
  • Windows All
  • Dateigröße:
  • 47 KB

Sitemapcrawler Stichworte


Sitemapcrawler Beschreibung

Das SitemapCrawler-Programm wurde entwickelt, um eine Konsolenanwendung zu sein, die alle in Sitemap.xml-Datei aufgeführten URLs chacks ist. Sie haben jemals daran gedacht, dass Sie versuchen, jede in Ihrer Sitemap-Datei aufgeführte URL zu überprüfen? Ich habe eine Website mit dynamisch generierten Seitenlinks. Diese Links werden basierend auf einem Seitentitel erzeugt, der eine beliebige Kombination von Buchstaben, Zahlen und Symbolen sein kann. Natürlich entnimmt die Site alle verbotenen Zeichen aus dem Seitentitel, bevor er seine URL generiert, Tiere, Zierleisten und verkürzt es ein bisschen ... Es treten jedoch von Zeit zu Zeit noch Fehler auf. Zum Beispiel eine Seite mit einem Titel: '' '... is_broken' '' '' 'aufgrund meiner URL-Konvertierungs-Spezifikationen haben die folgende URL: /.is_broken+ Es gibt Tausende von Seiten, so dass ich nicht überprüfen kann Jede separate Seite, die die Site-Datenbank enthält Das enthält alle Site-Seiten. Jedes Mal, wenn eine Map-Datei generiert wird, muss ich sicherstellen, dass es keine wiederholenden Elemente gibt (dies kann passieren, wenn verschiedene Seiten gleiche Titel haben) und jede separate URL zugänglich ist, dh erzeugt keine schlechte Anfrage oder 404 oder ähnliches nicht Das habe ich ein C # -Programm erstellt, das durch jede in der Datei Sitemap.xml aufgeführte URL geht und versucht, darauf zuzugreifen. Es protokolliert, dass alle Fehler in einer Ausgabedatei aufgetreten sind, sodass Problemseiten einfach zu verfolgen ist WeBrequest- und WeBresponse-Klassen zur Bestimmung, ob eine URL existiert.


Sitemapcrawler Zugehörige Software