Infos für Webmaster

So geht das

Der ExpertRank Algorithmus von Ask liefert relevante Suchergebnisse, indem Sites mit der größten Autorität auf dem Web identifiziert werden. Bei der Ask Suchtechnologie geht es nicht nur darum, wer der Größte ist, sondern wer der Beste ist. Unser ExpertRank Algorithmus geht über die reine Link-Popularität hinaus (wobei die Reihenfolge der Seiten rein auf der Menge der Links, die auf eine bestimmte Seite verweisen basiert), um die Popularität unter den Seiten, die als Experten unter den Suchthemen gelten, festzustellen. Dies ist als themenspezifische Popularität bekannt. Die Identifizierung von Themen (auch als "Cluster" bekannt), den Experten für diese Themen und der Popularität von Millionen von Seiten unter diesen Themen - zu genau dem Zeitpunkt, zu dem Sie Ihre Suche durchführen - erfordert viele zusätzliche Kalkulationen, die andere Suchmaschinen nicht durchführen. Das Ergebnis ist eine Relevanz von Weltklasse, die im Vergleich zu anderen Suchmaschinen oftmals einen einzigartigen redaktionellen Touch hat.

Die Ask Web Crawler FAQ

Der Ask Web Crawler ist unser Roboter, der das Web katalogisiert (oder Crawler/Spider). Der Crawler sammelt Dokumente vom Web und erstellt den sich ständig erweiternden Katalog für unsere hochentwickelte Suchfunktionalität bei Ask.com und anderen Websites, welche die Suchtechnologie von Ask lizensiert haben.

Ask unterscheidet sich auf einzigartige Weise von anderen Suchtechnologien, indem das Web so analysiert wird, wie es tatsächlich existiert - in themenspezifischen Gruppen. Der Vorgang beginnt mit dem Erstellen eines verständlichen und hochwertigen Katalogs. Das Web-Crawling ist ein essentielles Tool für diesen Ansatz und stellt sicher, dass wir die allerneuesten Suchergebnisse haben.

Auf dieser Seite finden Sie die Antworten zu den am häufigsten gestellten Fragen darüber, wie der Crawler funktioniert.

Häufig gestellte Fragen (FAQ)

1. Was ist ein Web Crawler/Web Spider?

2. Warum werden Web Crawler von Ask verwendet?

3. Wie funktioniert der Crawler?

4. Wie oft werden Seiten meiner Site von dem Crawler katalogisiert?

5. Kann ich verhindern, dass die Suchmaschine von Ask eine zwischengespeicherte Kopie meiner Seite anzeigt?

6. Wird der Robot Exclusion Standard von Ask eingehalten?

7. Kann ich den Crawler davon abhalten, alle oder Teile meiner Site/URL zu katalogisieren?

8. Wo lege ich meine robots.txt Datei ab?

9. Wie kann ich feststellen, ob der Crawler meine Site/URL besucht hat?

10. Wie kann ich verhindern, dass der Crawler meine Seite verzeichnet oder Links von einer bestimmten Seite verfolgt?

11. Warum lädt der Crawler dieselbe Seite mehrmals herunter?

12. Warum versucht der Crawler, fehlerhafte Links von meinem Server herunterzuladen? Oder von einem Server, der nicht existiert?

13. Wie hat der Crawler meine URL gefunden?

14. Welche Art von Links werden von dem Crawler verfolgt?

15. Werden dynamische URLs von dem Crawler berücksichtigt?

16. Warum ist der Crawler nicht auf meiner URL gewesen?

17. Unterstützt der Crawler HTTP-Kompression?

18. Wie registriere ich meine Site/URL, damit sie von Ask katalogisiert wird?

19. Warum erscheinen Seiten, die der Crawler verzeichnet hat, nicht in den
Suchergebnissen?


20. Kann ich die Anzahl der Spider-Abfragen auf meiner Site kontrollieren?

21. Wie wird der Ask Crawler authentifiziert?

22. Werden Sitemaps von Ask.com unterstützt?

23. Wie füge ich die Suche von Ask.com meiner Website hinzu?

24. Wie kann ich zusätzliche Informationen erhalten?



F: Was ist ein Web Crawler/Web Spider?

A: Ein Web Crawler (oder Spider oder Robot) ist ein Softwareprogramm, das Hyperlinks über eine gesamte Website verfolgt und Seiten abfragt und verzeichnet, damit die Site für Suchzwecke dokumentiert werden kann. Die Crawler sind harmlos und verursachen keinen Schaden an der Site oder den Servern.


F: Warum werden Web Crawler von Ask verwendet?

A: Ask setzt Web Crawler ein, um Rohdaten und Informationen zu sammeln, die zum Aufbau unseres sich ständig erweiternden Suchverzeichnisses verwendet werden. Mit dem Crawling wird sichergestellt, dass die Informationen in unseren Ergebnissen so frisch und relevant wie möglich sind. Unsere Crawler sind gut gestaltet und werden professionell betrieben. Sie stellen einen unschätzbaren Service zur Verfügung, der den Maßstäben der Suchindustrie entspricht.


F: Wie funktioniert der Crawler?

  • Der Crawler geht zu einer Web-Adresse (URL) und lädt die HTML-Seite herunter.

  • Der Crawler verfolgt Hyperlinks von der Seite, die URLs auf derselben Site oder auf anderen Sites sind.

  • Der Crawler fügt seinen URL-Listen neue URLs hinzu. Er wiederholt diesen Vorgang fortlaufend und findet dabei neue URLs, verfolgt Links und lädt sie herunter.

  • Der Crawler schließt manche URLs aus, wenn er genügend URLs von der Website heruntergeladen hat oder wenn die URL offensichtlich ein Duplikat einer anderen URL ist, die bereits heruntergeladen wurde.

  • Die Dateien von bearbeiteten URLs werden dann in den Suchkatalog eingebaut. Wenn eine relevante Übereinstimmung erzielt wurde, werden diese URLs als Teil von Suchergebnissen auf der von der Ask Technologie betriebenen Site angezeigt.


F: Wie oft werden Seiten meiner Site von dem Crawler katalogisiert?

A: Der Crawler lädt nur jeweils eine Seite von Ihrer Site herunter (spezifisch von Ihrer IP-Adresse). Nachdem eine Seite aufgenommen wurde, pausiert er für eine kurze Zeit, bevor die nächste Seite heruntergeladen wird. Diese Verzögerung kann von 0,1 Sekunden bis zu mehreren Stunden dauern. Je schneller die Site auf den Crawler anspricht, desto kürzer die Verzögerung.

F. Kann ich verhindern, dass die Suchmaschine von Ask eine zwischengespeicherte Kopie meiner Seite anzeigt?

A: Ja. Wir befolgen das "noarchive" Meta-Tag. Wenn Sie folgenden Befehl auf der HTML-Seite eingeben, stellen wir dem Anwender keine archivierte Kopie des Dokuments zur Verfügung.
< META NAME = "ROBOTS" CONTENT = "NOARCHIVE" >

Wenn Sie diese Einschränkungen nur für Ask festlegen möchten, können Sie "Teoma" anstelle von "Robots" einsetzen.

F: Wird der Robot Exclusion Standard von Ask eingehalten?

A: Ja, wir befolgen den Robots Exclusion Standard (RES) von 1994, der Teil des Robot Exclusion Protocol ist. Das Robots Exclusion Protocol ist eine Methode, mit der Website-Administratoren angeben können, welche Teile ihrer Site nicht von Robots besucht werden dürfen. Wenn Sie weitere Informationen über RES und das Robot Exclusion Protocol erhalten möchten, gehen Sie bitte zu http://www.robotstxt.org/wc/exclusion.html.

F: Kann ich den Crawler davon abhalten, alle oder Teile meiner Site/URL zu katalogisieren?

A: Ja. Der Crawler respektiert und befolgt Befehle, die ihn "bitten", die gesamte oder Teile einer bestimmten URL nicht zu katalogisieren. Wenn Sie festlegen möchten, dass der Crawler nur solche Seiten besucht, deren Pfad mit /public beginnt, geben Sie folgende Zeilen ein:

# Nur spezifische Verzeichnisse zulassen
User-agent: Teoma
Disallow: /
Allow: /public


F: Wo lege ich meine robots.txt Datei ab?

A: Die Datei muss auf der obersten Eben der Website abgelegt werden. Wenn beispielsweise www.mysite.com der Name der Website ist, dann muss sich die robots.txt Datei auf http://www.mysite.com/robots.txt befinden.

F: Wie kann ich feststellen, ob der Crawler meine Site/URL besucht hat?

A: Überprüfen Sie die Server-Logs, um festzustellen, ob der Crawler Ihre Site besucht hat. Suchen Sie insbesondere nach dem folgenden User-Agent-String:

User-Agent: Mozilla/2.0 (kompatibel; Ask Jeeves/Teoma)


F: Wie kann ich verhindern, dass der Crawler meine Seite verzeichnet oder Links von einer bestimmten Seite verfolgt?

A: Wenn Sie folgenden Befehl in den <HEAD> Abschnitt der HTML-Seite eingeben, wird der Crawler das Dokument nicht katalogisieren und es wird daher nicht in unseren Suchergebnissen erscheinen.

< META NAME = "ROBOTS" CONTENT = "NOINDEX" >

Folgende Befehle sagen dem Crawler, dass er ein Dokument verzeichnen soll, aber keinem seiner Hyperlinks folgen soll:

< META NAME = "ROBOTS" CONTENT = "NOFOLLOW" >

Sie können die Anweisungen durch folgende Zeilen AUSSCHALTEN:

< META NAME = "ROBOTS" CONTENT = "NONE" >

Wenn Sie an weiteren Informationen interessiert sind, gehen Sie bitte zu http://www.robotstxt.org/wc/exclusion.html#meta.



F: Warum lädt der Crawler dieselbe Seite mehrmals herunter?

A: Normalerweise sollte der Crawler während jeweils einem Crawl-Vorgang nur eine Kopie von jeder Datei Ihrer Site herunterladen. Es gibt zwei Ausnahmen:

  • Eine URL kann Befehle enthalten, die den Crawler auf eine andere URL "umleiten". Dazu können Sie folgenden HTML-Befehl eingeben:

    < META HTTP-EQUIV="REFRESH"
    CONTENT="0; URL=http://www.your page address here.html" >

    oder mit den HTTP Status Codes 301 oder 302. In diesem Fall lädt der Crawler die zweite Seite anstelle der ersten herunter. Wenn viele URLs auf dieselbe Seite umleiten, kann diese zweite Seite mehrmals heruntergeladen werden, bevor der Crawler feststellt, dass alle diese Seiten Duplikate sind.

  • Eine HTML-Seite kann ein "Frameset" sein. Eine solche Seite wird aus verschiedenen Komponentenseiten gebildet, die "Frames" genannt werden. Wenn viele Frameset-Seiten dieselbe Frame-Seite als Komponente enthalten, kann die Komponenten-Seite mehrmals heruntergeladen werden, bevor der Crawler feststellt, dass es dieselbe Komponente ist.



F: Warum versucht der Crawler, fehlerhafte Links von meinem Server herunterzuladen? Oder von einem Server, der nicht existiert?

A: Es gehört zu den Eigenschaften des Web, dass Links jederzeit gebrochen oder überholt sein können. Wann immer eine Webseite einen gebrochenen oder überholten Link zu Ihrer Site enthält oder zu einer Site, die noch nie exisitert hat oder nicht länger exisitert, besucht Ask diesen Link, um die Webseite, auf die verwiesen wird, zu finden. Das kann dazu führen, dass der Crawler nach URLs sucht, die nicht länger existieren oder die nie existiert haben oder dass er nach HTTP von IP-Adressen sucht, die keinen Webserver mehr haben oder nie einen hatten. Der Crawler generiert nicht wahllos Adressen, sondern er verfolgt Links. Deshalb sehen Sie möglicherweise Aktivitäten auf einer Maschine, die kein Webserver ist.


F: Wie hat der Crawler meine URL gefunden?

A: Der Crawler findet Seiten, indem er Links (HREF Tags in HTML) von anderen Seiten verfolgt. Wenn der Crawler eine Seite findet, die Frames enthält (wenn es z.B. ein Frameset ist), lädt er die Komponenten-Frames herunter und schließt ihren Inhalt als Teil der Originalseite ein. Der Crawler verzeichnet nicht die URLs selbst als Komponenten-Frames, es sei denn, sie sind über HREF von anderen Seiten verlinkt.

F: Welche Art von Links werden von dem Crawler verfolgt ?

A: Der Crawler verfolgt HREF-Links, SRC-Links und Umleitungen.



F: Werden dynamische URLs von dem Crawler berücksichtigt?

A. Wir nehmen eine ausgewählte Anzahl dynamischer URLs in unseren Katalog auf. Sie werden allerdings vor dem Download auf mögliche Duplikate hin untersucht.

F: Warum ist der Crawler nicht auf meiner URL gewesen?

A: Wenn der Crawler nicht auf Ihrer URL gewesen ist, so liegt das daran, dass wir keinen Link zu dieser URL von anderen Seiten (URLs) entdeckt haben.

F: Unterstützt der Crawler HTTP-Kompression?

A: Ja, selbstverständlich. Sowohl HTTP-Klient als auch Server müssen die HTTP-Kompression unterstützen, damit dieses Feature funktioniert. Wenn dieses Feature unterstützt wird, können Webserver komprimierte Dokumente (komprimiert mit gzip oder anderen Formaten) anstelle der eigentlichen Dokumente senden. Dies führt zu signifikanten Einsparungen an Bandbreite sowohl für den Server als auch für den Klienten. Es gibt einen kleinen CPU Overhead sowohl beim Server als auch beim Klienten für das Encoding/Decoding, aber es lohnt sich. Mit einer populären Kompressionsmethode wie etwa gzip kann die Dateigröße ganz einfach um etwa 75% reduziert werden.

F: Wie registriere ich meine Site/URL, damit sie von Ask katalogisiert wird?

A: Wir freuen uns, dass Sie Ihre Site innerhalb der Ask Suchmaschine auflisten möchten. Am besten befolgen Sie das open-format Sitemaps protocol, das von Ask.com unterstützt wird. Sobald Sie eine Sitemap für Ihre Site eingerichtet haben, fügen Sie das Sitemap auto-discovery Directive der robots.txt-Datei hinzu. Sie können uns die Datei auch direkt über die Ping URL zusenden. (Weitere Informationen über diesen Vorgang finden Sie unter Werden Sitemaps von Ask.com unterstützt?) Bitte beachten Sie, dass das Einreichen einer Sitemap nicht garantiert, dass URLs verzeichnet werden.

Wenn Sie Sie Ihre eigene Website erstellen und Sie Ihren Webserver einrichten, können Sie die Art und Weise, wie Suchmaschinen den Inhalt Ihrer Seiten ansehen, optimieren. Basierend auf den verschiedenen Typen von Suchbegriffen können Sie außerdem beeinflussen, wie diese von Suchmaschinen verzeichnet und getrigggert werden. Eine Vielzahl von online Ressourcen bieten dazu nützliche Tipps und Informationen.

F: Warum erscheinen Seiten, die der Crawler verzeichnet hat, nicht in den Suchergebnissen?

A: Es besteht kein Grund zur Beunruhigung, wenn Sie Ihre Seiten nicht in dem Katalog unserer Suchergebnisse sehen. Da wir bei der Qualität unseres Katalogs so gründlich vorgehen, dauert es eine Weile, bis wir die Ergebnisse eines Crawls analysiert haben und dann die Ergebnisse zur Einbeziehung in unsere Datenbank verarbeitet haben. Ask bezieht nicht unbedingt jede Site, die auf dem Crawl besucht wurde, in seinen Katalog ein.

F: Kann ich die Anzahl der Spider-Abfragen auf meiner Site kontrollieren?

A: Ja. Wir unterstützen die "Crawl-Delay" robots.txt-Direktive. Unter Verwendung dieser Direktive können Sie die kleinste Verzögerung zwischen zwei aufeinanderfolgenden Anfragen von unserem Spider zu Ihrer Site festlegen.

F. Wie wird der Ask Crawler authentifiziert?
A: Ein User-Agent ist keine Authentizitätsgarantie, da es verhältnismäßig banal ist, die Eigenschaften des Ask Crawlers für bösartige Zwecke zu imitieren. Für den Nachweis der Authentizität des Ask Crawlers wird ein Round Trip DNS-Lookup benötigt. Dazu muss zuerst die IP-Adresse des Ask Crawlers festgestellt und dann ein Reverse DNS-Lookup durchgeführt werden, um zu gewährleisten, dass es sich um die IP-Adresse der Ask.com Domäne handelt. Danach wird ein Forward DNS-Lookup mit dem Names des Hosts durchgeführt, um zu gewährleisten, dass die entstehende IP-Adresse mit dem Original übereinstimmt.


F: Werden Sitemaps von Ask.com unterstützt?
A: Ja, Sitemaps-Protokolle in Open Format werden von Ask.com unterstützt. Wenn Sie die Sitemap vorbereitet haben, fügen Sie die Sitemap auto-discovery Direktive der robots.txt Datei wie folgt hinzu:

SITEMAP: http://www.die URL Ihrer Sitemap hier.xml

Die Speicherstelle der Sitemap muss die vollständige Sitemap-URL enthalten. Alternativ dazu kann die Sitemap auch über die Ping URL eingereicht werden:

http://submissions.ask.com/ping?sitemap=http%3A//www.die URL Ihrer Sitemap hier.xml

Bitte beachten Sie, dass das Einreichen von Sitemaps keine Garantie dafür ist, dass URLs in das Verzeichnis aufgenommen werden. Wenn Sie mehr über das Protokoll erfahren möchten, gehen Sie bitte zur Sitemaps Website unter http://www.sitemaps.org.

F: Wie füge ich die Suche von Ask.com meiner Website hinzu?

A: Ganz einfach! Wenn Sie den Quell-Code für die Ask.com-Suche auf Ihrer Website einfügen möchten, klicken Sie einfach hier.

Welche Zeichenkodierung muss ich verwenden?

Ask.com geht davon aus, dass für die Suchbegriffe, die bei uns eingehen, UTF-8 Kodierung verwendet wurde. Sollte dies nicht der Fall sein, kann die Kodierung, die für eine Site verwendet wird, in dem versteckten Formularfeld "qenc" im oben erwähnten Quell-Code bestimmt werden. Fügen Sie einfach diese Zeile dem Quell-Code hinzu:

<input type="hidden" name="qenc" value="Zeichenkodierung"/>

Die Liste mit unterstützten Zeichenkodierungen finden Sie weiter unten.

Es ist wichtig, dass Sie uns die von Ihnen verwendete Zeichenkodierung mitteilen, damit wir die Suchanfrage richtig auswerten können. Dies ist besonders dann wichtig, wenn ein akzentuierter Buchstabe oder ein nicht-lateinischer Buchstabensatz verwendet wurde. Wenn die Kodierung nicht korrekt angegeben wird, erscheinen in den Suchbegriffen entweder fehlende oder sogar falsche Buchstaben (normalerweise ein Fragezeichen). In jedem Fall führt dies zu einer schlechten Sucherfahrung für den Benutzer.

Folgende Buchstabenkodierungen werden derzeit von dem "qenc"-Parameter unterstützt:

  • utf-8
  • iso-8859-1
  • shift_jis
  • euc-jp
Wie kann ich die Kodierung meiner Website ermitteln?

Die von der Website verwendete Kodierung wird höchstwahrscheinlich in einem META-Tag in Ihrer eigenen Quelle spezifiziert. Gehen Sie zu der Quelle der Seite, der ein Ask.com-Suchkästchen hinzugefügt werden soll und suchen Sie nach folgendem Text: <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">. Das Charset bestimmt die von der Site verwendete Buchstabenkodierung. In diesem Beispiel ist dem Charset zu entnehmen, dass die Seite in ISO-8859-1 (oder Latin-1) kodiert ist. Deshalb sollte das Beispiel des HTML-Kodes in dem Formular oben aktualisert werden. Dazu wird der Wert des ausgeblendeten Formularfelds "qenc" zu "iso-8859-1" gesetzt.

Was passiert, wenn meine Seitenkodierung nicht in der Liste der unterstützten Kodierungen enthalten ist?

Wenn von einer Website eine andere Kodierung verwendet wird und Sie dennoch ein Ask.com-Suchkästchen einsetzen möchten, gehen Sie bitte zu unserem Impressum, wählen Sie die Kontakt-E-Mail-Adresse aus und geben Sie uns folgende Informationen:

  • Die URL der Seite, auf die das Ask.com-Suchkästchen eingesetzt werden soll
  • Die Kodierung, die von Ask.com unterstützt werden soll

Wir werden uns bemühen, die gewünschte Kodierung zu unterstützen und setzen uns mit Ihnen in Verbindung, sobald die Unterstützung für den Verkehr auf Ihrer Site eingerichtet ist.


F: Wie kann ich zusätzliche Informationen erhalten?

A: Bitte gehen Sie zu unserem Impressum und treten Sie über die dort angegebene Kontakt-E-Mail-Adresse mit unserem Kundendienst in Verbindung.

Bitte beachten Sie, dass wir E-Mails bezüglich Aktualisierungen Ihrer Site/URL oder Anfragen auf Aufnahme in unseren Katalog nicht berücksichtigen können.
© 2013 Ask.com