Over Applebot

Lees hier meer over Applebot, de webcrawler voor Apple.

De gegevens die door Applebot worden gecrawld, liggen ten grondslag aan verschillende functies, zoals de zoektechnologie die is geïntegreerd in veel gebruikerservaringen in het ecosysteem van Apple, waaronder Spotlight, Siri en Safari. Door Applebot in te schakelen in robots.txt in deze producten, kan websitemateriaal in de zoekresultaten worden weergegeven voor Apple gebruikers over de hele wereld.

Applebot heeft toegang tot vele soorten informatiebronnen van webservers, met inbegrip van maar niet beperkt tot robots.txt, sitemaps, RSS-feeds, HTML, subbronnen die nodig zijn om pagina's zoals javascript, Ajax-verzoeken, afbeeldingen enzovoort weer te geven.

Applebot identificeren

Verkeer afkomstig van Applebot wordt over het algemeen geïdentificeerd door reverse DNS in het domein *.applebot.apple.com te gebruiken.

Een andere manier is om het IP-adres te matchen met een CIDR-voorvoegsel in het volgende JSON-bestand: Applebot IP CIDRs.

Omgekeerde DNS

Het commando 'host' kan worden gebruikt om te bepalen of een IP-adres deel uitmaakt van Applebot. Hier zijn enkele voorbeelden van het commando 'host' en de resultaten ervan:

$ host 17-58-101-179.applebot.apple.com 17-58-101-179.applebot.apple.com has address 17.58.101.179.

Het commando 'host' kan ook worden gebruikt om te controleren of de DNS naar hetzelfde IP-adres verwijst:

$ host 17.58.101.179 179.101.58.17.in-addr.arpa domain name pointer 17-58-101-179.applebot.apple.com.

User-agents

Met een user-agent kunnen webmasters crawler-verkeer te identificeren, zodat ze nauwkeurige logboekrapporten over toegang van crawleractiviteit kunnen krijgen en de toegang tot de site kunnen controleren via robots.txt.

Applebot vormt de basis voor verschillende user-agents, waaronder Zoek en Podcasts.

Zoek

Voor web-crawlen en weergeven van de functie 'Zoek', gebruikt Applebot het volgende formaat:

De tekenreeks 'user-agent' bevat 'Applebot' en andere gegevens. Het algemene formaat ziet er als volgt uit:

Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)

Voorbeeld voor desktop:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15(KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)

Voorbeeld voor mobiel:

Mozilla/5.0 (iPhone; CPU iPhone OS 17_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Mobile/15E148 Safari/604.1 (Applebot/0.1; +http://www.apple.com/go/applebot)

Soms zal Applebot de geadverteerde browserversie bijwerken maar het algemene hierboven aangegeven formaat aanhouden.

Apple Podcasts

iTMS-verkeer kan ook afkomstig zijn van applebot.apple.com-hosts, en zal worden geïdentificeerd door de volgende user-agent:

User-agent: iTMS

De iTMS-user-agent volgt robots.txt niet, omdat het geen algemene zoekcrawler is. Deze user-agent crawlt alleen URL's die bij geregistreerd materiaal op Apple Podcasts horen.

robot.txt-regels aanpassen

Applebot respecteert de standaardregels voor aanwijzingen in robots.txt in algemene zoekcrawls die gericht zijn aan Applebot. In dit voorbeeld zal Applebot niet proberen om documenten te crawlen die zich bevinden onder '/private/' of '/not-allowed/':

User-agent: Applebot Allow: / Disallow: /private/ User-agent: * Disallow: /not-allowed/

Als in de instructies voor robots niet 'Applebot' wordt vermeld, maar wel 'Googlebot', volgt de Apple robot de Googlebot-instructies.

Weergave en robotregels

Applebot kan de inhoud van je website weergeven in een browser. Als javascript, CSS en andere bronnen worden geblokkeerd via robots.txt, kan Applebot de inhoud mogelijk niet correct weergeven. Dit geldt ook voor eventuele XHR, JS en CSS die voor de pagina vereist zijn.

Om Applebot het beste materiaal voor de pagina te laten indexeren, moet je ervoor zorgen dat alles wat een gebruiker nodig heeft om de pagina weer te geven, beschikbaar is voor Applebot. Je kunt er ook voor zorgen dat de website netjes wordt weergegeven, ook al zijn niet alle bronnen beschikbaar. Dit wordt vaak 'graceful degradation' (elegante versobering) genoemd.

Indexeringsregels voor Applebot aanpassen

Applebot ondersteunt robots-metatags in HTML-documenten. Als je robots-regels wilt opgeven in metatags, plaats je de tags in de sectie

... ...

Applebot ondersteunt verder de volgende aanwijzingen:

  • noindex: Applebot indexeert deze pagina niet en de pagina wordt niet weergegeven in de suggesties van Spotlight of Siri.

  • nosnippet: Applebot maakt geen beschrijving of webantwoord voor de pagina. Suggesties voor het bezoeken van deze URL bevatten alleen de paginatitel.

  • nofollow: Applebot volgt de links op de pagina niet.

  • none: Applebot indexeert de pagina niet, creëert geen beschrijving van de pagina en volgt de links op de pagina niet, zoals hierboven beschreven.

  • all: Applebot biedt het document aan bij suggesties en maakt een beschrijving van de inhoud, zodat er een korte beschrijving van de pagina kan worden weergegeven naast een representatieve afbeelding. Applebot volgt mogelijk ook de links op de pagina om meer suggesties te kunnen leveren.

Gebruik een door komma's gescheiden lijst of meerdere metatags om meerdere aanwijzingen in een enkele metatag te plaatsen.

Voorbeeld:

Beheer van gegevensverbruik

Naast het volgen van alle robots.txt-regels en -aanwijzingen, heeft Apple een secundaire user-agent, Applebot-Extended, die webuitgevers extra controle biedt over hoe het materiaal op hun website kan worden gebruikt door Apple.

Met Applebot-Extended kunnen webuitgevers ervoor kiezen om het materiaal van hun website niet te gebruiken om de basismodellen van Apple te trainen voor generatieve AI-functies in Apple-producten, waaronder Apple Intelligence, Services en Developer Tools.

Je kunt een regel toevoegen in robots.txt om Applebot-Extended niet toe te staan, als volgt:

User-agent: Applebot-Extended Disallow: /private/

Applebot-Extended crawlt geen webpagina's. Webpagina's die het gebruik van Applebot-Extended niet toestaan, kunnen nog steeds worden opgenomen in de zoekresultaten. Applebot-Extended wordt alleen gebruikt om te bepalen hoe de gegevens moeten worden gebruikt die door de Applebot-user-agent zijn gecrawld.

Het toestaan van Applebot-Extended zal de mogelijkheden en kwaliteit van de generatieve AI-modellen van Apple in de loop van de tijd helpen verbeteren.

Over de rangschikking van zoekresultaten

De functie 'Zoek' in Apple software houdt bij het rangschikken van zoekresultaten op het internet mogelijk rekening met de volgende factoren:

  • Geaggregeerde gebruikersbetrokkenheid bij zoekresultaten

  • Relevantie en mate van overeenkomst van zoektermen met onderwerpen en inhoud van webpagina's

  • Aantal en kwaliteit van links vanaf andere pagina's op internet

  • Signalen die zijn gebruikt om de locatie van de gebruiker te bepalen (geschatte gegevens)

  • Ontwerpkenmerken van webpagina's

Bij de bepaling van de rangschikking van zoekresultaten staat niet van tevoren vast welke invloed de bovenstaande factoren hebben. Voor gebruikers van 'Zoek' geldt het privacybeleid in Siri-suggesties, zoeken en privacy.

Neem contact met ons op

Bij vragen of opmerkingen kun je contact met ons opnemen via applebot@apple.com.

Informatie over producten die niet door Apple zijn gemaakt of externe websites die niet door Apple worden beheerd of getest, wordt verstrekt zonder aanbeveling of goedkeuring. Apple aanvaardt geen aansprakelijkheid wat betreft de keuze, de prestaties of het gebruik van websites of producten van derden. Apple doet geen enkele toezegging met betrekking tot de juistheid of de betrouwbaarheid van websites van derden. Neem contact op met de leverancier voor meer informatie.

Publicatiedatum: