Despre Applebot
Află mai multe despre Applebot, noul crawler web pentru Apple.
Datele accesate cu crawlere de către Applebot sunt utilizate pentru alimentarea diverselor caracteristici, precum tehnologia de căutare integrată în multe experiențe ale utilizatorilor din ecosistemelor Apple, inclusiv Spotlight, Siri și Safari. Activarea Applebot în robots.txt permite afișarea conținutului site-urilor web în căutări pentru Apple utilizatori din întreaga lume, în aceste produse.
Applebot accesează multe tipuri de resurse de pe servere web, inclusiv, însă fără limitare, la robots.txt, hărțile site-urilor, fluxurile RSS, html, subresursele necesare pentru redarea de pagini precum javascript, solicitări Ajax, imagini și altele.
Identificarea Applebot
Traficul care provine de la Applebot este identificat în general prin utilizarea DNS inversat în domeniul *.applebot.apple.com.
O altă modalitate este potrivirea adresei IP cu un prefix CIDR conținut în următorul fișier JSON: Applebot IP CIDRs.
Inversare DNS
Comanda de gazdă poate fi utilizată pentru a stabili dacă o adresă IP face parte din Applebot. Aceste exemple afișează comanda de gazdă și rezultatul acesteia:
$ host 17-58-101-179.applebot.apple.com 17-58-101-179.applebot.apple.com has address 17.58.101.179.
De asemenea, comanda de gazdă poate fi utilizată pentru a verifica dacă DNS-ul indică spre aceeași adresă IP:
$ host 17.58.101.179 179.101.58.17.in-addr.arpa domain name pointer 17-58-101-179.applebot.apple.com.
Agenți utilizatori
Un agent utilizator îi ajută pe webmasteri să identifice traficul roboților de căutare, astfel încât să poată obține rapoarte de acces precise privind activitatea roboților de căutare și să controleze accesul la site prin robots.txt.
Applebot alimentează mai mulți agenți utilizatori, inclusiv Căutare și Podcasturi.
Căutare
Pentru căutare și redare, Applebot utilizează următorul format:
Șirul agent-utilizator conține „Applebot” și alte informații. Următorul este formatul general:
Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)
Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)
Exemplu pentru desktop:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15(KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Exemplu pentru telefoane mobile:
Mozilla/5.0 (iPhone; CPU iPhone OS 17_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Mobile/15E148 Safari/604.1 (Applebot/0.1; +http://www.apple.com/go/applebot)
Ocazional, Applebot va actualiza versiunea de browser pe care o anunță în timp ce rămâne în formatul general de mai sus.
Apple Podcasts
Traficul iTMS poate proveni și din gazde applebot.apple.com și va fi identificat după următorul agent utilizator:
User-Agent: iTMS
Agentul utilizator iTMS nu urmează robots.txt, deoarece nu este un crawler general de căutare. Se accesează cu crawlere numai URL-uri asociate conținutului înregistrat în Apple Podcasts.
Personalizarea regulilor pentru fișierul robot.txt
Applebot respectă directivele standard robots.txt din căutările generale direcționate către Applebot. În acest exemplu, Applebot nu încearcă să acceseze cu crawlere documente care sunt în /private/ sau /not-allowed/:
User-agent: Applebot Allow: / Disallow: /private/ User-agent: * Disallow: /not-allowed/
Dacă instrucțiunile roboților nu menționează Applebot, ci Googlebot, robotul Apple va urma instrucțiunile Googlebot.
Redarea și regulile pentru robot
Applebot poate reda conținutul site-ului web în cadrul unui browser. Dacă javascript, CSS și alte resurse sunt blocate prin fișierul robots.txt, conținutul poate să nu fie redat corect. Aici se încadrează resurse XHR, JS și CSS pe care le poate solicita pagina.
Pentru ca Applebot să indexeze cel mai bun conținut pentru pagină, asigură-te că toate elementele necesare pentru ca un utilizator să redea pagina sunt disponibile pentru Applebot. Sau asigură-te că site-ul web se redă corect, chiar dacă celelalte resurse nu sunt disponibile. Acest lucru se numește de obicei degradare cu stil.
Personalizarea regulilor de indexare pentru Applebot
Applebot acceptă metaetichete pentru roboți în documente HTML. Pentru a specifica reguli pentru roboți în metaetichete, plasează etichetele în secțiunea <head> a documentului:
<html><head> <meta name="robots" content="noindex"/> ... </head> <body>...</body> </html>
De asemenea, Applebot acceptă următoarele directive:
noindex: Applebot nu va indexa această pagină, iar aceasta nu va apărea în sugestiile Spotlight sau Siri.
nosnippet: Applebot nu va genera o descriere sau un răspuns web pentru pagină.
nofollow: Applebot nu va urmări niciun link la pagină.
none: Applebot nu va indexa, nu va extrage și nu va urmări linkuri în pagină, așa cum este descris mai sus.
all: Applebot furnizează documentul pentru sugestii și extrage conținutul astfel încât o descriere scurtă a paginii să apară lângă o imagine reprezentativă. Applebot poate urmări linkuri din pagină pentru a oferi mai multe sugestii.
Pentru a plasa mai multe directive într-o singură metaetichetă, folosește o listă separată prin virgulă sau mai multe metaetichete.
Exemplu:
<meta name="robots" content="nosnippet, noindex”> <meta name="robots" content=“noindex"> <meta name="robots" content=“nosnippet">
Controlul utilizării datelor
Pe lângă următoarele reguli și directive robots.txt, Apple are un agent secundar pentru utilizatori, Applebot-Extended, care le oferă editorilor web controale suplimentare privind modul în care conținutul site-ului său web poate fi utilizat de Apple.
Cu Applebot-Extended, editorii web pot alege să renunțe la conținutul site-ului său web pentru a instrui modelele de bază ale Apple alimentând caracteristicile AI ale conectivității AI Apple, inclusiv produsele Apple Intelligence, Servicii și Instrumente dezvoltatori.
Poți adăuga o regulă în robots.txt pentru a nu permite Applebot-Extended, după cum urmează:
User-agent: Applebot-Extended Disallow: /private/
Applebot-Extended nu accesă cu crawlere pagini web. Paginile web care nu permit Applebot-Extended pot fi incluse în continuare în rezultatele căutării. Applebot-Extended este folosit doar pentru a determina modul de utilizare a datelor accesate cu crawlere de către agentul utilizator Applebot.
Autorizarea modelelor Applebot-Extended va ajuta la îmbunătățirea capacităților și calității modelelor de AI Apple în timp.
Despre clasarea în căutare
Căutarea Apple poate ține cont de următoarele aspecte atunci când clasează rezultatele căutării pe web:
Implicarea cumulată a utilizatorilor cu rezultatele căutării
Relevanța și potrivirea termenilor de căutare cu subiectele și conținutul paginii web
Numărul și calitatea linkurilor din alte pagini de pe web
Locația utilizatorilor în funcție de semnale (date aproximative)
Caracteristicile de design ale paginii web
Este posibil ca rezultatele căutării să folosească factorii de mai sus fără o importanță (prestabilită) a clasării. Utilizatorii Căutării trebuie să respecte politica de confidențialitate pentru Sufestiile Siri, căutare și confidențialitate.
Contactează-ne
Dacă ai întrebări sau nelămuriri, contactează-ne la applebot@apple.com.
Informațiile despre produsele care nu sunt fabricate de Apple sau despre site-urile web independente care nu sunt controlate sau testate de Apple sunt furnizate fără recomandare sau aprobare. Apple nu își asumă nicio responsabilitate în ceea ce privește selectarea, funcționarea sau utilizarea site-urilor web sau produselor de la terți. Apple nu face niciun fel de declarații privind acuratețea sau fiabilitatea site-urilor web terțe. Contactează furnizorul acestor produse pentru a obține mai multe informații.