Giới thiệu về Applebot
Tìm hiểu về Applebot, trình thu thập dữ liệu web cho Apple.
Dữ liệu do Applebot thu thập được sử dụng để hỗ trợ nhiều tính năng khác nhau, chẳng hạn như công nghệ tìm kiếm được tích hợp vào nhiều trải nghiệm người dùng trong hệ sinh thái của Apple, bao gồm Spotlight, Siri và Safari. Việc kích hoạt Applebot trong robots.txt giúp hiển thị nội dung trang web trong kết quả tìm kiếm cho người dùng Apple trên toàn thế giới trong các sản phẩm này.
Applebot truy cập nhiều loại tài nguyên từ máy chủ web, bao gồm nhưng không giới hạn ở robots.txt, sơ đồ trang, nguồn cấp RSS, HTML, tài nguyên phụ cần thiết để hiển thị các trang như javascript, yêu cầu của Ajax, hình ảnh, v.v.
Nhận dạng Applebot
Lưu lượng truy cập đến từ Applebot thường được xác định bằng cách sử dụng DNS ngược trong miền *.applebot.apple.com.
Một cách khác là khớp địa chỉ IP với tiền tố CIDR có trong tệp JSON sau: CIDR IP của Applebot.
DNS ngược
Lệnh máy chủ có thể được dùng để xác định xem địa chỉ IP có phải là một phần của Applebot hay không. Những ví dụ này hiển thị lệnh máy chủ và kết quả của nó:
$ host 17-58-101-179.applebot.apple.com 17-58-101-179.applebot.apple.com has address 17.58.101.179.
Lệnh máy chủ cũng có thể được dùng để xác minh rằng DNS trỏ đến cùng một địa chỉ IP:
$ host 17.58.101.179 179.101.58.17.in-addr.arpa domain name pointer 17-58-101-179.applebot.apple.com.
Tác nhân người dùng
Tác nhân người dùng giúp quản trị viên web xác định lưu lượng truy cập của trình thu thập dữ liệu, từ đó họ có thể nhận được báo cáo nhật ký truy cập chính xác về hoạt động của trình thu thập dữ liệu và kiểm soát quyền truy cập vào trang web thông qua robots.txt.
Applebot hỗ trợ một số tác nhân người dùng, bao gồm Tìm kiếm và Podcast.
Tìm kiếm
Để thu thập và hiển thị dữ liệu web tìm kiếm, Applebot sử dụng định dạng sau:
Chuỗi tác nhân người dùng chứa “Applebot” và các thông tin khác. Dưới đây là định dạng chung:
Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)
Ví dụ cho máy tính:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15(KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Ví dụ cho thiết bị di động:
Mozilla/5.0 (iPhone; CPU iPhone OS 17_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Mobile/15E148 Safari/604.1 (Applebot/0.1; +http://www.apple.com/go/applebot)
Đôi khi, Applebot sẽ cập nhật phiên bản trình duyệt mà Applebot quảng cáo trong khi vẫn giữ nguyên định dạng chung ở trên.
Apple Podcasts
Lưu lượng truy cập iTMS cũng có thể đến từ máy chủ applebot.apple.com và sẽ được xác định bởi tác nhân người dùng sau đây:
User-Agent: iTMS
Tác nhân người dùng iTMS không tuân theo robots.txt vì đây không phải là trình thu thập dữ liệu tìm kiếm chung. Tác nhân này chỉ thu thập dữ liệu từ các URL được liên kết với nội dung đã đăng ký trên Apple Podcasts.
Tùy chỉnh các quy tắc robot.txt
Applebot tuân theo lệnh robots.txt tiêu chuẩn trong các hoạt động thu thập dữ liệu tìm kiếm chung nhắm vào Applebot. Trong ví dụ này, Applebot không cố gắng thu thập thông tin các tài liệu ở mục /private/ hoặc /not-allowed/:
User-agent: Applebot Allow: / Disallow: /private/ User-agent: * Disallow: /not-allowed/
Nếu chỉ dẫn của robot không đề cập đến Applebot nhưng lại đề cập đến Googlebot thì robot Apple sẽ làm theo chỉ dẫn của Googlebot.
Quy tắc kết xuất và robot
Applebot có thể hiển thị nội dung trang web của bạn trong trình duyệt. Nếu javascript, CSS và các tài nguyên khác bị chặn thông qua robots.txt thì Applebot có thể không hiển thị được nội dung một cách chính xác. Các nội dung này bao gồm XHR, JS và CSS mà trang có thể yêu cầu.
Để Applebot lập chỉ mục nội dung tốt nhất cho trang, hãy đảm bảo rằng mọi thứ cần thiết để người dùng hiển thị trang đều có sẵn cho Applebot. Ngoài ra, hãy đảm bảo rằng trang web hiển thị rõ ràng, ngay cả khi tất cả tài nguyên không có sẵn. Điều này thường được gọi là khả năng thích ứng với phiên bản cũ.
Tùy chỉnh các quy tắc lập chỉ mục cho Applebot
Applebot hỗ trợ thẻ meta robot trong tài liệu HTML. Để chỉ định các quy tắc robot trong thẻ meta, hãy đặt thẻ vào phần
... ...
Applebot cũng hỗ trợ các lệnh sau:
Noindex: Applebot sẽ không lập chỉ mục trang này và trang sẽ không xuất hiện trong Gợi ý Spotlight hoặc Gợi ý của Siri.
nosnippet: Applebot sẽ không tạo nội dung mô tả hoặc câu trả lời trên web cho trang đó. Mọi gợi ý truy cập URL này sẽ chỉ bao gồm tiêu đề của trang.
nofollow: Applebot sẽ không truy cập bất kỳ liên kết nào trên trang.
none: Applebot sẽ không lập chỉ mục, trích đoạn hoặc theo dõi các liên kết trên trang như được mô tả ở trên.
all: Applebot cung cấp tài liệu để gợi ý và đoạn mã để mô tả ngắn gọn về trang có thể xuất hiện bên cạnh hình ảnh đại diện. Applebot có thể truy cập các liên kết trên trang để cung cấp thêm gợi ý.
Để đặt nhiều lệnh trong một thẻ meta, hãy sử dụng danh sách được phân tách bằng dấu phẩy hoặc nhiều thẻ meta.
Ví dụ:
Kiểm soát cách sử dụng dữ liệu
Ngoài việc tuân theo tất cả các quy tắc và lệnh robots.txt, Apple còn có tác nhân người dùng phụ, Applebot-Extended, tác nhân này cung cấp cho nhà xuất bản web các biện pháp kiểm soát bổ sung về cách Apple có thể sử dụng nội dung trang web của họ.
Với Applebot-Extended, nhà xuất bản web có thể chọn không cho sử dụng nội dung trang web của họ để huấn luyện mô hình nền tảng của Apple hỗ trợ các tính năng AI tạo sinh trên sản phẩm Apple, bao gồm Apple Intelligence, Dịch vụ và Công cụ dành cho nhà phát triển.
Bạn có thể thêm quy tắc trong robots.txt để không cho phép Applebot-Extended như sau:
User-agent: Applebot-Extended Disallow: /private/
Applebot-Extended không thu thập dữ liệu trang web. Các trang web không cho phép Applebot-Extended vẫn có thể xuất hiện trong kết quả tìm kiếm. Applebot-Extended chỉ được dùng để xác định cách sử dụng dữ liệu được thu thập bởi tác nhân người dùng của Applebot.
Việc cho phép Applebot-Extended sẽ giúp cải thiện khả năng và chất lượng của các mô hình AI tạo sinh của Apple theo thời gian.
Về thứ hạng tìm kiếm
Apple Tìm kiếm có thể tính đến những nhân tố sau đây khi xếp hạng kết quả tìm kiếm trên web:
Sự tương tác tổng hợp của người dùng với kết quả tìm kiếm
Mức độ liên quan và mức độ phù hợp của các cụm từ tìm kiếm với chủ đề và nội dung trang web
Số lượng và chất lượng liên kết từ các trang khác trên web
Tín hiệu dựa trên vị trí của người dùng (dữ liệu gần đúng)
Đặc điểm thiết kế trang web
Kết quả tìm kiếm có thể sử dụng các nhân tố trên mà không có tầm quan trọng (được xác định trước) của thứ hạng. Người dùng Tìm kiếm phải tuân theo chính sách quyền riêng tư trong Gợi ý của Siri, Tìm kiếm & Quyền riêng tư.
Liên hệ với chúng tôi
Nếu bạn có thắc mắc hoặc quan ngại, vui lòng liên hệ với chúng tôi theo địa chỉ applebot@apple.com.
Apple không đề xuất hay chứng thực thông tin về các sản phẩm không do Apple sản xuất hoặc các trang web độc lập không chịu sự kiểm soát hay kiểm tra của Apple. Apple không chịu trách nhiệm về việc lựa chọn, hiệu suất hay việc sử dụng trang web hoặc sản phẩm của bên thứ ba. Apple không đưa ra tuyên bố nào về tính chính xác hay độ tin cậy của trang web bên thứ ba. Liên lạc với nhà cung cấp để biết thêm thông tin.