最新互联网络文章

Image credit:

Google 推动将网絡爬虫机器人规范标准化

同时将其 robot.txt 的解析器转为开源。

Andy Yang
2019 年 7 月 2 日, 下午 06:30

网站用来告诉前来搜刮内容的爬虫机器人什么地方能去,什么不能去的「Robot Exclusion Protocol」(REP)协定虽然早在 1994 年就由荷兰软件工程师 Martijn Koster 提出,并由大部份的网站与机器人所遵守,但其实 25 年来它都不是一个真正的「标准」,因此在各家的解析器(Parser)在解译时可能会有所偏差,而且对于许多特殊的状况都没有个明确的规范。

举例来说,一般爬虫机器人都是去网站的根目录寻找 robot.txt 文件,来了解网站对于爬虫机器人活动范围与频度的规范,但如果因为任何原因(例如服务器停摆),使得原本找得到的 robot.txt 找不到了,这时候机器人应该视作无规范、还是照着最后一次读取的 robot.txt 内容进行?又或者,robot.txt 应该多久去查看一次?太频繁的话,会增加服务器无谓的负担,不够频繁的话,新的规格可能要很久才会反应在爬虫机器人上。这些都是在标准规范出来前很难规定的事项。

作为网络爬虫机器人的大本营的 Google,自然对于将这些事务规范化极为上心,除了将对 Internet Engineering Task Force 提出将 REP 协定标准化的提案之外,还加码把自家 Googlebot 机器人的 REP 解析器转为开放原始码,以让标准有一个架构的基础。当然,这并不是说 Google 的版本会原封不动地成为新标准,在制定的过程中势必会有不同利益的折冲,但最终只要能有个标准出来,应该是能降低网站的维护成本及来自机器爬虫的流量,对网站管理者来说怎样都是个好消息吧。