待下载网页集合就是（）URL 列队中的网页，这些网页即将被爬虫下载。

填空题X 纠错

参考答案：待抓取

进入题库练习

查答案就用赞题库小程序还有拍照搜题语音搜题快来试试吧

无需下载立即使用

你可能喜欢

填空题

robots.txt文件必须放置在一个站点的（）目录下，且文件名必须小写。

参考答案：根

点击查看答案进入题库练习

填空题

网络爬虫时一种按照一定的规则，（）请求万维网站并提取网络数据的程序或脚本。

参考答案：自动

点击查看答案进入题库练习

填空题

当网络爬虫访问网站时，会优先检查该站点的根目录下是否存在（）文件。

参考答案：robots.txt

点击查看答案进入题库练习

填空题

robots.txt文件是（）访问网站时要查看的第一个文件，它会限制网络爬虫的访问范围。

参考答案：搜索引擎

点击查看答案进入题库练习

填空题

如果数据市场上没有需要的数据，那么可以利用（）技术抓取网站上的数据。

参考答案：爬虫

点击查看答案进入题库练习

填空题

网络爬虫的基本流程包括抓取网页数据、（）、存储数据。

参考答案：解析网页数据

点击查看答案进入题库练习

填空题

浏览器在访问网站时会携带（），向网站表明自己的真实身份。

参考答案：User-agent

点击查看答案进入题库练习

填空题

Robots协议又称（）协议，用于保护网数据和敏感信息。

参考答案：爬虫协议

点击查看答案进入题库练习

判断题

爬虫需要遵循有礼貌的原则，这样才能与更多的网站建立友好关系。

参考答案：对

点击查看答案进入题库练习

判断题

如果网站中没有robots.txt 文件，那么所有的网络爬虫都能访问网站上所有没有被口令保护的页面。

参考答案：错

点击查看答案进入题库练习

赞题库

赞题库-搜题找答案

（已有500万+用户使用）

历年真题
章节练习
每日一练
高频考题
错题收藏
在线模考
提分密卷
模拟试题

无需下载立即使用

手机版电脑版