网络爬虫抓取页面信息,提取其中的链接,顺着链接依次爬行,一般深度优先或者广度优先,这样一层一层的抓取,但是网页上的信息可能会涉及版权,如果对方不允许爬虫抓取,robot协议里禁止抓取,或者设置权限为登陆状态才可以,这些都会阻碍爬虫抓取数据。而web页面上的信息,其实是数据库里的数据在网站上的体现,没有体现出来的数据库数据,爬虫是无法抓取的。除非是给一个入口,这样爬虫从入口进去可以抓取数据。
网络爬虫抓取的是web页面的数据信息,其实这些信息原本也就是数据库里面的数据,但是如果有些数据库的数据在网页上面没有显示,或者网站的反爬机制严格,确实是没办法抓取的;包括现在用的比较多的软件机器人工具小帮,也是只能采集数据库中在界面显示的数据,针对反爬厉害的网站,可以试试。