看客网

看客网 » 互联网动态 » 业界动态
更多

详细内容 在线投稿

如何解决网页不被抓取的问题

热度34票  浏览380次 时间:2018年7月06日 15:44
      采用搜索引擎平台提供的开发平台等数据上传通道,可以针对数据进行独立的提交。
  ・采用Sitemap提交方式。大型网站或者结构比较特殊的网站,沉淀了大量的历史页面,这些历史页面很多具有SEO价值,但是蜘蛛无法通过正常的爬行抓取到,针对这些页面,建立Sitemap文件并提交给百度等搜索引擎是非常必要的。
  蜘蛛在爬行网站的时候,会遵循网站的协议进行抓取,比如哪些网页可以给搜索引擎抓取,哪些不允许搜索引擎抓取。常见的协议有HTTP协议、HTTPS协议、Robots协议等。
  HTTP协议规范了客户端和服务器端请求和应答的标准。客户端一般是指终端用户,服务器端指网站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送HTTP请求。发送HTTP请求会返回对应的HTTP Header信息,我们可以看到包括是否成功、服务器类型、网页最近更新时间等内容。
  HTTPS协议是一种加密协议,一般用户安全数据的传输。HTTPS是在HTTP下增加了SSL层,这类页面应用比较多的是和支付相关或者内部保密信息相关的网页。蜘蛛不会自动爬行该类网页。因此,从SEO角度考虑,在建站的时候,尽量对页面的性质进行区分,合肥花卉公司对非保密页面进行HTTP处理,才能实现网页的抓取和收录。
顶:1 踩:2
对本文中的事件或人物打分:
当前平均分:-0.73 (11次打分)
对本篇资讯内容的质量打分:
当前平均分:0.09 (11次打分)
【已经有9人表态】
2票
感动
1票
路过
1票
高兴
1票
难过
1票
搞笑
1票
愤怒
1票
无聊
1票
同情