百度等其他搜寻引擎爬虫python入门爬取的网页原始码是?

研究seo的一定很了解下面这些返回码的含义了,对于这些不是很熟悉的朋友也应该了解一下基本的比如200是请求成功,301重定向,404找不到等等。下面首先会介绍一下百度对于各个状态吗的处理逻辑。百度spider对常用的http返回码的处理逻辑是这样的:404404返回码的含义是“NOTFOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取


把网页源码写进文件里就出现乱码了 解码用的utf-8


  • 回答 2 已采纳 这代码里面好多错误,你是怎么运行成功的?

  • 我们平常在爬虫过程中经常会遇到爬取网页内容乱码问题,我们知道肯定是编码的问题。一般情况下,网页编码都是UTF-8形式,但是有时候有一些例外,有可能会是GBK的编码方式。 解决中文乱码问题

  • Python爬虫——爬取网页出现中文乱码问题 一、查看网页源代码的编码方式 如何看网页源代码的编码方式:打开指定网页,右键打开网页源代码,在<head>标签中查看<meta charset="utf-8">,此处显示的编码...

  • 没有解决我的问题, 去提问

第八讲:综合实战4:爬虫初尝试 - 百度新闻爬取

下面我们就来进行舆情监控的项目实战 - 爬虫初尝试啦!有的人可能会怀疑,我学了上面的那些内容就可以进行舆情监控了?答案是利用上面所学,是完全可以的。Python其实不难,关键是教的人如何教,以及学的人如何学。

1、舆情监控基础-网络爬虫基本介绍

首先给大家讲解下爬虫的一些基本知识,我不会讲的太复杂,不会把网页的各种结构讲给你听,那其实一点必要都没有,你要做的事爬取信息,而不是搭建网站,所以大家跟我后面来学习如何获取信息即可。

我下面讲的都是实战中经常用到的,一些看上去很复杂其实没什么用的东西我通通不讲。

这样点击那个文字我们就可以访问百度首页了,该访问方式是页面直接变成百度首页,将原网页给覆盖掉了。如果想在一个新的标签页里打开百度首页,而不是把原网页覆盖了话,只要在原来的基础上加上target=_blank即可,代码如下:

除了常见的标题<h>标签、段落<p>标签及链接<a>标签外,还有些常用的标签:表格<table>标签、序号<li>标签、图片<img>标签及样式<script>标签等。对于初学者来说,了解<h>标签、<p>标签及<a>标签便足以应对之后的爬虫任务,其他标签内容将在第16章进行讲解,感兴趣的读者可以提前阅读。

区块最主要的表现形式就是<div>**</div>格式了,我们可以来看下具体实际情况中的应用,同样用F12看百度新闻的源码:

其实这个知识点所有内容其实就在它的名字上了:“”,也就是说它就是表示某一类内容,简单概括其作用就是:区分类别。class的写法就是写在框的类型后面,比如<h3 class="c-title">以及<div class="result" id="1">,如下图所示:

id="1">它的类名叫作result,result的中文意思是结果的意思,该<div>框包含着该新闻所有的结果,包括其中的新闻链接,标题等全部新闻内容。而下面这个<div>类型的框,它的类名叫作c-summary c-row,它里面包裹的内容就只有新闻来源,日期等内容。

这个class类在我们之后提取所需内容的时候能够发挥很大的作用。

如果说class(类)是为了区分类别的话,id的区分作用则更加严苛。比如说class可以把人分成男人和女人两类,那么id的话则是对每一个人进行编号,比如叫作丁一、王二、张三等,每个人的class(类)可能相同,但是他们的id一般都不会相同。

在HTML语言中,id的作用也是如此,它的区分作用比class更严苛,比如<div>类型的框,同样属于class="result" 的类型,但是它们的id却不同,如下图所示:

不同新闻的id都不相同,其实这些id就表示是第几条新闻,id = 1则表示是第一条新闻,id=10则表示是第10条新闻,可以说id的作用是更加严格的分类

学完网页结构知识后,感兴趣的读者可以自己在网页上通过F12方法观察一下网页结构,此时会更加清楚了。学好网页结构对之后在网络数据获取及挖掘中将很有帮助。

4、实战!百度新闻爬取

百度新闻是一个非常重要的数据源,这一小节就先来获取一下百度新闻的源代码。百度新闻的网址为:,如下图所示:

通过百度新闻搜索阿里巴巴,会跳转到如下图所示网页,发现其现在属于“资讯”版块,所以也可以直接在“资讯”里直接搜索百度新闻。

其网址为。不过如果直接从网址上进行复制的话,其网址为:,它最后并不是“阿里巴巴”四个字,而是一些字母数字加百分号的内容。因为网页识别的是英文字符,中文需要转码才可以识别,而这个字母加百分号的内容可以看作“阿里巴巴”四个字在网页上的“英文”翻译。对于百度新闻,两种网址都可以直接用。

运行结果如下图所示,可以发现此时已经获取到网页的源代码了。

上面代码用的便是谷歌(Chrome)浏览器的User-Agent,这里以谷歌浏览器为例讲解下如何获取浏览器的User-Agent。首先打开谷歌浏览器在搜索框输入:about:version(注意是英文格式的冒号),然后在弹出的界面中找到用户代理,它里面就是User-Agent。

对于实战,只要记得在代码的最前面,写上如下代码:

有时不加headers也能获得网页的源代码,比如第一章最后通过requests库爬取Python官网就不需要加headers。不过headers只要在开头设置一次,之后直接在requests.get()中添加headers=headers即可,所以并不麻烦,而且可以避免可能会出现的爬取失败。

这里可以看到通过短短4、5行代码,我们就能够获得网页的源代码了,而这个可以说是网络数据挖掘中最重要的一步了,之后所需要做的工具就是信息提取和分析了。

3.2 分析网页源代码信息

获取到网页源代码后,我们想提炼其中的新闻标题、网址、日期和来源等信息。在提炼这些信息之前,我们有三种常见的分析方法来观察这些信息的特征。

点击选择按钮,选择一个标题,可以在Elements中看到,我们所需要的标题内容就在这一片内容中,用同样的的方法可以查看新闻日期和来源等信息。

如果看不到其中的中文信息,那是因为它被折叠了,点击折叠箭头展开折叠就可以看到中文了。不过有时通过F12看到的源代码并不一定准确,所以也常常和下面两种方法一起使用。

(2) 方法2:右击选择“查看网页源代码”

和之前提到过的一样,我们在浏览器上右击,选择“查看网页源代码”,到了源代码网页的时候,可能得往下滚动一下滚轮才能看到内容,然后便可以通过Ctrl + F快捷键(快速搜索快捷键)定位关心的内容了。

(3) 方法3:在Python获得的网页源代码中查看(推荐)

在获取到源代码的输出框内通过Ctrl + F组合键,调出搜索框,搜索所关心的信息,这种方法也比较常见,不过需要先通过程序获得网页源代码信息。

在源代码里可以看到,关于新闻的标题,来源日期以及正文其实都已经有了,只不过被一些英文、空格以及换行包围着,需要通过一个手段将这些信息提取出来。一个常见的提取信息的手段就是通过正则表达式来进行提取,将在下一小节进行详细讲解。

拓展:Python进阶的其他应用
[]() 《华小智智能平台课程(课表)》,可复制链接后用石墨文档 App 或小程序打开

Python软件下载地址:
2020软件最新安装教程(附软件):[]() 《Python 2020最新安装教程(巨详细版)》

获取方式1:石墨文档获取

获取方式3:微信号获取
添加如下微信:huaxz001,和小助理沟通获取源代码。

本课程 Python基础(案例版):可在、查看。(点击可直接获取。)

我要回帖

更多关于 爬虫python入门 的文章

 

随机推荐