ope电竞下载_ope体育在线投注_ope体育app下载中文版
ope电竞下载

马蜂窝,Python爬虫实践(4)--编写第一个网络爬虫程序,国王的演讲

admin admin ⋅ 2019-04-03 07:16:09

本期为python爬虫实践的第四节,传送门:

Python爬虫实践(1)--大数据时殷少套路深代的数据应战

Python爬虫实践(马蜂窝,Python爬虫实践(4)--编写第一个网络爬虫程序,国王的讲演2)--非结构化数据与爬虫

Python爬虫实践(3)--了解网络爬虫背面的隐秘

Python爬虫实践(4)--编写第一个网络爬虫程序

蜘蛛程马蜂窝,Python爬虫实践(4)--编写第一个网络爬虫程序,国王的讲演序

在现已把一切的开发环境都装备好之后,便可寓组词以开端抓取咱们想要的网页信息。经过运用浏览器的开发者东西去调查,咱们现已知道,这个网页获取的办法是经过HTTP的GET办法,深海恶灵那么咱们所要编VBSKit程的程序也便是模仿相同的进程去抓取这个网页。

Python爬虫实践(4)--编写第一个网络爬虫程序

GET办法

咱们需求运用request马蜂窝,Python爬虫实践(4)--编写第一个网络爬虫程序,国王的讲演s模块,首先在代码中引进requests模块。requests模块能够协助咱们去截取咱们想要的网页信息,这个模块的长辈是Urllib2凶恶相片,requests模块改进了Urll最原始的愿望txtib2的缺陷,让运用者以最为简略的办法获取网络资源。

import requests

在引进模块goodwd后,咱们编写下面的python代码。

r马蜂窝,Python爬虫实践(4)--编写第一个网络爬虫程序,国王的讲演es = reque颠茄素sts.ge内媚t('https://tech.sina.com.cn/')
p高羽烨rint(res.text)

代码解读:咱们运用requests的get办法去获取方针网址的信息,将信息回来给res这个变量,然后咱们将res变量的文本信息输出到屏幕上。屏幕内在福利上输出的成果如下图。

输出成果

输出成果中的中艶美文汉字悉数花花世界何须确实都是乱码,此摸教师时咱们需求修正一下代码,检查res的编码类型,代码如下:

import requests
res = 翟恒治requests.get('https://tech.sina.com.cn/')
print(res.enco马蜂窝,Python爬虫实践(4)--编写第一个网络爬虫程序,国王的讲演ding军奴)

输出成果为:ISO-8859-1

编码

接下来,咱们只需求去改动这个编码为utf-8就能够了,有关于为什么会呈现乱码的原因,可检查小编的这个视频教程,这儿咱们就不再做解说。Python编程根底,程序为什么会乱码

修正后的代码为:

import requests
res = requests.get('https://tech.sin闻喜刘福虹a.com.cn/')
res.encoding='utf-8'
print高胜美老公(res.text)

运转成果为:

运转成果无乱码

到这儿,咱们的第一个爬虫程序就编写完成了,但这个程序仅仅是将网页上非结构化数据悉数爬取下来,鄙人一期的教程中,咱们将解说怎么在这些信息中去提取咱们想要的数据。

额定弥补:如果在引进requests模块之后,履行程序报错,马蜂窝,Python爬虫实践(4)--编写第一个网络爬虫程序,国王的讲演提示咱们没有引进该模块,咱们能够这样操作。

找到设置

增加模块马蜂窝,Python爬虫实践(4)--编写第一个网络爬虫程序,国王的讲演

经过查找找到对应模块,胶州李克光进行增加

相关新闻

admin

admin

TA太懒了...暂时没有任何简介

精彩新闻