下载文件#

1
import requests as r
2
url='https://muspace.top/index.html' #下载地址
3
name='My file' #下载文件名
4
file=r.get(url) #下载ing...
5
open(name,'wb').write(file.ccontent) #写入文件

但有机率报错：

1
InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised.
2
See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
3
  InsecureRequestWarning

解决方法：

1
import urllib3
2
urllib3.disable_warnings()

爬虫时指定User-Agent#

1
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
2
response = request.get(url,headers=headers)

BeautifulSoup库#

1
#解析网页信息
2
from re import split
3
import bs4
4
import requests as r
5
from bs4 import BeautifulSoup as bs
6

7
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'} #指定UA
8
html=r.get('https://muspace.top/index.html',headers=headers) #页面的html文件
9
text=html.text
10
tree=bs(text,'lxml') #将HTML 文档转换成树形结构
11

12
#提取信息的第一种方式
13
def item():
14
    #site-title（F12->定位数据并右键->“复制”➔“复制Selector”）
15
    data=tree.select('#site-title') #引用路径
16
    print('data:',data) #此时输出的是目标的HTML代码：[<h1 id="site-title">沐の空间</h1>]
17
    for item in data:
18
        result={
19
            'title':item.get_text(), #获取文本
20
            'link':item.get('href') #获取链接
21
        }
22
    print(result) #{'title': '沐の空间', 'link': None}
23
    result=result['title']
24
    print(result) #沐の空间
25

26
#提取信息的第二种方式
27
def find():
28
    tag=tree.find('h1') #使用find方法查到第一个h1标签(标签所处的HTML代码通常是：<h1 id="site-title">沐の空间</h1>)
29
    #遍历搜索的所有结果
30
    def finds():
31
        for i in tree.find('div'):
32
            print(i)
33
    input('按任意键')
34
    print(tag) #输出find获取到的值:<h1 id="site-title">沐の空间</h1>
35
    print(tag.name) #输出标签的名字:h1
36
    print(tag['id']) #输出标签的id属性值:site-title
37
    print(tag.string) #输出标签中的文本：沐の空间
38

39
#检查内容是不是注释
40
def check():
41
    import bs4
42
    markup = "<b><!--我打赌你肯定在看源代码--></b>" #注释本释
43
    soup = bs(markup,'lxml') #将HTML 文档转换成树形结构（梅开二度）
44
    comment = soup.b.string #提取文本信息(但是注释的类型为：bs4.element.Comment)
45
    if type(comment) == bs4.element.Comment:
46
        print('该字符是注释')
47
    else:
48
        print('该字符不是注释')
49

50
def findall():
51
    print(tree.find_all('title')) # 搜索文档树 输出：[<title>沐の空间 - 做自己的学习笔记</title>]
52
    # 完整语法为find_all(name , attrs , recursive , string , **kwargs )
53
    # name 参数：可以查找所有名字为 name 的tag。
54
    # attr 参数：就是tag里的属性。
55
    # string 参数：搜索文档中字符串的内容。
56
    # recursive 参数： 调用tag的 find_all() 方法时，Beautiful Soup会检索当前tag的所有子孙节点。如果只想搜索tag的直接子节点，可以使用参数 recursive=False 。
57
    def example():
58
        print(tree.find_all('div', 'top_part')) #输出：[<div class="top_part"></div>, <div class="top_part"></div>, <div class="top_part"></div>]
59
        print(tree.find_all('p')) #输出：[<p style="text-align:center">   loading...</p>]
60
        print(tree.find_all(id='web_bg')) #输出：[<div id="web_bg"></div>]
61
        import re
62
        print(tree.find(string=re.compile("沐の空间"))) #输出：沐の空间 - 做自己的学习笔记
63
    example()

实战演练1#

1
#实战演练（爬取沐の空间上面的文章cover图）
2
def useful():
3
  from re import split
4
  import requests as r
5
  from bs4 import BeautifulSoup as bs
6
    import shutil,os,bs4
7
    #新建img目录以便于存放爬取后的图片
8
    os.system('md img')
9
    imgdir=os.path.dirname(os.path.abspath(__file__))+'\img'
10
    #获取html文件
11
    web=r.get('https://muspace.top/index.html')
12
    #对数据进行处理
13
    text=web.text
14
    tree=bs(text,'lxml')
15
    data=tree.find_all('img') #寻找带有img标签的语句
16
    #遍历所有结果并对其进行处理
17
    for img in data:
18
        a=img['src'] #获取下载链接
19
        try:
20
            #适用于：https://cdn.jsdelivr.net/gh/WhitemuTeam/web-img/img/xxx.jpg
21
            name=a.split('/img/') #分块并获取名字
22
            name=name[1]
23
        except:
24
            try:
25
                #适用于：https://cdn.jsdelivr.net/gh/WhitemuTeam/web-img/xxx.jpg
26
                name=a.split('/web-img/')
27
                name=name[1]
28
            except:
29
                #其他的都不爬取
30
                continue
31
        try:
32
            #尝试下载，如果报错就是存在重复图片
33
            get=r.get(a)
34
            open(name,'wb').write(get.content)
35
            print('已保存图片',name)
36
            shutil.move(name,imgdir) #剪切文件
37
        except:
38
            continue
39
    print('爬取已完成')
40

41
if __name__=='__main__':
42
    useful()

get传递参数#

1
import requests as r
2
payload = {'key1': 'value1', 'key2': 'value2'}
3
r = r.get("http://httpbin.org/get", params=payload)
4
#get的网址实际为：http://httpbin.org/get?key1=value1&key2=value2

获取网页上的文字#

注意：该网页内容必须为：text（content-type: text/plain; charset=utf-8)

1
import requests as r
2
web=r.get('https://v1.hitokoto.cn/?encode=text')
3
web.encoding='utf-8' #对文字进行编码（可选）
4
sen=web.text #输出文字

实战演练2#

爬取小说

1
# -*- coding:UTF-8 -*-
2
import requests as r
3
from bs4 import BeautifulSoup as bs
4

5
#指定UA
6
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73'}
7

8
#爬取目录
9
def geturl():
10
    global text
11
    url='https://www.bqkan8.com/25_25963/' #目录链接
12
    html=r.get(url,headers=headers) #开始爬取
13
    html.encoding='gbk' #网站使用gbk编码
14
    html=html.text
15
    tree=bs(html,'lxml') #将html转化为树形结构
16
    title=tree.find_all('a') #寻找带有a标签的语句
17
    num=0 #统计title数量
18
    for i in title:
19
        num=num+1
20
    text=open('page.txt','w',encoding='utf-8') #创建txt文件以用于存放小说
21
    for i in range(num): #循环获取每章节的链接
22
        purl=title[i+41]
23
        purl='https://www.bqkan8.com/'+purl['href']
24
        page(purl)
25
    text.close() #保存退出
26
    input('爬取完毕')
27

28
#爬取每章节的文章
29
def page(url):
30
    html=r.get(url,headers=headers).text
31
    tree=bs(html,'lxml')
32
    title=tree.find('title').string.split('_')[0] #获取标题
33
    page=tree.find_all(id='content')[0].text.split('　　(')[0].replace('　　','\n\n') #获取正文
34
    print(title,file=text)
35
    print(page,file=text)
36
    print('爬取',title,'已完成')
37

38
if __name__=='__main__':
39
    geturl()

从XML提取信息#

temp.xml:

未经格式化：

1
<?xml version="1.0" encoding="utf-8" ?><images><image><startdate>20210813</startdate><fullstartdate>202108130900</fullstartdate><enddate>20210814</enddate><url>/th?id=OHR.UbehebeCrater_ZH-CN0157876978_1920x1080.jpg&amp;rf=LaDigue_1920x1080.jpg&amp;pid=hp</url><urlBase>/th?id=OHR.UbehebeCrater_ZH-CN0157876978</urlBase><copyright>死亡谷国家公园里的优比喜比火山口，加利福尼亚州 (© Albert Knapp/Alamy)</copyright><copyrightlink>https://www.bing.com/search?q=%E6%AD%BB%E4%BA%A1%E8%B0%B7%E5%9B%BD%E5%AE%B6%E5%85%AC%E5%9B%AD&amp;form=hpcapt&amp;mkt=zh-cn</copyrightlink><headline></headline><drk>1</drk><top>1</top><bot>1</bot><hotspots></hotspots></image><tooltips><loadMessage><message>正在加载...</message></loadMessage><previousImage><text>上一个图像</text></previousImage><nextImage><text>下一个图像</text></nextImage><play><text>播放视频</text></play><pause><text>暂停视频</text></pause></tooltips></images>

经格式化

1
<images>
2
  <image>
3
    <startdate>20210813</startdate>
4
    <fullstartdate>202108130900</fullstartdate>
5
    <enddate>20210814</enddate>
6
    <url>/th?id=OHR.UbehebeCrater_ZH-CN0157876978_1920x1080.jpg&rf=LaDigue_1920x1080.jpg&pid=hp</url>
7
    <urlBase>/th?id=OHR.UbehebeCrater_ZH-CN0157876978</urlBase>
8
    <copyright>死亡谷国家公园里的优比喜比火山口，加利福尼亚州 (© Albert Knapp/Alamy)</copyright>
9
    <copyrightlink>https://www.bing.com/search?q=%E6%AD%BB%E4%BA%A1%E8%B0%B7%E5%9B%BD%E5%AE%B6%E5%85%AC%E5%9B%AD&form=hpcapt&mkt=zh-cn</copyrightlink>
10
    <headline/>
11
    <drk>1</drk>
12
    <top>1</top>
13
    <bot>1</bot>
14
    <hotspots/>
15
  </image>
16
<tooltips>
17
  <loadMessage>
18
    <message>正在加载...</message>
19
  </loadMessage>
20
  <previousImage>
21
    <text>上一个图像</text>
22
  </previousImage>
23
  <nextImage>
24
    <text>下一个图像</text>
25
  </nextImage>
26
  <play>
27
    <text>播放视频</text>
28
  </play>
29
  <pause>
30
    <text>暂停视频</text>
31
  </pause>
32
  </tooltips>
33
</images>

Python源码：

1
from xml.dom import minidom
2
dom=minidom.parse("temp.xml") #加载和读取XML文件
3
root=dom.documentElement #获取XML文档对象
4
msg = root.getElementsByTagName('copyright') #数据所在节点名
5
information1 = msg[0].firstChild.data #获取文本名
6
print('拍摄地(作者)：',information1)

post#

1
import requests as r
2
import json
3

4
#部分数据需要到F12->网络->XHR->xxx获取
5
def http():
6
    mydata={'value1':'abc'} #表单数据：
7
    url='http://httpbin.org/post' #请求地址
8
    back=r.post(url,data=mydata) #post
9
    sen=json.loads(back.text) #格式化数据
10
    fin=sen['form'] #提取form数据
11
    print(fin) #输出结果
12

13
if __name__=='__main__':
14
    http()