【爬虫】逆向爬虫初体验之爬取音乐

发布于:2025-07-06 ⋅ 阅读:(19) ⋅ 点赞:(0)

寻找数据

打开F12中的网络页面,播放音乐后,筛选媒体,会发现当前这首歌曲音频链接地址,打开后,点击“标头”就能能看到请求URL
在这里插入图片描述
截取“.mp3”前面的一部分进行搜索,搜索出来了很多数据包,但都是重复的,其实只有两个。一个就是我们已经找到的音频链接,另一个就是网易云音乐的接口文件
在这里插入图片描述
打开这个“v1”数据包,在标头可以看到他的请求URL,在负载
可以看到有两个表单数据分别是paramsencSecKey
在这里插入图片描述
在这里插入图片描述
在预览页面中,可以看到请求的返回值,是一个JSON格式的数据,而我们要的音乐链接就是url所对应的值
在这里插入图片描述

代码实现

有了上面这些请求数据,我们可以用代码来向网易云音乐发送请求,然后下载歌曲到本地。其中,headers里的cookie需要在标头中的“请求标头”中复制,这里我就不展示我的cookie了。代码模拟浏览器给网易云音乐发送请求,获取到一个json数据,从中找到所需要的url,接着向这个url发送请求进一步获取二进制的音频内容,然后以二进制写入的方式打开文件,把音乐保存到了本地。

import requests

headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36 Edg/138.0.0.0",
    "referer":"https://music.163.com/",
    "cookie":your_cookie
}
def download_music():
    url = "https://music.163.com/weapi/song/enhance/player/url/v1?csrf_token=528a132e63865dc4c681934d2a7bb31f"
    data = {
        "params":"sZ3h9aF5g8SsP4JiHaXuJqi4E+V+aP/ut4FZfUkzOi0bJbr2N7/PvLx3xTcrAeu05Bcb+LG2c77NKfZ01ShNSMYBd8iVxGggg2QFkM8Enes/2kqHwYziVSFB0dHl3NgY2SSBadA2UwJrt28eDXNDsiIATRORvGkCCFmXDEJXCb83sqJWJixEB2sE57L2jZ5oesC9Dsv1mHczuPyC7+OZYw==",
        "encSecKey":"16c8e6d77d5831c34d374bf7c4c9fbf1993cdd0145eb9dcf2eeca8cdf037edda15c0f58c36c60b3765ee7087d6df32e3cf37976e0fe4bc4dfd4e4acf06e45e73317d8b9d4f27941076c5bf334f5456f687854797e2966a14a2fe0bc27592dc5a5553d6ad8339b4fd0e9094726d8633c06f2fdf16a0f90b94103ce79dab78c5f7"
    }
    response = requests.post(url=url,data=data,headers=headers)
    json_data = response.json()
    music_url = json_data["data"][0]["url"]
    music_content = requests.get(url=music_url,headers=headers).content# 向音频链接发起请求,获取二进制的音频内容
    with open(f"music.mp3","wb") as f:# 以二进制写入的方式打开文件,写入音频内容
        f.write(music_content)
    print("下载成功")
download_music()

逆向解密

上面的代码是我们在已知paramencSecKey这两个数据的情况下实现下载音频文件。通过尝试下载其他歌曲也不难看出,只要提供正确的paramencSecKey我们就能下载到所对应的音乐了。而这两个值到底从何而来呢?
在搜索框中搜索"encSecKey",我们找到了一个JS文件
在这里插入图片描述
点击后在响应面板中右键,在源面板中打开
在这里插入图片描述
在源代码页面进行搜索,找到了一段代码
在这里插入图片描述

var bVz9q = window.asrsea(JSON.stringify(i9b), bsC6w(["流泪", "强"]), bsC6w(BA5F.md), bsC6w(["爱心", "女孩", "惊恐", "大笑"]));
e9f.data = j9a.cr0x({
	params: bVz9q.encText,
	encSecKey: bVz9q.encSecKey
})

从这个代码可以看出,我们要找的paramsencSecKey来自于一个名为bVz9q的对象中。而他又来自于一个window.asrsea的函数。
给这行代码打上断点,鼠标悬停在asrsea上。
在这里插入图片描述
我们直接定位到了这个函数所在的地方,点击蓝色下划线的文字跳转
在这里插入图片描述
跳转到了一个名为d的函数,原来这个window.asrsea就是d
函数d中需要传入四个参数分别是a,b,c,d,而在刚刚调用部分的代码中,我们可以看到他传入的四个参数分别为

  • JSON.stringify(i9b)
  • bsC6w([“流泪”, “强”])
  • bsC6w(BA5F.md)
  • bsC6w([“爱心”, “女孩”, “惊恐”, “大笑”])
    其中,在控制台输入后面四个参数,我们得到的都是如下的定值
    在这里插入图片描述
    而第一个参数中的i9b比较特殊,通过断点调试发现这是一个变化的值。网易云音乐的所有接口都会经过这一行代码,而在播放音乐后我们找到了一个i9b的值如下图
    在这里插入图片描述
    这个值就是在调用音频接口时候的值,不难看出,这个i9b中的编号就是歌曲网址中最后的那一串数字。至于csrf_token,这其实是一个固定值,他就是请求URL最后的那串东西。这么一来问题就迎刃而解了。
    我们只要有歌曲的id就能得到i9b,然后把JSON.stringify(i9b)和其余三个参数传入到asrsea获得加密的数据——paramsencSecKey然后作为负载发送请求给网易云音乐,就能下载到歌曲了。
    在这个js代码中,把相应加密的代码复制下来到本地的js文件。
    最后我们定义如下函数方便通过python中的execjs模块调用。
function json_encode(i9b){
    return JSON.stringify(i9b);
}

完整的js文件太大了就不展示了。

批量下载

现在已经可以实现通过歌曲id下载到对应的歌曲了,而如果想实现批量下载也非常简单。只要获取到歌单的url然后发送请求,通过re正则表达式提取出页面中的歌曲超链接中的歌曲id,然后分别下载这些歌曲id对应的音频文件就行了。

完整代码

下面附上完整的代码

import requests
import execjs
import re

headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36 Edg/138.0.0.0",
    "referer":"https://music.163.com/",
    "cookie":your_cookie
}
def download_music(music_id,music_name):
    # 编译js代码
    js_code = execjs.compile(open("爬网易云/网易.js",encoding = 'utf-8').read())
    #加密参数
    i9b = {"ids": '', "level": 'exhigh', "encodeType": 'aac', "csrf_token": '528a132e63865dc4c681934d2a7bb31f'}
    i9b['ids'] = f"[{music_id}]"
    # 调用解密函数
    e = '010001';
    f = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7';
    g = '0CoJUm6Qyw8W8jud';
    i9b = js_code.call("json_encode",i9b)
    rdata = js_code.call("asrsea", i9b,e,f,g)
    url = "https://music.163.com/weapi/song/enhance/player/url/v1?csrf_token=528a132e63865dc4c681934d2a7bb31f"
    data = {
        "params":rdata["encText"],
        "encSecKey":rdata["encSecKey"]
    }

    response = requests.post(url=url,data=data,headers=headers)
    json_data = response.json()
    music_url = json_data["data"][0]["url"]
    music_content = requests.get(url=music_url,headers=headers).content# 向音频链接发起请求,获取二进制的音频内容
    with open(f"爬网易云/music/{music_name}.mp3","wb") as f:# 以二进制写入的方式打开文件,写入音频内容
        f.write(music_content)

def get_info_list(list_id):
    list_url = f"https://music.163.com/playlist?id={list_id}"
    response = requests.get(url=list_url,headers=headers)
    html = response.text
    # <a href="/song?id=1360122230">花月</a>
    info = re.findall('<a href="/song\?id=(\d+)">(.*?)</a>',html)
    info_list = [[music_id,music_name] for music_id,music_name in info]
    return info_list

def get_song_name(music_id):
    url = f"https://music.163.com/song?id={music_id}"
    response = requests.get(url=url,headers=headers)
    html = response.text
    # <em class="f-ff2">花月</em>
    name = re.findall('<em class="f-ff2">(.*?)</em>',html)[0]
    return name

mode = input("选择爬取模式:\n 1.单曲下载 \n 2.批量下载\n")

if __name__ == '__main__':
    if mode == "1":
        music_id = input("请输入歌曲ID:")
        music_name = get_song_name(music_id)
        download_music(music_id,music_name)
        print(f"《{music_name}》下载完成")

    elif mode == "2":
        list_id = input("请输入歌单ID:")
        info_list = get_info_list(list_id)
        for music_id,music_name in info_list:
            download_music(music_id,music_name)
            print(f"《{music_name}》下载完成")
        print("批量下载完成")

网站公告

今日签到

点亮在社区的每一天
去签到