关键词搜索

源码搜索 ×
×

Python爬取股票数据,让你感受一下什么是一秒钟两千条数据

发布2021-01-22浏览480次

详情内容

本文的文字及图片过滤网络,可以学习,交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于青灯编程,作者:清风

Python GUI编程:高清电影在线观看平台制作,全网电影免费看

https://www.xin3721.com/eschool/pythonxin3721/

让你感受一下什么是一秒钟下载两千条数据。。

基本开发环境
Python 3.6
皮查姆
相关模块的使用

import csv
import time
import requests
import concurrent.futures
 

    目标网页分析

    Python爬取股票数据,让你感受一下什么是一秒钟两千条数据
    在这里插入图片描述

    一共214页的数据,每页数据20条,总计是4280。

    :开发者工具,点击第二页,在XHR里面会出现数据。。在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    这是链接的参数,其中的pn对应就是页码,选择的第二页所以pn:2

    如果细心的话,可以发现返回的数据并非是一个json数据。
    在这里插入图片描述

    Python爬取股票数据,让你感受一下什么是一秒钟两千条数据

    这样的数据提取肯定是转换成json数据才好提取。这有两个方法:

    方法一:

    把参数中的< cb:jQuery1124036392017581464287_1608882113715 >去掉,不打算进去,就可以直接以response.json()的形式输出。

    import requests
    
    
    url = 'http://49.push2.eastmoney.com/api/qt/clist/get'
    
    
    params = {
        # 'cb': 'jQuery1124036392017581464287_1608882113715',
        'pn': '2',
        'pz': '20',
        'po': '1',
        'np': '1',
        'ut': 'bd1d9ddb04089700cf9c27f6f7426281',
        'fltt': '2',
        'invt': '2',
        'fid': 'f3',
        'fs': 'm:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23',
        'fields': 'f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152',
        '_': '1608882115527',
    }
    
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=url, params=params, headers=headers)
    html_data = response.json()
    stock_data = html_data['data']['diff']
    
      6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28

    方法二:

    1,正常参数,请求网页返回数据response.txt

    2,用正则匹配 jQuery1124036392017581464287_1608882113715(。*?) 匹配中间的数据

    3,通过导入json模块,串联转json数据json.loads

    import pprint
    import re
    import requests
    import json
    url = 'http://49.push2.eastmoney.com/api/qt/clist/get'
    
    
    params = {
        'cb': 'jQuery1124036392017581464287_1608882113715',
        'pn': '2',
        'pz': '20',
        'po': '1',
        'np': '1',
        'ut': 'bd1d9ddb04089700cf9c27f6f7426281',
        'fltt': '2',
        'invt': '2',
        'fid': 'f3',
        'fs': 'm:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23',
        'fields': 'f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152',
        '_': '1608882115527',
    }
    
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=url, params=params, headers=headers)
    result = re.findall('jQuery1124036392017581464287_1608882113715\((.*?)\);', response.text)[0]
    html_data = json.loads(result)
    stock_data = html_data['data']['diff']
    pprint.pprint(stock_data)
    
    
      6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32

    对于这个网站,以上两种方法都是可以的,但是一般建议使用第二种方式,因为第一种方式毕竟是投机取巧。
    在这里插入图片描述

    Python爬取股票数据,让你感受一下什么是一秒钟两千条数据

    取值之后是一个列表的数据,通过用于循环遍历即可,获取每一支股票的相关数据了,通过键值对取值获取相对应的数据即可。

    for i in stock_data:
        dit = {
            '代码': i['f12'],
            '名称': i['f14'],
            '最新价': i['f2'],
            '涨跌幅': str(i['f3']) + '%',
            '涨跌额': i['f4'],
            '成交量(手)': i['f5'],
            '成交额': i['f6'],
            '振幅': str(i['f7']) + '%',
            '最高': i['f15'],
            '最低': i['f16'],
            '今开': i['f17'],
            '昨收': i['f18'],
            '量比': i['f10'],
            '换手率': str(i['f8']) + '%',
            '市盈率(动态)': i['f9'],
            '市净率': i['f23'],
        }
    
      6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    保存数据通过csv模块保python基础教程存就可以了。

    使用多线程爬取速度有多快?

    给五个线程时的速度:

    if __name__ == '__main__':
        start_time = time.time()
        executor = concurrent.futures.ThreadPoolExecutor(max_workers=5)
        for page in range(1, 215):
            url = f'http://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076'
            executor.submit(main, url)
        executor.shutdown()
    
      6
    • 7

    总耗时:3.685572624206543

    总计数据:4279条数据

    所以平均每秒钟爬取1161条数据。

    Python爬取股票数据,让你感受一下什么是一秒钟两千条数据

    Python爬取股票数据,让你感受一下什么是一秒钟两千条数据

    当我给10个线程时的速度:

    if __name__ == '__main__':
        start_time = time.time()
        executor = concurrent.futures.ThreadPoolExecutor(max_workers=10)
        for page in range(1, 215):
            url = f'http://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076'
            executor.submit(main, url)
        executor.shutdown()
    
     
    
      6
    • 7
    • 8
    • 9

    总耗时:1.7553794384002686

    总计数据:4279条数据

    所以平均每秒钟爬c#教程取2437条数据。

    Python爬取股票数据,让你感受一下什么是一秒钟两千条数据

    Python爬取股票数据,让你感受一下什么是一秒钟两千条数据

    当我给20个线程时的vb.net教程速度:

    相关技术文章

    点击QQ咨询
    开通会员
    返回顶部
    ×
    微信扫码支付
    微信扫码支付
    确定支付下载
    请使用微信描二维码支付
    ×

    提示信息

    ×

    选择支付方式

    • 微信支付
    • 支付宝付款
    确定支付下载