making multiple request at the same time with the module requests and print the output on excel(python)

Question

Hi this is quite a complicated question From this script: The code by itself do what is supposed to do (getting the data:foward eps,peg ratio,sector and paste them on an excel file)but the issue is that it takes a lot of time and the list stock is quite long(2531 elements) is there a way to make this code more efficent

Accepted Answer

First you have to put code in function# --- globals ---url_profile = 'https://finance.yahoo.com/quote/{}/profile?p={}'url_stats = 'https://finance.yahoo.com/quote/{}/key-statistics?p={}'headers = {   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"}pattern = re.compile(r's--sDatas--s')# --- functions ---def process(number, stock_name):    print(f'{number} {stock_name}n', end='', flush=True)        url = url_profile.format(stock_name, stock_name)      response = requests.get(url, headers=headers)    soup = BeautifulSoup(response.text,'html.parser')    script_data = soup.find('script', text=pattern).contents[0]    start = script_data.find("context")-2    data = json.loads(script_data[start:-12])    try:        sector = data['context']['dispatcher']['stores']['QuoteSummaryStore']['assetProfile']['industry']    except:        sector = "Error"    url = url_stats.format(stock_name, stock_name)    response = requests.get(url, headers=headers)    soup = BeautifulSoup(response.text, 'html.parser')    script_data = soup.find('script', text=pattern).contents[0]    start = script_data.find("context") - 2    data = json.loads(script_data[start:-12])        try:        peg_ratio = data['context']['dispatcher']['stores']['QuoteSummaryStore']['defaultKeyStatistics']['pegRatio']['fmt']    except:        peg_ratio = "Error"            try:        foward_eps = data['context']['dispatcher']['stores']['QuoteSummaryStore']['defaultKeyStatistics']['forwardEps']['fmt']    except:        foward_eps = "Error"    # return data - for thread            results[number] = (stock_name, sector, foward_eps, foward_eps, peg_ratio)    # return data - for normal execution    return (stock_name, sector, foward_eps, foward_eps, peg_ratio)And next you can run it in old waystock = ['AAPL', 'GOOG', 'TESL', 'MSFT', 'AAPL', 'GOOG', 'TESL', 'MSFT']_start = time.time()results = {}workbook = xlsxwriter.Workbook("test.xlsx")worksheet = workbook.add_worksheet("Stocks")for number, stock_name in enumerate(stock, 1):    data = process(number, stock_name)    worksheet.write(f"A{number}", data[0]) #stock_name    worksheet.write(f"B{number}", data[1]) #sector    worksheet.write(f"C{number}", data[2]) #foward_eps    worksheet.write(f"D{number}", data[3]) #peg_ratio    workbook.close()_end = time.time()print(_end - _start)and this gives me time ~15s, (but sometimes even ~32s)And now you can use threading to run the same function with different values at the same time.Because thread can&#8217;t return result directly so I use global dictionary results for this (because threads share memory).stock = ['AAPL', 'GOOG', 'TESL', 'MSFT', 'AAPL', 'GOOG', 'TESL', 'MSFT']_start = time.time()threads = []results = {}workbook = xlsxwriter.Workbook("test.xlsx")worksheet = workbook.add_worksheet("Stocks")# start all threadsfor number, stock_name in enumerate(stock, 1):    t = threading.Thread(target=process, args=(number, stock_name))    t.start()    threads.append(t)    # wait for end of all threadsfor t in threads:    t.join()    # use results    for number, data in results.items():    #(stock_name, sector, foward_eps, foward_eps, peg_ratio) = data    worksheet.write(f"A{number}", data[0]) #stock_name    worksheet.write(f"B{number}", data[1]) #sector    worksheet.write(f"C{number}", data[2]) #foward_eps    worksheet.write(f"D{number}", data[3]) #peg_ratio    workbook.close()_end = time.time()print(_end - _start)And this gives me time ~6sFor more stocks it would be better to use Threading.Pool so it would run only few threads at the same time because running 2000+ threads at the same time is not good idea.Full working codeimport requestsimport timeimport xlsxwriterimport refrom bs4 import BeautifulSoupimport jsonimport threading# --- globals ---url_profile = 'https://finance.yahoo.com/quote/{}/profile?p={}'url_stats = 'https://finance.yahoo.com/quote/{}/key-statistics?p={}'headers = {   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"}pattern = re.compile(r's--sDatas--s')# --- functions ---def process(number, stock_name):    print(f'{number} {stock_name}n', end='', flush=True)        url = url_profile.format(stock_name, stock_name)      response = requests.get(url, headers=headers)    soup = BeautifulSoup(response.text,'html.parser')    script_data = soup.find('script', text=pattern).contents[0]    start = script_data.find("context")-2    data = json.loads(script_data[start:-12])    try:        sector = data['context']['dispatcher']['stores']['QuoteSummaryStore']['assetProfile']['industry']    except:        sector = "Error"    url = url_stats.format(stock_name, stock_name)    response = requests.get(url, headers=headers)    soup = BeautifulSoup(response.text, 'html.parser')    script_data = soup.find('script', text=pattern).contents[0]    start = script_data.find("context") - 2    data = json.loads(script_data[start:-12])        try:        peg_ratio = data['context']['dispatcher']['stores']['QuoteSummaryStore']['defaultKeyStatistics']['pegRatio']['fmt']    except:        peg_ratio = "Error"            try:        foward_eps = data['context']['dispatcher']['stores']['QuoteSummaryStore']['defaultKeyStatistics']['forwardEps']['fmt']    except:        foward_eps = "Error"    # return data - for thread            results[number] = (stock_name, sector, foward_eps, foward_eps, peg_ratio)    # return data - for normal execution    return (stock_name, sector, foward_eps, foward_eps, peg_ratio)# --- main ---stock = [    'AAPL', 'GOOG', 'TESL', 'MSFT',    'AAPL', 'GOOG', 'TESL', 'MSFT',    'AAPL', 'GOOG', 'TESL', 'MSFT',    'AAPL', 'GOOG', 'TESL', 'MSFT',]# --- old version ---_start = time.time()results = {}workbook = xlsxwriter.Workbook("test.xlsx")worksheet = workbook.add_worksheet("Stocks")for number, stock_name in enumerate(stock, 1):    data = process(number, stock_name)    #(stock_name, sector, foward_eps, foward_eps, peg_ratio) = data    worksheet.write(f"A{number}", data[0]) #stock_name    worksheet.write(f"B{number}", data[1]) #sector    worksheet.write(f"C{number}", data[2]) #foward_eps    worksheet.write(f"D{number}", data[3]) #peg_ratio    workbook.close()_end = time.time()print(_end - _start)# --- new version ---_start = time.time()threads = []results = {}workbook = xlsxwriter.Workbook("test.xlsx")worksheet = workbook.add_worksheet("Stocks")# start all threadsfor number, stock_name in enumerate(stock, 1):    t = threading.Thread(target=process, args=(number, stock_name))    t.start()    threads.append(t)    # wait for end of all threadsfor t in threads:    t.join()    # use results    for number, data in results.items():    #(stock_name, sector, foward_eps, foward_eps, peg_ratio) = data    worksheet.write(f"A{number}", data[0]) #stock_name    worksheet.write(f"B{number}", data[1]) #sector    worksheet.write(f"C{number}", data[2]) #foward_eps    worksheet.write(f"D{number}", data[3]) #peg_ratio    workbook.close()_end = time.time()print(_end - _start)Version with Poolimport requestsimport timeimport xlsxwriterimport refrom bs4 import BeautifulSoupimport jsonimport threadingimport threadingfrom multiprocessing.pool import ThreadPool# --- globals ---url_profile = 'https://finance.yahoo.com/quote/{}/profile?p={}'url_stats = 'https://finance.yahoo.com/quote/{}/key-statistics?p={}'headers = {   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"}pattern = re.compile(r's--sDatas--s')# --- functions ---def process(number, stock_name):    print(f'{number} {stock_name}n', end='', flush=True)        url = url_profile.format(stock_name, stock_name)      response = requests.get(url, headers=headers)    soup = BeautifulSoup(response.text,'html.parser')    script_data = soup.find('script', text=pattern).contents[0]    start = script_data.find("context")-2    data = json.loads(script_data[start:-12])    try:        sector = data['context']['dispatcher']['stores']['QuoteSummaryStore']['assetProfile']['industry']    except:        sector = "Error"    url = url_stats.format(stock_name, stock_name)    response = requests.get(url, headers=headers)    soup = BeautifulSoup(response.text, 'html.parser')    script_data = soup.find('script', text=pattern).contents[0]    start = script_data.find("context") - 2    data = json.loads(script_data[start:-12])        try:        peg_ratio = data['context']['dispatcher']['stores']['QuoteSummaryStore']['defaultKeyStatistics']['pegRatio']['fmt']    except:        peg_ratio = "Error"            try:        foward_eps = data['context']['dispatcher']['stores']['QuoteSummaryStore']['defaultKeyStatistics']['forwardEps']['fmt']    except:        foward_eps = "Error"    # return data - for thread            results[number] = (stock_name, sector, foward_eps, foward_eps, peg_ratio)    # return data - for normal execution    return (stock_name, sector, foward_eps, foward_eps, peg_ratio)# --- main ---stock = [    'AAPL', 'GOOG', 'TESL', 'MSFT',    'AAPL', 'GOOG', 'TESL', 'MSFT',    'AAPL', 'GOOG', 'TESL', 'MSFT',    'AAPL', 'GOOG', 'TESL', 'MSFT',]_start = time.time()results = {}workbook = xlsxwriter.Workbook("test.xlsx")worksheet = workbook.add_worksheet("Stocks")with ThreadPool(processes=10) as pool:    pool_results = pool.starmap_async(process, enumerate(stock, 1))    pool_results = pool_results.get()    for number, data in enumerate(pool_results, 1):        #(stock_name, sector, foward_eps, foward_eps, peg_ratio) = data        worksheet.write(f"A{number}", data[0]) #stock_name        worksheet.write(f"B{number}", data[1]) #sector        worksheet.write(f"C{number}", data[2]) #foward_eps        worksheet.write(f"D{number}", data[3]) #peg_ratio        workbook.close()_end = time.time()print(_end - _start)

Advertisement

Answer