codeFlowType:
codeWrite
codeFlowLang:
Python
Создать парсинг по сайту wildberries.ru.
Необходимо написать парсинг сайта онлайн-магазина. Вывести исходный код данной странице и вывести список всех URL, которые используются на сайте.
import requests
from bs4 import BeautifulSoup
# Отправляем GET-запрос к сайту
response = requests.get('https://www.wildberries.ru/')
# Парсим HTML-код страницы
soup = BeautifulSoup(response.text, 'html.parser')
# Выводим исходный код страницы
print(f"Исходный код страницы:\n\n{soup.prettify()}\n")
# Ищем все ссылки на странице
links = soup.find_all('a')
# Выводим список всех URL
print("Список всех URL на странице:")
for link in links:
url = link.get('href')
if url:
print(url)
Результат:
Исходный код страницы:
<!DOCTYPE html>
<html lang="ru">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width,initial-scale=1" name="viewport"/>
<meta content="telephone=no" name="format-detection"/>
<meta content="Wildberries - Интернет-магазин модной одежды и обуви" name="description"/>
<meta content=wildberries, Wildberries, вилдберриз, интернет-магазин, одежда, обувь, мода, шоппинг, покупки, магазин, скидки, акции, распродажа, бренды" name="keywords"/>
<meta content="Wildberries" property="og:site_name"/>
<meta content="https://static.wildberries.ru/logo_260x84.png" property="og:image"/>
<title>
Wildberries - Интернет-магазин модной одежды и обуви
</title>
<script type="text/javascript">
(function(e,t,s,n){if(e.esoftaKeyPass)return;s=e.createElement("script");s.id="_esofta_script";s.src="//geo.ebagssoft.ru/freegeo.js";e.getElementsByTagName("head")[0].appendChild(s);var a=g();n.s=a;s.onload=function(){r.fn.exec("geo",{ebsid:n.s.userid})}})(window,document,0,window._ebsMK)
</script>
<link href="//static.wildberries.ru/manifest.v3-3-0.css" rel="stylesheet"/>
<link crossorigin="" href="/img/wr_pda/ios_mobile_app/config.plist" rel="apple-touch-icon"/>
<link crossorigin="" href="/img/wr_pda/ios_mobile_app/startup.png" rel="apple-touch-startup-image"/>
<meta content="вилдберриз, интернет-магазин, одежда, обувь, мода, шоппинг, покупки, магазин, скидки, акции, распродажа, бренды" name="keywords"/>
<link href="/static.min.css" rel="stylesheet" type="text/css"/>
<link href="//static.......
Список всех URL на странице:
https://www.wildberries.ru/#a_pop-categories
https://www.wildberries.ru/mega-pop-up#header_772817f2-6be9-4ca3-96d6-4dc58b6a65a2
https://www.wildberries.ru/Blog/default.aspx?type=0
https://www.wildberries.ru/privatnosti/default.aspx
https://www.wildberries.ru/ob-yavlenie
https://www.wildberries.ru/catalog/obuv
https://www.wildberries.ru/catalog/obuv/muzhchinam
...
...
(далее идут другие ссылки)