Библиотека beautifulsoup. Библиотека beautifulsoup. python bs4 beautifulsoup

Библиотека beautifulsoup.

Open in new window

Библиотека BeatifulSoup.

Установка.

pip install bs4

Чтение DOM.

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

Заголовок документа.

soup.title.string

Поиск одного и группы элементов.

el = soup.find('h1')

Найдем все ссылки на странице.

soup.findAll('a')

Доступ к тексту и атрибутам тега.

link.get('href')
link.text

Проход по массиву

for link in soup.findAll('a'):
    print(link.get('href'))

Поиск одного элемента по id.

el = soup.find('h1',{'id': 'my-header'})

Поиск многих элементов по имени класса.

els = soup.findAll('div',{'class': 'class_name'})

по нескольким классам

show = soup.find('div', class_='action-link showPhonesLink')
show = soup.find('div', attrs={'class': 'action-link showPhonesLink'})

Поиск по css атрибутам.

els = soup.findAll('div',attrs={'id': '123'})

Метод select

results = soup.select('td[valign="top"]')
  • возвращает массив

Задача

Вытащить все области и раены Казахстана и сохранить их в json файле.

http://sud.gov.kz/rus

http://sud.gov.kz/rus/bank

Other topics