Beautiful Soup — парсинг на Python

Admin Python

Описание работы модуля BeautifulSoup для парсинга в python. На текущий момент версия Beautiful Soup 4.

Статья будет пополняться…

Установка и интеграция

Установка:

pip install beautifulsoup4

Импорт

from bs4 import BeautifulSoup

Пример работы:

soup = BeautifulSoup(content, 'html.parser')

Или через библиотеку lxml:

soup = BeautifulSoup(content, 'lxml')

Здесь потребуется установить дополнительно:

pip install lxml

Найти ссылку

Найти ссылку с текстом внутри неё:

text = soup.find('a', text='Какой-то текст внутри ссылки')

Найти одну ссылку с классом main:

link = soup.find('a', {'class': 'main'})

Найти все ссылки с классом main:

links = soup.findAll('a', {'class': 'main'})

Найти текст ссылки с классом main:

link = soup.find('a', {'class': 'main'}).text

Найти тег

Найти тег h1 с классом title, затем найти первый внутренний элемент и забрать у него текст:

title = soup.find('h1', {'class': 'title'}).findChildren()[0].text

Найти внутри тега div с текстом «Страна» все ссылки:

text = soup.find('div', text='Страна').parent.findAll('a')

Найти изображение

Найти содержимое srcset изображения с классом poster:

string = soup.find('img', {'class': 'poster'})['srcset']
Метки:

Кстати, на сайте нет рекламы. У сайта нет цели самоокупаться, но если вам пригодилась информация можете задонатить мне на чашечку кофе в макдаке. Лайкнуть страницу или просто поблагодарить. Карма вам зачтется.

Добавить комментарий

Напишите свой комментарий, если вам есть что добавить/поправить/спросить по теме текущей статьи:
"Beautiful Soup — парсинг на Python"