Описание работы модуля BeautifulSoup для парсинга в python. На текущий момент версия Beautiful Soup 4.
Статья будет пополняться…
Установка и интеграция
Установка:
Импорт
Пример работы:
Или через библиотеку lxml:
Здесь потребуется установить дополнительно:
Найти ссылку
Найти ссылку с текстом внутри неё:
Найти одну ссылку с классом main:
Найти все ссылки с классом main:
Найти текст ссылки с классом main:
Найти тег
Найти тег h1 с классом title, затем найти первый внутренний элемент и забрать у него текст:
Найти внутри тега div с текстом «Страна» все ссылки:
Найти изображение
Найти содержимое srcset изображения с классом poster: