В продолжение статей о парсинге страниц. На этот раз небольшая заметка о том, как с помощью simple_html_dom удалить ненужные данные на странице.
Если надо удалить какой-то участок на странице данных, чтобы они не попадали в парсинг, лучше всего это сделать перед началом. А именно в самом верху нашего кода положим такой участок:
foreach($html ->find('div.class-one') as $matches) {
$matches->outertext = '';
}
// Сохраним в $html новый код
$html->load($html->save());
$matches->outertext = '';
}
// Сохраним в $html новый код
$html->load($html->save());
Теперь мы можем посмотреть полученное содержимое страницы без не нужных данных и поправить её при необходимости:
echo $html
Или работать дальше в обычном порядке:
foreach ( $html->find('') as $matches ) {}