HTML-страницы - это структурированные данные, которые можно обрабатывать с помощью регулярных выражений. Для извлечения информации из HTML-страниц в Python можно использовать модуль re.
Ниже приведен пример использования регулярных выражений для извлечения заголовков из HTML-страницы.
import re
import requests
# Получение HTML-страницы
url = "https://www.python.org/"
html = requests.get(url).text
# Извлечение заголовков
pattern = r'<h3 class="widget-title">\s*<a.*?>(.*?)</a>'
matches = re.findall(pattern, html)
# Вывод результатов
for match in matches:
print(match)
Здесь мы используем модуль requests для получения HTML-страницы с сайта python.org. Затем мы используем функцию re.findall() для поиска всех вхождений шаблона r'<h3 class="widget-title">\s*<a.*?>(.*?)</a>' в HTML-странице. Этот шаблон соответствует строкам, содержащим заголовки, которые находятся внутри тега <a> с классом widget-title.
Мы сохраняем все найденные заголовки в переменной matches и выводим их с помощью цикла for.
Это только пример использования регулярных выражений для извлечения информации из HTML-страниц. Для работы с более сложными структурами данных, такими как XML или JSON, необходимо использовать более продвинутые методы обработки данных, такие как парсинг или использование сторонних библиотек.