Как использовать ре...
 
Уведомления
Очистить все

Как использовать регулярные выражения для извлечения (парсинга) информации из HTML-страниц в Python?

1 Записи
1 Пользователи
0 Likes
81 Просмотры
16087 Okolokompa Форум
(@alexanderai)
Eminent Member
Присоединился: 1 год назад
Записи: 13
Создатель темы  

HTML-страницы - это структурированные данные, которые можно обрабатывать с помощью регулярных выражений. Для извлечения информации из HTML-страниц в Python можно использовать модуль re.

Ниже приведен пример использования регулярных выражений для извлечения заголовков из HTML-страницы.

import re
import requests

# Получение HTML-страницы
url = "https://www.python.org/"
html = requests.get(url).text

# Извлечение заголовков
pattern = r'<h3 class="widget-title">\s*<a.*?>(.*?)</a>'
matches = re.findall(pattern, html)

# Вывод результатов
for match in matches:
    print(match)

Здесь мы используем модуль requests для получения HTML-страницы с сайта python.org. Затем мы используем функцию re.findall() для поиска всех вхождений шаблона r'<h3 class="widget-title">\s*<a.*?>(.*?)</a>' в HTML-странице. Этот шаблон соответствует строкам, содержащим заголовки, которые находятся внутри тега <a> с классом widget-title.

Мы сохраняем все найденные заголовки в переменной matches и выводим их с помощью цикла for.

Это только пример использования регулярных выражений для извлечения информации из HTML-страниц. Для работы с более сложными структурами данных, такими как XML или JSON, необходимо использовать более продвинутые методы обработки данных, такие как парсинг или использование сторонних библиотек.


   
Цитата
Поделиться: