Полное руководство по парсингу и анализу данных на Python: от основ до автоматизации

  • Home
  • Полное руководство по парсингу и анализу данных на Python: от основ до автоматизации
Shape Image One

Полное руководство по парсингу и анализу данных на Python: от основ до автоматизации

Список желаний Поделиться
Поделиться курсом
Ссылка на страницу
Поделиться в социальных сетях

О курсе

В этом курсе Вы подробно изучите:

1. Анализ данных

Вы изучите работу с импортом, объединением, преобразованием, фильтрацией данных на pandas, а также научитесь предсказывать тренды.

Вы сможете самостоятельно загружать данные в формате CSV, TSV, Excel, извлекать из них значения, находить взаимосвязи между разными наборами данных, преобразовывать и усекать наборы данных. В заключении вы освоите математический аппарат линейной регрессии для поиска линейной связи между данными и эффективно примените его для предсказания значений в будущем.

2. Парсинг данных

Вы изучите получение данных в Python, используя библиотеку requests API и форматы JSON и XML (включая SOAP).

Научитесь работать с неструктурированными данными в HTML, собирать их и преобразовывать в фреймы данных.

Научитесь собирать данные целиком с сайта в несколько потоков: создадите мультипроцессного робота-паука.

В завершении установите SQLite и загрузите все собранные данные в базу, а также научитесь выбирать из базы данных непосредственно в фреймы данных.

3. Визуализация данных

Вы изучите анатомию matplotlib и типы визуализации различных данных: линии, области, столбцы, круговые диаграммы.

Научитесь визуализировать зависимости между данными и линейную регрессию с помощью seaborn: построите ящичковые и парные диаграммы, диаграммы распределения.

Изучите визуализацию временных (хронологических) данных: ряды, скользящие средние, отклонения и «японские свечи».

В завершении разберете работу с гео-данными и построение фоновых картограмм по нескольким наборам данных, используя geopandas.

4. Генерация отчетов и автоматизация

В этом курсе вы научитесь создавать и преобразовывать PDF документы, генерировать их из HTML кода, используя шаблонизатор, отправлять отчеты по e-mail и автоматизировать работу.

В курсе используются библиотеки reportlab, pypdf2, pdfkit, jinja2, smtplib, email, binascii, io, а также бинарный файл wkhtmltopdf. Решаем задачи по созданию PDF документа через холст, разбору PDF документа, объединению PDF документов, созданию HTML и PDF документов из HTML, шаблонизации HTML через jinja2, преобразованию бинарных данных в base64-кодировку. В заключении разберем отправку e-mail, включая HTML-письма и вложенные PDF отчеты.

Показать больше

Чему вы научитесь?

  • Работа с данными с помощью pandas и numpy
  • Получение наборов данных из множества источников
  • Преобразование данных и предсказание последовательностей
  • Работа с HTTP, JSON, API, SOAP
  • Парсинг и скрепинг HTML сайтов
  • Визуализация данных: тренды и зависимости
  • Гео-данные м фоновые картограммы
  • Генерация PDF отчетов
  • HTML документы и шаблонизация
  • Отправка email и автоматизация работы

Содержание курса

numpy и pandas

  • Работа с numpy
  • Фреймы данных
  • Получение данных из Excel
  • Импорт данных

Индексы и объединение фреймов

Фильтрация и изменение данных

Линейная регрессия

Импорт данных

Парсинг данных

Веб-скрепинг

Работа с SQL

Основы Matplotlib

Визуализация зависимостей

Временные ряды

Гео-данные и картограммы

Работа с PDF

Базовые отчеты

Генерация отчетов

Отправка email и интеграция

Рейтинги и обзоры студентов

Пока нет отзыва
Пока нет отзыва