Udemy [Udemy] Инжиниринг данных — SSIS/ETL/конвейеры/Python/веб-скрейпинг (2022)

  • Автор темы Trinity
  • Дата начала
[Udemy] Инжиниринг данных — SSIS/ETL/конвейеры/Python/веб-скрейпинг (2022)

1660539405018


Инженер данных — это тот, кто создает конвейеры ETL для больших данных и позволяет собирать огромные объемы данных и преобразовывать их в идеи. Они сосредоточены на производственной готовности данных и таких вещах, как форматы, отказоустойчивость, масштабирование и безопасность.

Службы интеграции SQL Server — это компонент программного обеспечения базы данных Microsoft SQL Server, который можно использовать для выполнения широкого круга задач переноса данных. SSIS — это платформа для интеграции данных и приложений для рабочих процессов. Он включает в себя инструмент хранилища данных, используемый для извлечения, преобразования и загрузки данных.

ETL, что означает извлечение, преобразование и загрузка, представляет собой процесс интеграции данных, который объединяет данные из нескольких источников данных в единое согласованное хранилище данных, которое загружается в хранилище данных или другую целевую систему.

Конвейер ETL — это набор процессов, используемых для перемещения данных из источника или нескольких источников в базу данных, такую как хранилище данных или целевые базы данных.

Служба интеграции SQL Server (SSIS) предоставляет удобный и унифицированный способ чтения данных из разных источников (извлечение), выполнения агрегирования и преобразования (преобразование), а затем интеграции данных (загрузки) для хранения данных и аналитики. Когда вам нужно обработать большой объем данных (гигабайты или терабайты), SSIS становится идеальным подходом для такой рабочей нагрузки.

Веб-скрапинг, веб-сбор или извлечение веб-данных — это парсинг данных, используемый для извлечения данных с веб-сайтов. Программное обеспечение для очистки веб-страниц может напрямую обращаться к всемирной паутине с использованием протокола передачи гипертекста или веб-браузера. Хотя просмотр веб-страниц может выполняться пользователем программного обеспечения вручную, этот термин обычно относится к автоматизированным процессам, реализованным с использованием бота или поискового робота. Это форма копирования, при которой определенные данные собираются и копируются из Интернета, как правило, в центральную локальную базу данных или электронную таблицу для последующего поиска или анализа.

Для кого этот курс:
  • Начинающие инженеры данных
Требования
  • Приветствуется базовое знание Python
  • Рекомендуется базовое знание концепций баз данных
Материал на английском языке

Подробнее:
Скачать:
 

Похожие темы

Trinity
Ответы
0
Просмотры
279
Udemy.com
Trinity
Trinity
Trinity
Ответы
0
Просмотры
57
Udemy.com
Trinity
Trinity