Archives for 15 May,2019

You are browsing the site archives by date.

Великі Дані: Що Це Таке і Де Цьому Навчитися

Робота з даними, або Data Science – це наука про аналіз даних. Аналізувати дані потрібно для того, щоб з величезного масиву інформації витягувати конкретну та корисну інформацію: інсайти про поведінку споживачів, тенденції ринку, на основі яких можна робити якісні прогнози розвитку сфери, чи окремої індустрії. Data Science  пов’язана з машинним навчанням (Machine Learning), наукою про мислення (Cognitive Science), а Big Data, в свою чергу є підрозділом Data Science.

Ти те, що ти лайкаєш

Big Data — це підходи та методи обробки структурованих та неструктурованих даних великих об’ємів. В свою чергу такі методи можуть бути застосовані і до невеликого об’єму даних, скажімо, до цієї статті.
Впродовж існування люди згенерували величезні масиви інформації. Це дані про наші телефонні розмови, пересування, покупки в супермаркеті, візити до лікаря, пошукові запити, поведінка в соціальних мережах (лайки, публікації, репости) і так далі. Проаналізувавши усі ці дані, можна отримати чимало корисного про поведінку кожної людини.

Раніше робота з даними виглядала наступним чином: людина задавала для комп’ютера алгоритми для обробки інформації, які приводили до очікуваного результату. Проте, зараз об’єми даних настільки великі, що такий метод застарів. Тому для роботи з великими даними застосовується машинне навчання: людина задає комп’ютеру певні ввідні дані, проте результат роботи такого алгоритму не визначений людиною. Людина обирає спосіб, за яким відбуватиметься машинне навчання, проте машина вчиться сама і аналізуючи масив даних власноруч приходить до тих чи інших результатів.

Чим робота з Big Data відрізняється від традиційного data science
 Традиційний Data Science   Big Data
 Поступовий аналіз невеликих пакетів даних   Аналіз всього масиву доступних даних
 Сортування та редагування даних перед аналізом   Дані аналізують в початковому вигляді
 Початкове припущення і тестування відносно даних  Пошук взаємозв’язків та самостійне  отримання результатів
 Спочатку дані збирають, опрацьовують і зберігають, і лише потім аналізують  Аналіз даних в реальному часі по мірі їхнього надходження
У новому підході до роботи з великими даними використовується машинне навчання, для того, щоб комп’ютер сам шукав результати опрацьованих даних. Наприклад, якщо раніше ми мали масив даних про покупки одного користувача інтернет-магазину, потрібно було самим робити припущення. Скажімо, ми вирішували, що покупець  – фанат комп’ютерних ігор. Якщо ця гіпотеза підтверджувалась, на основі цих даних можна робити прогноз щодо наступних покупок і пропонувати клієнту знижки на товари цієї категорії. Але подібних гіпотез може бути безліч і така робота займала величезну кількість часу. Натомість за допомогою Machine learning алгоритмів, комп’ютер сам аналізує і видає результат з обробленої інформації.Таким чином американський супермаркет Target свого часу навчився прогнозувати покупки  своїх клієнтів  і виявив, що жінки, які купують багато паперових серветок, махрових мочалок та лосьйони без запаху, швидше за все, вагітні. Гіпотеза підтвердилась і супермаркету вдалося надсилати майбутнім мамам пропозиції товарів для немовлят ще до того, як про це дізнались їхні конкуренти. Щоправда, через такі точні прогнози компанії стався казус. Дівчина-підліток, що приховувала свою вагітність отримала від Target каталог з підгузками та коляскам і була змушенарозповісти свій секрет раніше, ніж було заплановано.

Для ІТ-індустрії Big Data – невід’ємна частина роботи, адже аналізуючи дані користувачів, можна отримати дослідити перспективи того, чи іншого продукту, прогнозувати ринок та поведінку клієнтів. Окрім ІТ, Big Data використовуються в маркетингу, фінансах, телекомунікаціях, рітейлі, енергетичній промисловості, державному секторі (все, що стосується електронного урядування) і так далі. Data Scientist – це одна з найпопулярніших професій майбутнього за рейтингами TechRepublicForbes, та World Economic Forum. А середня зарплата Data Science спеціаліста по світу вже зараз становить $117,000 в рік.

Де навчитись аналізувати дані?

На щастя, стати Data Scientist можливо і у Львові. Впродовж останніх кількох років  у львівських університетах з’явилися інноваційні програми навчання, які відповідають вимогам ринку праці та сучасним тенденціям науки про дані.  Зокрема, такі бакалаврські програми:

Крім того, поповнити свої знання можна онлайн курсами на PrometheusCoursera, а почати можна з базового курсу по Статистиці на Stepik.

Нехай щастить у підкоренні величезних масивів даних!

За матеріалами  Lviv IT Cluster
Read More