Zaloguj się

Co to jest Data Science?

Co to jest Data Science?

Obszar Data Science zyskuje w ostatnim czasie na popularności na rynku pracy. Rosnące zapotrzebowanie na specjalistów w tej dziedzinie sprawia, że coraz więcej osób zastanawia się co tak naprawdę kryje się pod hasłem “Data Science” oraz kim jest typowy analityk danych?

Określenie “Data Science” w odniesieniu do biznesu i nauki pojawiło się pod koniec pierwszej dekady XXI wieku. To właśnie wtedy firmy zaobserwowały rosnące zapotrzebowanie na ludzi potrafiących zarządzać danymi i wyciągać z nich konstruktywne wnioski, w celu podejmowania optymalnych decyzji biznesowych. W języku polskim pojęcie to nie ma swojego bezpośredniego odpowiednika. Najczęściej używanym zastępnikiem jest wyrażenie “analityka danych”, lecz nie odzwierciedla to w pełni zakresu obejmowanego przez Data Science. Jest to obszar dalece wykraczający poza samą analitykę. Dlatego też najbardziej odpowiednim tłumaczeniem wydaje się być “nauka o danych” lub “badanie danych”.

Data Science to obecnie jedna z najbardziej obiecujących dziedzin. Przez wielu postrzegana jest jako zawód przyszłości, a zapotrzebowanie na tego typu specjalistów rośnie właściwie w każdej gałęzi gospodarki. Wykracza ono już daleko poza firmy technologiczne, ponieważ dostępność danych i konieczność ich analizy zwiększa się w różnych sektorach.

Amerykański portal Glassdor ocenił, że Data Scientist jest najlepszym zawodem w USA w 2019 r. Co ciekawe wynik ten utrzymuje się już czwarty rok z rzędu, a według prognoz popyt na “badaczy danych” wzrośnie w przyszłym roku o kolejne 28%. W parze z tym idzie również średnia roczna pensja, która w Stanach Zjednoczonych wynosi obecnie 120 tys. dolarów, a w Polsce 126 tys. złotych. Oczywiście, doświadczeni specjaliści w większych ośrodkach miejskich są w stanie zarobić znacznie więcej.

Dlaczego Data Science jest ważne?

Wraz z postępującą globalizacją, automatyzacją oraz dostępem do Internetu, w tempie wykładniczym rośnie ilość przetwarzanych i gromadzonych danych. Ich powszechność pozwala na szybkie i precyzyjne podejmowanie decyzji, co sprawia, że stają się one obecnie jednym z najdroższych światowych zasobów. Dlatego też Data Science rozwija się dynamicznie w wielu branżach. W marketingu historia wyszukiwania użytkowników, ich decyzje zakupowe oraz cechy osobiste, wykorzystuje się do tworzenia rekomendacji produktów czy oferowania zniżek i rabatów. Klienci są też często dzieleni na podgrupy, a do każdej z nich wysyłana jest spersonalizowana kampania marketingowa, co zwiększa prawdopodobieństwo zaznajomienia się z ofertą.

W bankowości zwykło się oceniać m. in. szanse czy dany klient spłaci swój kredyt w terminie, bazując na klientach o podobnym profilu i ich historii spłat. Bank używa tych informacji również w celu określenia  oprocentowania kredytu. Z kolei w firmach ubezpieczeniowych, dzięki zgromadzonym danym, można oszacować prawdopodobieństwo wystąpienia pewnego zdarzenia (np. śmierci, uszkodzenia samochodu, klęski żywiołowej czy choroby nowotworowej). Na tej podstawie ustala się cenę polisy ubezpieczeniowej i wysokość kolejnych składek.

Na kolekcjonowaniu i zaawansowanym przetwarzaniu danych opiera się również prognozowanie pogody. Dane gromadzone są z radarów, stacji pomiarowych i satelit. Podobnie jest w transporcie i logistyce. W tej branży najczęściej prognozuje się zwiększony ruch, zapotrzebowanie czy przewidywane opóźnienia. Informacje te służą później np. do wyceny biletów lotniczych w danym okresie. Natomiast gromadzenie i analiza danych z otoczenia w czasie rzeczywistym pozwala tworzyć autonomiczne środki transportu, takie jak samochody bez kierowcy czy bezzałogowe pociągi i drony. To dzięki śledzeniu informacji dostarczanych za pomocą sensorów (radary, kamery, lasery), komputer pojazdu może podjąć decyzję kiedy przyspieszyć, kiedy zwolnić, a kiedy się zatrzymać.

Wielkim przełomem było zastosowanie technik Data Science w medycynie. Wyniki badań pacjentów są porównywane z tysiącami podobnych, sklasyfikowanych już przypadków. Algorytmy robią to, czego nie są w stanie zrobić nawet najlepsi lekarze. W ciągu kilku sekund zestawiają ze sobą ogromne ilości danych medycznych w celu zaklasyfikowania objawów do danej grupy schorzeń. Dzięki temu o wiele prostsze okazuje się również wykrywanie mniej powszechnych schorzeń.

Data Scientist, Data Analyst czy Data Engineer?

W obszarze Data Science możemy wyróżnić 3 najważniejsze stanowiska. Choć charakter pracy często wydaje się w nich podobny, to odpowiadają one za zupełnie różne etapy pracy z danymi.

Najpopularniejszym z nich jest Data Scientist, co w języku polskim można by tłumaczyć jako  “badacz danych”. Obecnie na rynku pracy nazwa ta jednak właściwie nie funkcjonuje, a zamiast tego zwykło używać się oryginalnej wersji anglojęzycznej. Data Scientist patrzy na dane z wielu stron, starając się wykryć występujące w nich wzorce i na tej podstawie prognozować występowanie poszczególnych zdarzeń w przyszłości. Osoba pracująca na tym stanowisku cechuje się przede wszystkim wysokimi zdolnościami technicznymi oraz dużą wiedzą biznesową i dogłębnym zrozumieniem badanych zagadnień.

Kolejna rola to Data Analyst, czyli dosłownie analityk danych. Jego funkcja tworzy pomost pomiędzy zadaniami, które wykonuje Data Scientist, a tymi należącymi do analityka biznesowego (ang. Business Analyst). Głównym obowiązkiem analityków danych jest analiza dostępnych danych historycznych i wyciąganie z nich konstruktywnych wniosków. W przeciwieństwie do “badaczy danych”, analitycy nie stawiają sami hipotez, które później weryfikują. Są oni przeważnie wykorzystywani przez organizacje do znalezienia odpowiedzi na problemy biznesowe, z którymi borykają się  zarządzający lub osoby decyzyjne. Najczęściej końcowym etapem ich pracy jest sporządzenie raportu, w którym prezentowane są wnioski z przeprowadzonej analizy.

Opisana powyżej praca często nie byłaby możliwa gdyby nie rola, którą w całym tym procesie odgrywa inżynier danych (ang. Data Engineer). Jest to osoba, której codzienne zadania związane są z zarządzaniem danymi, ich pozyskiwaniem oraz wstępnym przetwarzaniem. Inżynierowie danych tworzą połączenia systemowe i programy do pozyskiwania i optymalizacji danych. Pełnią rolę architektów, budując infrastrukturę do przeobrażania i transferu danych pomiędzy poszczególnymi jednostkami sieci informatycznej firmy. Dzięki temu analitycy i badacze danych mogą w prosty sposób pozyskiwać je do swoich analiz.

Jak zdobyć pracę marzeń w Data Science?

Praca w obszarze związanym z danymi może dać nieźle zarobić, a przy okazji sprawiać niezwykłą frajdę. Jak więc rozpocząć swoją przygodę z danymi i zostać analitykiem, badaczem lub inżynierem danych? Pozyskanie jakich umiejętności może okazać się kluczowe?

Po pierwsze – znajomość matematyki i statystyki. Żeby zrozumieć działanie stosowanych metod oraz sprawdzić, którą z nich można w danym przypadku użyć, należy posiadać silne fundamenty teoretyczne. Nie da się przed tym uciec i stanowi to wyróżnik pomiędzy dobrym i słabym specjalistą. To z kolei bezpośrednio przekłada się na zakres obowiązków i wynagrodzenie. Jeśli jednak nie posiadamy stricte ścisłego wykształcenia, dużą część braków możemy nadrobić samodzielnie. W Internecie dostępnych jest wiele materiałów oraz szkoleń, które pozwolą oswoić się z wymaganymi podstawami. Organizuje się również coraz więcej kursów stacjonarnych, pokrywających wyżej wymienione zagadnienia.

Po drugie – znajomość technologii. W codziennej pracy analityka czy badacza danych niezbędna jest umiejętność programowania, dzięki której jest w stanie przetwarzać i analizować dane. Obecnie najpopularniejszym językiem programowania w Data Science jest Python, nieznacznie wyprzedzając od kilku lat R. Niezbędna może okazać się umiejętność tworzenia zapytań do baz danych w języku SQL lub NoSQL. Częstym wymogiem stawianym przez pracodawców jest także znajomość jednego z systemów kontroli wersji (np. Git lub SVN) oraz poleceń powłoki systemowej (ang. shell). Dodatkowo inżynierowie danych oprócz umiejętności zarządzania bazami danych powinni wykazać się znajomością technologii wykorzystywanych w big data (np. Apache Spark, Hadoop).

Po trzecie – wiedza biznesowa. Jest to często niesłusznie pomijany punkt, ponieważ pozwala on piąć się po szczeblach kariery w danej branży. Każda z nich rządzi się swoimi prawami i stawia przed pracownikami różne wymagania. Dlatego też zaczynając karierę analityka danych w marketingu czy logistyce, będzie nam później ciężko przeskoczyć do bankowości czy branży ubezpieczeniowej. Nie jest to jednak niemożliwe, lecz wiąże się z poświęceniem odpowiednio dużej ilości czasu na zaznajomienie się z sektorem.

Data Science – od czego zacząć?

Od czego więc należy zacząć aby zdobyć pracę w Data Science? Które umiejętności powinniśmy przyswoić jako pierwsze? Odpowiedzią na te i wiele podobnych pytań może być zapisanie się na jeden z dostępnych na rynku kursów. Może być to zarówno kurs programowania jak i dedykowany kurs Data Science. Programy tych drugich są zazwyczaj dostosowane do wymogów rynku pracy i w sposób skondensowany przekazują wiedzę we wszystkich wymaganych zakresach. Dlatego warto jest zapoznać się z dostępną obecnie ofertą szkoleń.

Na altEd znajdziesz najważniejsze informacje dotyczące kursów oraz organizujących je szkół i firm szkoleniowych. Sprawdź oferty kursów IT dostępne na naszej platformie i znajdź najlepsze zajęcia w swojej okolicy!

Jesteś w trakcie kursu lub świeżo po jego ukończeniu? Zostaw swój komentarz i oceń go na altEd. Pomóż innym w wyborze najlepszej oferty!

Powiązane artykuły

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *