Co to jest analiza dużych zbiorów danych? Szybkie odpowiedzi z różnych zestawów danych

Są dane, a potem są duże zbiory danych. Więc jaka jest różnica?

Definicja Big Data

Jasna definicja dużych zbiorów danych może być trudna do ustalenia, ponieważ duże zbiory danych mogą obejmować wiele przypadków użycia. Ale ogólnie termin ten odnosi się do zbiorów danych, które są tak duże i tak złożone, że tradycyjne oprogramowanie do przetwarzania danych nie jest w stanie przechwytywać, zarządzać i przetwarzać dane w rozsądnym czasie.

Te duże zbiory danych mogą obejmować dane ustrukturyzowane, nieustrukturyzowane i częściowo ustrukturyzowane, z których każdy można przeszukiwać w celu uzyskania szczegółowych informacji.

To, ile danych faktycznie stanowi „duże”, jest przedmiotem dyskusji, ale zazwyczaj mogą to być wielokrotności petabajtów - i to w przypadku największych projektów z zakresu eksabajtów.

Często duże zbiory danych charakteryzują się trzema V:

  • ogromna ilość danych
  • szeroka gama typów danych
  • prędkość , przy której dane mają zostać przetworzone i analizowano

Dane, które tworzą magazyny dużych zbiorów danych, mogą pochodzić ze źródeł, które obejmują strony internetowe, media społecznościowe, aplikacje komputerowe i mobilne, eksperymenty naukowe oraz - coraz częściej - czujniki i inne urządzenia w internecie rzeczy (IoT).

Koncepcja big data obejmuje zestaw powiązanych komponentów, które umożliwiają organizacjom praktyczne wykorzystanie danych i rozwiązywanie wielu problemów biznesowych. Należą do nich infrastruktura IT potrzebna do obsługi technologii dużych zbiorów danych, analityka zastosowana do danych; platformy Big Data potrzebne w projektach, powiązane zestawy umiejętności i rzeczywiste przypadki użycia, które mają sens w przypadku Big Data.

Co to jest analiza danych?

To, co naprawdę zapewnia wartość ze wszystkich gromadzonych przez organizacje Big Data, to analityka zastosowana do danych. Bez analityki, która obejmuje badanie danych w celu wykrycia wzorców, korelacji, spostrzeżeń i trendów, dane to tylko zbiór zer i jedynek o ograniczonym zastosowaniu biznesowym.

Stosując analizy do dużych zbiorów danych, firmy mogą dostrzec korzyści, takie jak zwiększona sprzedaż, lepsza obsługa klienta, większa wydajność i ogólny wzrost konkurencyjności.

Analiza danych polega na badaniu zbiorów danych w celu uzyskania wglądu lub wyciągnięcia wniosków na temat ich zawartości, takich jak trendy i prognozy dotyczące przyszłych działań.

Analizując informacje za pomocą narzędzi do analizy dużych zbiorów danych, organizacje mogą podejmować bardziej przemyślane decyzje biznesowe, takie jak kiedy i gdzie przeprowadzić kampanię marketingową lub wprowadzić nowy produkt lub usługę.

Analiza może odnosić się do podstawowych aplikacji Business Intelligence lub bardziej zaawansowanych analiz predykcyjnych, takich jak te używane przez organizacje naukowe. Do najbardziej zaawansowanych rodzajów analiz danych należy eksploracja danych, w ramach której analitycy oceniają duże zbiory danych, aby zidentyfikować relacje, wzorce i trendy.

Analiza danych może obejmować eksploracyjną analizę danych (w celu zidentyfikowania wzorców i relacji w danych) oraz analizę potwierdzającą (zastosowanie technik statystycznych w celu ustalenia, czy założenie dotyczące określonego zestawu danych jest prawdziwe.

Innym rozróżnieniem jest ilościowa analiza danych (lub analiza danych liczbowych, które zawierają kwantyfikowalne zmienne, które można porównać statystycznie) a jakościowa analiza danych (która koncentruje się na danych nieliczbowych, takich jak wideo, obrazy i tekst).

Infrastruktura IT do obsługi dużych zbiorów danych

Aby koncepcja dużych zbiorów danych działała, organizacje muszą mieć odpowiednią infrastrukturę do gromadzenia i przechowywania danych, zapewniania do nich dostępu oraz zabezpieczania informacji podczas przechowywania i transportu. Wymaga to wdrożenia narzędzi do analizy dużych zbiorów danych.

Na wysokim poziomie są to systemy pamięci masowej i serwery przeznaczone do dużych zbiorów danych, oprogramowanie do zarządzania i integracji danych, oprogramowanie do analizy biznesowej i analizy danych oraz aplikacje do dużych zbiorów danych.

Duża część tej infrastruktury będzie prawdopodobnie znajdować się lokalnie, ponieważ firmy starają się nadal wykorzystywać inwestycje w centra danych. Jednak w coraz większym stopniu organizacje polegają na usługach przetwarzania w chmurze, aby sprostać większości swoich wymagań dotyczących dużych zbiorów danych.

Gromadzenie danych wymaga posiadania źródeł do gromadzenia danych. Wiele z nich - takich jak aplikacje internetowe, kanały mediów społecznościowych, aplikacje mobilne i archiwa poczty e-mail - jest już dostępnych. Jednak wraz z utrwaleniem IoT firmy mogą być zmuszone do wdrażania czujników na wszelkiego rodzaju urządzeniach, pojazdach i produktach w celu gromadzenia danych, a także nowych aplikacji, które generują dane użytkownika. (Analityka Big Data zorientowana na IoT ma własne wyspecjalizowane techniki i narzędzia.)

Aby przechowywać wszystkie przychodzące dane, organizacje muszą mieć odpowiednie miejsce do przechowywania danych. Wśród opcji przechowywania są tradycyjne hurtownie danych, jeziora danych i przechowywanie w chmurze.

Narzędzia infrastruktury bezpieczeństwa mogą obejmować szyfrowanie danych, uwierzytelnianie użytkowników i inne kontrole dostępu, systemy monitorowania, zapory ogniowe, zarządzanie mobilnością przedsiębiorstwa i inne produkty do ochrony systemów i danych,

Technologie Big Data

Oprócz powyższej infrastruktury informatycznej używanej ogólnie do danych. Istnieje kilka technologii specyficznych dla Big Data, które powinna obsługiwać Twoja infrastruktura IT.

Ekosystem Hadoop

Hadoop to jedna z technologii najbardziej kojarzonych z Big Data. Projekt Apache Hadoop tworzy oprogramowanie open source do skalowalnego przetwarzania rozproszonego.

Biblioteka oprogramowania Hadoop to struktura, która umożliwia rozproszone przetwarzanie dużych zestawów danych w klastrach komputerów przy użyciu prostych modeli programowania. Został zaprojektowany do skalowania od jednego do tysięcy serwerów, z których każdy oferuje lokalne obliczenia i pamięć masową.

Projekt zawiera kilka modułów:

  • Hadoop Common, popularne narzędzia obsługujące inne moduły Hadoop
  • Rozproszony system plików Hadoop, który zapewnia szybki dostęp do danych aplikacji
  • Hadoop YARN, platforma do planowania zadań i zarządzania zasobami klastra
  • Hadoop MapReduce, system oparty na YARN do równoległego przetwarzania dużych zbiorów danych.

Apache Spark

Część ekosystemu Hadoop, Apache Spark to platforma do przetwarzania klastrów typu open source, która służy jako silnik do przetwarzania dużych zbiorów danych w Hadoop. Platforma Spark stała się jedną z kluczowych platform przetwarzania rozproszonego Big Data i można ją wdrażać na różne sposoby. Zapewnia natywne powiązania dla języków programowania Java, Scala, Python (zwłaszcza dystrybucja Anaconda Python) i R (R jest szczególnie dobrze przystosowany do dużych zbiorów danych) i obsługuje SQL, przesyłanie strumieniowe danych, uczenie maszynowe i przetwarzanie wykresów.

Jeziora danych

Jeziora danych to repozytoria pamięci, które przechowują bardzo duże ilości surowych danych w ich rodzimym formacie, dopóki dane nie będą potrzebne użytkownikom biznesowym. Wspomaganiem wzrostu jezior danych są inicjatywy związane z transformacją cyfrową i rozwój IoT. Jeziora danych mają na celu ułatwienie użytkownikom dostępu do ogromnych ilości danych, gdy zajdzie taka potrzeba.

Bazy danych NoSQL

Konwencjonalne bazy danych SQL są zaprojektowane pod kątem niezawodnych transakcji i zapytań ad hoc, ale mają ograniczenia, takie jak sztywny schemat, co czyni je mniej odpowiednimi dla niektórych typów aplikacji. Bazy danych NoSQL rozwiązują te ograniczenia i przechowują dane oraz zarządzają nimi w sposób, który zapewnia dużą szybkość działania i dużą elastyczność. Wiele z nich zostało opracowanych przez firmy, które szukały lepszych sposobów przechowywania treści lub przetwarzania danych na potrzeby masowych witryn internetowych. W przeciwieństwie do baz danych SQL wiele baz danych NoSQL można skalować w poziomie na setki lub tysiące serwerów.

Bazy danych w pamięci

Baza danych w pamięci (IMDB) to system zarządzania bazą danych, który do przechowywania danych opiera się głównie na pamięci głównej, a nie na dysku. Bazy danych w pamięci są szybsze niż bazy danych zoptymalizowane pod kątem dysków, co jest ważnym zagadnieniem w przypadku zastosowań analizy dużych zbiorów danych oraz tworzenia hurtowni danych i składnic danych.

Umiejętności związane z dużymi danymi

Działania związane z analizą dużych zbiorów danych i dużych zbiorów danych wymagają określonych umiejętności, niezależnie od tego, czy pochodzą one z organizacji, czy przez zewnętrznych ekspertów.

Wiele z tych umiejętności jest związanych z kluczowymi komponentami technologii Big Data, takimi jak Hadoop, Spark, bazy danych NoSQL, bazy danych w pamięci i oprogramowanie analityczne.

Inne są specyficzne dla dyscyplin, takich jak nauka o danych, eksploracja danych, analiza statystyczna i ilościowa, wizualizacja danych, programowanie ogólnego przeznaczenia oraz struktura danych i algorytmy. Potrzebne są również osoby z ogólnymi umiejętnościami zarządzania, aby realizować projekty Big Data.

Biorąc pod uwagę, jak powszechne stały się projekty analityki Big Data i niedobór ludzi z tego typu umiejętnościami, znalezienie doświadczonych specjalistów może być jednym z największych wyzwań dla organizacji.

Przykłady użycia analizy dużych zbiorów danych

Big data i analizy można zastosować do wielu problemów biznesowych i przypadków użycia. Oto kilka przykładów:

  • Analizy klientów. Firmy mogą analizować dane klientów, aby poprawić ich jakość, poprawić współczynniki konwersji i zwiększyć retencję.
  • Analityka operacyjna. Poprawa wydajności operacyjnej i lepsze wykorzystanie aktywów korporacyjnych to cele wielu firm. Narzędzia do analizy dużych zbiorów danych mogą pomóc firmom w znalezieniu sposobów na bardziej wydajne działanie i poprawę wydajności.
  • Zapobieganie oszustwom. Narzędzia i analizy Big Data mogą pomóc organizacjom w identyfikowaniu podejrzanych działań i wzorców, które mogą wskazywać na nieuczciwe zachowanie, i pomagają ograniczać ryzyko.
  • Optymalizacja cen. Firmy mogą korzystać z analizy dużych zbiorów danych, aby optymalizować ceny, jakie pobierają za produkty i usługi, pomagając zwiększyć przychody.