UWAGA! Używamy plików cookies, by ułatwić korzystanie z naszego serwisu. Jeśli nie chcesz, by pliki cookies były zapisywane na Twoim dysku zmień ustawienia swojej przeglądarki. Co to są pliki cookies?



Wolfram Language
Machine Learning
Co to jest Big Data?
Wraz z rozwojem technologii IT pojawił się termin Big Data na określenie wielkiej ilości danych o różnorodnej strukturze, których przetwarzanie i wykorzystanie wymaga zastosowania niestandardowych środków.

Data Science to nowatorska technologia umożliwiająca wyciąganie użytecznych wniosków z niestandardowych danych.
  • Terminem Big Data określa się duże zbiory zmiennych danych o różnorodnej strukturze, których przetwarzanie wymaga użycia niestandardowych środków
  • Zbioru nie da się przetwarzać przy użyciu typowych, powszechnie stosowanych do tej pory metod.
  • Dla określenia Big Data operuje się często modelem określanym jako 4V:
    - duża ilość danych (volume)
    - duża zmienność (variability)
    - duża różnorodność (variety)
    - wartość danych (value)
  • Rosnąca liczba zastosowań w biznesie, polityce i samorządach
  • Gdzie zaczyna się problem Big Data
  • Współczesny świat dostarcza coraz większą liczbę danych. Nie tak dawno szokowały pliki rozmiarów gigabajtowych, teraz już nikogo to nie dziwi. Rozmiary plików danych już dawno przekroczyły barierę wielkości pamięci RAM w typowych komputerach.

    Wielkość zbiorów danych rośnie szybciej niż pojemność dysków twardych, które sięgają pojedynczych terabajtów (TB). Prowadzony aktualnie projekt obserwacji astronomicznych Sloan Digital Sky Survey dostarczył już 5TB danych i ciągle jest rozwijany.

    Project Common Crawl zajmuje się indeksowaniem Internetu i gromadzeniem danych o indeksowanych stronach. Dane udostępniane są bezpłatnie każdej zainteresowane osobie. Dane gromadzone są od 2012 roku, a w okresie pierwszego półrocza 2018 roku jeden miesiąc stanowi średnio około 250 TB danych.

    Rozpoczęty w 2008 roku projekt 1000 Genome Project ma na celu stworzenie katalogu ludzkiego genomu. Już w marcu 2012 roku zgromadzono w ramach tego projektu 260 TB danych.

    To tylko najbardziej znane przykłady. Efektywne przetwarzanie plików rozmiaru setek terabajtów jest wyzwaniem nie tylko w zakresie metod analizy, ale również wymaga nowych technik przechowywania danych, gdy muszą one być dzielone i rozproszone na wielu komputerach. Można przyjąć, że termin Big Data będzie oznaczał zbiory danych, których rozmiar jest porównywalny z wielkością pamięci operacyjnej, a górna granica nie jest znana. Tworzone są specjalne rozwiązania sprzętowe i opracowywane algorytmy takie jak Hadoop Cluster i oprogramowanie MapReduce, które z powodzeniem realizuje rozproszone przechowywanie zbiorów Bid Data i ich przetwarzanie.

  • Wolfram Language i Big Date
  • Co oferuje Wolfram Language w zakresie operacji na tak dużych zbiorach?
    Wydajne procedury importu danych w formatach tekstowych i binarnych pozwalają na szybki import dużych plików. Dostępny jest już pakiet procedur dla Wolfram Language, który umożliwia pracę w klastrach Hadoop i wykorzystanie oprogramowania MapReduce.