IBM InfoSphere Warehouse

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

IBM InfoSphere Warehouse – środowisko do projektowania i wdrażania hurtowni danych. W ramach pakietu oprogramowania otrzymujemy narzędzia pozwalające na budowę procesów ETL, eksplorację danych (ang. Data Mining), a także tworzenie aplikacji analitycznych (OLAP) i raportów, opartych o dane strukturalne i niestrukturalne (pliki płaskie).

Architektura InfoShpere Warehouse[edytuj | edytuj kod]

InfoSphere Warehouse oparty jest o serwer baz danych IBM DB2 w wersji Enterprise Edition. Jest on wyposażony w szereg technologii wspomagających utrzymanie hurtowni danych, takich jak:

  • InfoSphere Partitioning Feature (DPF) – mechanizm pozwalający na uruchomienie bazy danych na wiele serwerów pracujących w klastrze wydajnościowym. Każda z partycji bazodanowych ma przydzielone zasoby sprzętowe (procesory, pamięć, pulę dyskową) i zarządza określoną porcją danych, bez konieczności współdzielenia tych zasobów z innymi partycjami (architektura "shared nothing"). Klaster jest przeźroczysty z perspektywy aplikacji, to jest dowolnego elementu klastra baza jest widoczna jako spójna logicznie całość. Z drugiej strony rekordy tabel są automatycznie i proporcjonalnie – dzięki wykorzystaniu funkcji hashującej – rozkładane pomiędzy kolejne węzły klastra. Dzięki temu zapytanie SQL może być wewnętrznie dekomponowane na podzapytania i wykonywane równolegle na kolejnych węzłach.
  • Głęboka kompresja danych – mechanizm ten oparty jest na słowniku wzorców, który jest budowany globalnie dla tabeli (lub jej partycji). Powtarzający się w kolejnych rekordach wzorzec jest zastępowany symbolem ze słownika kompresji, dzięki czemu w pojedynczej odczytywanej porcji danych – stronie – można umieścić większą ilość rekordów. Pozwala to osiągnąć dużo wyższą wydajność operacji wejścia/wyjścia przy zachowaniu tego samego poziomu obciążenia systemu dyskowego. Jednocześnie operacje kompresowania i dekompresowania nakładają niewielki narzut na wykorzystanie procesora.
  • Multidimentional Clustering (MDC) – mechanizm umieszczający dane w specjalnych blokach, przechowujących rekordy o tych samych wartościach kluczy MDC. Pozwala to na znaczne zredukowanie rozmiaru indeksu (jeden wpis indeksu wskazuje na blok a nie pojedynczy rekord) oraz przyspiesza operacje wejścia/wyjścia, dzięki optymalnemu ułożeniu rekordów na stronach. Mechanizm można wykorzystywać jednocześnie w połączeniu z mechanizmem partycjonowania bazy danych DPF czy klasycznym partycjonowaniem tabel.
  • Workload Management - mechanizm pozwalający na prioryzację zapytań.

Bibliografia[edytuj | edytuj kod]