Jakie są typy danych Amazon Redshift?

Jakie Sa Typy Danych Amazon Redshift



Amazon Redshift to rozwiązanie chmurowe oferowane przez AWS, które spełnia funkcję hurtowni danych. Hurtownia danych to duża przestrzeń w chmurze, w której przechowywane są ogromne ilości danych. Różnica między hurtownią danych a bazą danych polega na tym, że ta pierwsza przechowuje nie tylko aktualne dane, ale także pełną historię danych.

W tym artykule dowiesz się o Amazon Redshift firmy AWS i typach danych obsługiwanych przez tę usługę.







Co to jest Amazon RedShift?

Jest to oparte na chmurze rozwiązanie do przechowywania danych „PostgreSQL” . Wykorzystuje technologię tzw „Masowo równoległe przetwarzanie (MPP)” przetwarzać petabajty danych z prędkością błyskawicy. Zapewnia to łatwe rozwiązanie do przewidywania w czasie rzeczywistym na podstawie danych historycznych i rozwiązań strumieniowych.



Poniższy rysunek przedstawia mechanizm działania Amazon Redshift:







To graficzne wyjaśnienie działania Amazon Redshift jest bardzo proste i jasne. Dostarcza nam informacji o tym, jak dane są pobierane i dalej przetwarzane w celu generowania danych wyjściowych i tworzenia aplikacji opartych na danych.

Architekturę hurtowni danych Amazon Redshift można również zobaczyć na poniższym rysunku:



Teraz przejdziemy do zastosowań i funkcji tej usługi.

Cechy

Jak już wspomniano, Amazon Redshift jest oparty na PostgreSQL i wykorzystuje technologię o nazwie Massively Parallel Processing, która umożliwia przetwarzanie petabajtów danych w mgnieniu oka. Dlatego Redshift oferuje dużą liczbę funkcji i zastosowań. Niektóre z tych funkcji są poniżej:

  • Bezpieczeństwo i szyfrowanie danych.
  • Analityka biznesowa.
  • Obsługa aplikacji oparta na danych.
  • Analiza predykcyjna.
  • Automatyczne powtarzanie zadań.
  • Jednoczesne skalowanie danych.
  • Magazyn danych.

Niektóre dodatkowe funkcje tej usługi można zobaczyć na poniższym rysunku:

To była większość funkcji, które oferuje Redshift, a teraz przejdziemy do typów danych obsługiwanych przez tę usługę.

Typy danych

Amazon Redshift to rozwiązanie do przechowywania danych z dużą liczbą funkcji. Obsługuje zarówno ustrukturyzowane, jak i nieustrukturyzowane typy danych. Ponieważ jest oparty na PostgreSQL, danymi można manipulować za pomocą prostych zapytań SQL.

Teraz pojawia się kolejne pytanie, tj. czym różnią się te formaty danych od siebie? Omówmy te dwa formaty danych.

Dane strukturalne

Wysoce sformatowany typ danych, który jest łatwo tłumaczony przez algorytmy uczenia maszynowego, nazywany jest danymi strukturalnymi. Baza danych SQL działa z danymi strukturalnymi. Dane strukturalne są w formie tabelarycznej, takiej jak dane używane przez relacyjne bazy danych

Jednym z powszechnie stosowanych systemów zarządzania bazami danych SQL jest MYSQL. Jego architekturę można zobaczyć poniżej na podanym rysunku:

Dane nieustrukturyzowane

Dane nieustrukturyzowane to dane bez wzorców i formatów, takie jak dane używane w nierelacyjnych bazach danych. MongoDB to słynna nierelacyjna baza danych. Zapytania SQL nie działają na nierelacyjnych bazach danych, dlatego te bazy danych są również nazywane bazami danych NoSQL.

Jak już wspomniano, MongoDB jest nieustrukturyzowanym systemem zarządzania bazą danych, a jego architekturę można zobaczyć poniżej na podanym rysunku:

Przeszliśmy przez dwa podstawowe typy danych używane w bazach danych, a teraz przejdziemy do rzeczywistych typów danych obsługiwanych przez Amazon Redshift. Te typy danych to:

  • Dane liczbowe
  • Dane postaci
  • Dane daty i godziny
  • Dane logiczne
  • HLLSKETCH Dane
  • SUPER dane
  • WYMIANA Dane

Omówmy te typy danych:

Dane liczbowe

Ten typ danych jest oczywisty. Obsługuje dane w postaci liczb całkowitych, dziesiętnych, zmiennoprzecinkowych i innych numerycznych typów danych.

Charakterystykę typu danych integer można zobaczyć na poniższym rysunku:

Dziesiętny typ danych przechowuje dane na podstawie precyzji użytkownika. Jego cechy są następujące:

Dane postaci

Typy danych CHAR i VARCHAR należą do kategorii typów danych opartych na znakach. NCHAR i NVARCHAR to również typy danych typu znakowego. W przeciwieństwie do CHAR i VARCHAR, te dwa typy danych przechowują znaki Unicode o stałej długości. Przyjrzyjmy się właściwościom tych typów danych, takim jak:

  • CHAR, CHARACTER, NCHAR mają zasięg 4 KB.
  • VARCHAR, NVARCHAR ma zasięg 64 KB.
  • BPCHAR ma zakres 256 bajtów.
  • TEXT ma zakres 260 bajtów.

Dane daty i godziny

Typy danych DateTime to DATE, TIME, TIMETZ,TIMESTAMP, TIMESTAMPTZ. Funkcjonalne możliwości tych typów danych są następujące:

  • DATE po prostu przechowuje daty kalendarzowe.
  • CZAS przechowuje czas bez odniesienia do jakiejkolwiek strefy czasowej. Domyślnie jest to czas UTC.
  • TIMETZ przechowuje czas w odniesieniu do strefy czasowej. Domyślnie jest to czas UTC zarówno w tabelach użytkownika, jak iw tabelach systemowych.
  • TIMESTAMP zawiera nie tylko czas, ale także daty. Domyślnie jest to czas UTC zarówno w tabelach użytkownika, jak iw tabelach systemowych.
  • TIMESTAMPTZ zawiera nie tylko czas, ale także daty. Domyślnie jest to UTC tylko w tabelach użytkowników.

Dane logiczne

Typ danych Boolean jest typem danych binarnych, co oznacza, że ​​są tylko dwie wartości. Tabela cech dla typu danych Boolean jest przedstawiona poniżej na rysunku:

HLLSKETCH Dane

Ten typ danych służy do przechowywania szkiców. Przesunięcie ku czerwieni może reprezentować szkice w postaci rzadkiej lub gęstej. Szkice zaczynają się jako rzadkie i stopniowo stają się gęste, gdy gęsty format zapewnia większą wydajność po kliknięciu łącza.

SUPER dane

Ten typ danych dotyczy danych nieustrukturyzowanych, które mogą mieć postać tablic, struktur zagnieżdżonych lub JSON. Nie ma modelu ani formatu danych. Użytkownicy mogą przeglądać więcej informacji, korzystając z łącza.

WYMIANA Dane

Ten typ danych przechowuje również znaki. Długość jest jednak ograniczona. Amazon Redshift umożliwia rzutowanie danych VARBYTE na dowolne dane typu całkowitego lub znakowego. Aby uzyskać więcej informacji na temat tego typu danych, kliknij poniższy link.

To wszystko, czym jest Amazon Redshift i obsługiwane przez niego typy danych.

Wniosek

Amazon Redshift to usługa AWS, która w swojej podstawowej formie służy jako hurtownia danych, ale jest bardzo potężnym i funkcjonalnym rozwiązaniem do analityki i prognozowania. W tym artykule omówiono przesunięcie ku czerwieni i obsługiwane przez niego typy danych. Pokrótce wyjaśniono te typy danych wraz z ich charakterystyką.