Jak połączyć zbiory danych w aplikacji Hugging Face

Jak Polaczyc Zbiory Danych W Aplikacji Hugging Face



Biblioteka „zestawów danych” firmy Hugging Face zapewnia wygodny sposób pracy i manipulowania zbiorami danych na potrzeby zadań związanych z przetwarzaniem języka naturalnego. Jedną z przydatnych funkcji oferowanych przez bibliotekę jest concatenate_datasets(), która umożliwia połączenie wielu zestawów danych w jeden zestaw danych. Poniżej znajduje się krótki przegląd funkcji concatenate_datasets() i sposobu jej używania.

concatenate_datasets()

Opis:

Biblioteka „zestawów danych” Hugging Face udostępnia funkcję concatenate_datasets(). Służy do łączenia wielu zbiorów danych w jeden zbiór danych wzdłuż określonej osi. Ta funkcja jest szczególnie przydatna, gdy masz wiele zbiorów danych o tej samej strukturze i chcesz połączyć je w ujednolicony zbiór danych w celu dalszego przetwarzania i analizy.







Składnia:



z zbiory danych import concatenate_datasets

połączony_zestaw_danych = concatenate_datasets ( zbiory danych , = 0 , informacje = Nic )

Parametry:

zbiory danych (lista zestawu danych): lista zestawów danych, które chcesz połączyć. Te zbiory danych powinny mieć kompatybilne funkcje, co oznacza, że ​​mają ten sam schemat, nazwy kolumn i typy danych.



(int, opcjonalnie, default=0): Oś, wzdłuż której należy wykonać konkatenację. W przypadku większości zbiorów danych NLP używana jest domyślna wartość 0, co oznacza, że ​​zbiory danych są łączone w pionie. Jeśli ustawisz oś = 1, zbiory danych zostaną połączone poziomo, zakładając, że mają różne kolumny jako cechy.





informacje (datasets.DatasetInfo, opcjonalnie): Informacje o połączonym zestawie danych. Jeśli nie zostaną podane, informacje zostaną wywnioskowane z pierwszego zestawu danych na liście.

Zwroty:

połączony_zestaw_danych (Zbiór danych): Wynikowy zbiór danych po połączeniu wszystkich wejściowych zbiorów danych.



Przykład:

# Krok 1: Zainstaluj bibliotekę zestawów danych

# Możesz go zainstalować za pomocą pip:

# !pip zainstaluj zestawy danych

# Krok 2: Zaimportuj wymagane biblioteki

z zbiory danych import ładowanie_zestawu danych , concatenate_datasets

# Krok 3: Załaduj zestawy danych recenzji filmów IMDb

# Wykorzystamy dwa zbiory danych IMDb, jeden dla pozytywnych recenzji

#i kolejny za negatywne recenzje.

# Załaduj 2500 pozytywnych recenzji

poz_zestawu danych = ładowanie_zestawu danych ( „imdb” , podział = „pociąg [:2500]” )

# Załaduj 2500 negatywnych recenzji

zbiór_danych_neg = ładowanie_zestawu danych ( „imdb” , podział = „pociąg [-2500:]” )

# Krok 4: Połącz zbiory danych

# Łączymy oba zbiory danych wzdłuż osi = 0, tak jak to ma miejsce

ten sam schemat ( te same cechy ) .

połączony_zestaw_danych = concatenate_datasets ( [ poz_zestawu danych , zbiór_danych_neg ] )

# Krok 5: Przeanalizuj połączony zbiór danych

# Dla uproszczenia policzmy liczbę dodatnich i ujemnych

# recenzji w połączonym zbiorze danych.

liczba_pozytywnych_recenzji = suma ( 1 Do etykieta W

połączony_zestaw_danych [ 'etykieta' ] Jeśli etykieta == 1 )

liczba_negatywnych_recenzji = suma ( 1 Do etykieta W

połączony_zestaw_danych [ 'etykieta' ] Jeśli etykieta == 0 )

# Krok 6: Wyświetl wyniki

wydrukować ( „Liczba pozytywnych recenzji:” , liczba_pozytywnych_recenzji )

wydrukować ( „Liczba negatywnych recenzji:” , liczba_negatywnych_recenzji )

# Krok 7: Wydrukuj kilka przykładowych recenzji z połączonego zbioru danych

wydrukować ( ' \N Kilka przykładowych recenzji:” )

Do I W zakres ( 5 ) :

wydrukować ( F „Recenzja {i + 1}: {concatenate_dataset['text'][i]}” )

Wyjście:

Poniżej znajduje się wyjaśnienie programu bibliotecznego „zestawów danych” Hugging Face, który łączy dwa zbiory danych recenzji filmów IMDb. Wyjaśnia to cel programu, jego użycie i kroki związane z kodem.

Podajmy bardziej szczegółowe wyjaśnienie każdego kroku w kodzie:

# Krok 1: Zaimportuj wymagane biblioteki

z zbiory danych import ładowanie_zestawu danych , concatenate_datasets

W tym kroku importujemy niezbędne biblioteki do programu. Potrzebujemy funkcji „load_dataset”, aby załadować zestawy danych recenzji filmów IMDb, oraz funkcji „concatenate_datasets”, aby je później połączyć.

# Krok 2: Załaduj zestawy danych recenzji filmów IMDb

# Załaduj 2500 pozytywnych recenzji

poz_zestawu danych = ładowanie_zestawu danych ( „imdb” , podział = „pociąg [:2500]” )

# Załaduj 2500 negatywnych recenzji

zbiór_danych_neg = ładowanie_zestawu danych ( „imdb” , podział = „pociąg [-2500:]” )

Tutaj używamy funkcji „load_dataset”, aby pobrać dwa podzbiory zbioru danych IMDb. „dataset_pos” zawiera 2500 pozytywnych recenzji, a „dataset_neg” zawiera 2500 negatywnych recenzji. Używamy parametru split, aby określić zakres przykładów do załadowania, co pozwala nam wybrać podzbiór całego zbioru danych.

# Krok 3: Połącz zbiory danych

połączony_zestaw_danych = concatenate_datasets ( [ poz_zestawu danych , zbiór_danych_neg ] )

Na tym etapie łączymy dwa podzbiory zbioru danych IMDb w jeden zbiór danych o nazwie „concatenated_dataset”. Używamy funkcji „concatenate_datasets” i przekazujemy ją wraz z listą zawierającą dwa zbiory danych do połączenia. Ponieważ oba zbiory danych mają te same cechy, łączymy je wzdłuż osi = 0, co oznacza, że ​​wiersze są ułożone jeden na drugim.

# Krok 4: Przeanalizuj połączony zbiór danych

liczba_pozytywnych_recenzji = suma ( 1 Do etykieta W

połączony_zestaw_danych [ 'etykieta' ] Jeśli etykieta == 1 )

liczba_negatywnych_recenzji = suma ( 1 Do etykieta W

połączony_zestaw_danych [ 'etykieta' ] Jeśli etykieta == 0 )

Tutaj przeprowadzamy prostą analizę połączonego zbioru danych. Do zliczania pozytywnych i negatywnych recenzji używamy wyrażeń listowych wraz z funkcją „suma”. Iterujemy poprzez label” w kolumnie „concatenated_dataset” i zwiększaj liczbę za każdym razem, gdy napotkamy etykietę dodatnią (1) lub etykietę ujemną (0).

# Krok 5: Wyświetl wyniki

wydrukować ( „Liczba pozytywnych recenzji:” , liczba_pozytywnych_recenzji )

wydrukować ( „Liczba negatywnych recenzji:” , liczba_negatywnych_recenzji )

Na tym etapie drukujemy wyniki naszej analizy – liczbę pozytywnych i negatywnych recenzji w połączonym zbiorze danych.

# Krok 6: Wydrukuj kilka przykładowych recenzji

wydrukować ( ' \N Kilka przykładowych recenzji:” )

Do I W zakres ( 5 ) :

wydrukować ( F „Recenzja {i + 1}: {concatenate_dataset['text'][i]}” )

Na koniec prezentujemy kilka przykładowych recenzji z połączonego zbioru danych. Przeglądamy pierwsze pięć przykładów w zbiorze danych i drukujemy ich treść tekstową, korzystając z kolumny „tekst”.

Ten kod demonstruje prosty przykład wykorzystania biblioteki „zestawów danych” Hugging Face do ładowania, łączenia i analizowania zbiorów danych recenzji filmów IMDb. Podkreśla zdolność biblioteki do usprawnienia obsługi zbiorów danych NLP i ukazuje jej potencjał w zakresie tworzenia bardziej wyrafinowanych modeli i aplikacji przetwarzania języka naturalnego.

Wniosek

Program w języku Python korzystający z biblioteki „zestawów danych” Hugging Face z powodzeniem demonstruje połączenie dwóch zbiorów danych z recenzjami filmów IMDb. Ładując podzbiory recenzji pozytywnych i negatywnych, program łączy je w jeden zbiór danych za pomocą funkcji concatenate_datasets(). Następnie przeprowadza prostą analizę, zliczając liczbę pozytywnych i negatywnych recenzji w połączonym zbiorze danych.

Biblioteka „zestawów danych” upraszcza proces obsługi i manipulowania zbiorami danych NLP, czyniąc ją potężnym narzędziem dla badaczy, programistów i praktyków NLP. Dzięki przyjaznemu dla użytkownika interfejsowi i rozbudowanym funkcjonalnościom biblioteka umożliwia łatwe wstępne przetwarzanie, eksplorację i transformację danych. Program przedstawiony w tej dokumentacji stanowi praktyczny przykład wykorzystania biblioteki do usprawnienia zadań związanych z łączeniem i analizą danych.

W rzeczywistych scenariuszach program ten może służyć jako podstawa do bardziej złożonych zadań związanych z przetwarzaniem języka naturalnego, takich jak analiza nastrojów, klasyfikacja tekstu i modelowanie języka. Korzystając z biblioteki „zestawów danych”, badacze i programiści mogą efektywnie zarządzać zbiorami danych na dużą skalę, ułatwiać eksperymentowanie i przyspieszać rozwój najnowocześniejszych modeli NLP. Ogólnie rzecz biorąc, biblioteka „zestawów danych” Hugging Face stanowi istotny atut w dążeniu do postępu w przetwarzaniu i rozumieniu języka naturalnego.