Metoda przytulania twarzy z filtrem().

Metoda Przytulania Twarzy Z Filtrem



Hugging Face ma kilka modeli i zbiorów danych przetwarzania języka naturalnego (NLP). Te ogromne zbiory danych zawierają wiele informacji, które pomagają w dokładnym szkoleniu modelu. Czasami jednak nie potrzebujemy całego zbioru danych, gdyż do zaspokojenia bieżących potrzeb potrzebujemy jedynie jego niewielkiej części. Jeśli chcemy używać tego samego zbioru danych co zwykle ze wszystkimi informacjami, szkolenie modelu i optymalizacja zajmują dużo czasu, co jest stratą czasu.

Potrzebujemy więc jakiejś metody lub pakietu, który będzie w stanie wyodrębnić odpowiednie informacje ze zbiorów danych. W prostym języku możemy powiedzieć, że potrzebujemy dodatkowej opcji filtrowania, aby filtrować zbiory danych zgodnie z naszymi wymaganiami.

Hugging Face zapewnia różne opcje filtrowania zbiorów danych, co pomaga użytkownikom tworzyć niestandardowe zbiory danych, które zawierają wyłącznie przykłady lub informacje spełniające określone warunki.







Wybierz metodę ().

Metoda ta działa na liście indeksów, co oznacza, że ​​musimy zdefiniować listę. Wewnątrz tej listy musimy wymienić wszystkie wartości indeksów wierszy, które chcemy wyodrębnić. Jednak ta metoda działa tylko w przypadku małych zbiorów danych, a nie w przypadku dużych zbiorów danych, ponieważ nie jesteśmy w stanie zobaczyć całego zbioru danych, jeśli jest on w GB (gigabajtach) lub TB (terabajtach).



Przykład :

nowy_zestaw_danych = zbiór danych. wybierać ( [ 0 , jedenaście , dwadzieścia jeden , Cztery pięć , pięćdziesiąt , 55 ] )

wydrukować ( tylko ( nowy_zestaw_danych ) )

W tym przykładzie zastosowaliśmy metodę „select”, aby odfiltrować wymagane informacje ze zbioru danych.



Metoda filtrowania().

Metoda filter() rozwiązuje problemy związane z procesem Select(), ponieważ nie ma określonego warunku. Metoda filter() zwraca wszystkie wiersze pasujące do określonej sytuacji lub warunku.





Przykład: Zapisujemy ten program w Pythonie pod nazwą „test.py”.

z zbiory danych import ładowanie_zestawu danych

# Krok 1: Załaduj zbiór danych
zbiór danych = ładowanie_zestawu danych ( „imdb” )

# Krok 2: Zdefiniuj funkcję filtrowania
def Filtr niestandardowy ( przykład ) :
„””
Niestandardowa funkcja filtrowania pozwalająca zachować przykłady z wartościami pozytywnymi
sentyment (etykieta == 1).
„””

powrót przykład [ 'etykieta' ] == 1

# Krok 3: Zastosuj filtr, aby utworzyć nowy filtrowany zbiór danych
filtrowany_zestaw_danych = zbiór danych. filtr ( Filtr niestandardowy )

# Krok 4: Sprawdź dostępne nazwy kolumn w przefiltrowanym zbiorze danych
wydrukować ( „Dostępne kolumny w przefiltrowanym zbiorze danych:” ,
filtrowany_zestaw_danych. nazwy_kolumn )

# Krok 5: Uzyskaj dostęp do informacji z przefiltrowanego zbioru danych
filtrowane_przykłady = filtrowany_zestaw_danych [ 'pociąg' ]
liczba_filtrowanych_przykładów = tylko ( filtrowane_przykłady )

# Krok 6: Wydrukuj całkowitą liczbę przefiltrowanych przykładów
wydrukować ( „Łączna liczba przefiltrowanych przykładów:” , liczba_filtrowanych_przykładów )

Wyjście:



Wyjaśnienie:

Linia 1: Importujemy wymagany pakiet loading_dataset ze zbiorów danych.

Linia 4: Ładujemy zbiór danych „imdb” za pomocą metody loading_dataset.

Linie od 7 do 12: Definiujemy niestandardową funkcję filtrowania Filtr niestandardowy aby zachować przykłady z pozytywnym nastawieniem (etykieta == 1). Ta funkcja zwraca tylko te wiersze, których etykieta ma wartość 1.

Linia 15: Ta linia pokazuje, że zbiór danych zawiera dane z recenzji filmów „imdb”. Teraz stosujemy funkcję filtrowania do tej bazy danych, aby oddzielić pozytywne recenzje od bazy danych, która jest dalej przechowywana w „filtered_dataset”.

Linie 18 i 19: Teraz sprawdzamy, jakie nazwy kolumn są dostępne w zestawie filtered_dataset. Zatem kod „filtered_dataset.column_names” zawiera szczegółowe informacje na temat naszych wymagań.

Linie 22 i 23: W tych wierszach filtrujemy kolumnę „pociąg” zestawu filtered_dataset i drukujemy całkowitą liczbę (długość) kolumny pociągu.

Linia 26: W tej ostatniej linii drukujemy wynik z linii nr 23.

Filter() z indeksami

Metody filter() można także używać z indeksami, co widać w trybie Select(). W tym celu musimy jednak wspomnieć, że słowo kluczowe „with_indices=true” musi zostać określone poza metodą filter(), jak pokazano w poniższym przykładzie:

zestaw_danych nieparzystych = zbiór danych. filtr ( lambda przykład , idx: idx% 2 != 0 , z_indeksami = PRAWDA )

wydrukować ( tylko ( zestaw_danych nieparzystych ) )

W tym przykładzie użyliśmy metody filter() do odfiltrowania wymaganych informacji ze zbioru danych, włączając tylko te wiersze, które są nieparzyste.

Pełne szczegóły każdego parametru metody filter() można znaleźć tutaj połączyć .

Wniosek

Biblioteka zbiorów danych Hugging Face zapewnia potężny i przyjazny dla użytkownika zestaw narzędzi do wydajnej pracy z różnymi zbiorami danych, szczególnie w kontekście zadań związanych z przetwarzaniem języka naturalnego (NLP) i uczeniem maszynowym. Funkcja filter() zaprezentowana w programie umożliwia badaczom i praktykom wyodrębnienie odpowiednich podzbiorów danych poprzez zdefiniowanie kryteriów filtrowania zdefiniowanych przez użytkownika. Korzystając z tej funkcjonalności, użytkownicy mogą bez wysiłku tworzyć nowe zbiory danych, spełniające określone warunki, takie jak utrzymanie pozytywnego nastawienia w recenzjach filmów lub wyodrębnianie określonych danych tekstowych.

Ta demonstracja krok po kroku ilustruje, jak łatwo można załadować zestaw danych, zastosować niestandardowe funkcje filtrowania i uzyskać dostęp do przefiltrowanych danych. Dodatkowo elastyczność parametrów funkcji pozwala na niestandardowe operacje filtrowania, w tym obsługę wielokrotnego przetwarzania dużych zbiorów danych. Dzięki bibliotece zbiorów danych Hugging Face użytkownicy mogą usprawnić swoje dane.