Jak korzystać z tokenizerów w transformatorach z twarzą przytulającą?

Przetwarzanie języka naturalnego (NLP) działa na surowej postaci danych. Modele uczenia maszynowego są szkolone na złożonych danych, ale nie potrafią zrozumieć surowych danych. Z tą surową formą danych musi być powiązana pewna wartość liczbowa. Wartość ta określa wartość i znaczenie słowa w danych i na tej podstawie przeprowadzane są obliczenia.

Ten artykuł zawiera przewodnik krok po kroku dotyczący używania tokenizatorów w transformatorach ściskających twarz.

Co to jest tokenizator?

Tokenizer jest ważną koncepcją NLP, a jego głównym celem jest przełożenie surowego tekstu na liczby. W tym celu stosuje się różne techniki i metodologie. Warto jednak zaznaczyć, że każda technika służy określonemu celowi.
Jak korzystać z tokenizerów w transformatorach z twarzą przytulającą?

Jak korzystać z tokenizerów w transformatorach z twarzą przytulającą?

Bibliotekę tokenizera należy najpierw zainstalować przed jej użyciem i zaimportowaniem z niej funkcji. Następnie wytrenuj model za pomocą narzędzia AutoTokenizer, a następnie podaj dane wejściowe w celu przeprowadzenia tokenizacji.

Hugging Face wprowadza trzy główne kategorie tokenizacji, które podano poniżej:

Tokenizator oparty na słowach
Tokenizator oparty na znakach
Tokenizator oparty na podsłowach

Oto przewodnik krok po kroku dotyczący korzystania z tokenizerów w Transformersach:

Krok 1: Zainstaluj Transformers
Aby zainstalować transformatory, użyj polecenia pip w następującym poleceniu:

! pypeć zainstalować transformatory

Krok 2: Importuj klasy
Z transformatorów, import rurociąg , I Klasyfikacja AutoModelForSequence biblioteka do przeprowadzenia klasyfikacji:

z rurociągu importu transformatorów, AutoModelForSequenceClassification

Krok 3: Importuj model
„ Klasyfikacja AutoModelForSequence ” to metoda należąca do Auto-Class służąca do tokenizacji. The from_pretrained() Metoda służy do zwrócenia poprawnej klasy modelu na podstawie typu modelu.

Tutaj podaliśmy nazwę modelu w „ Nazwa modelu ' zmienny:

Nazwa modelu = „distilbert-base-uncased-finetuned-sst-2-english”
model_przedtreningowy =AutoModelForSequenceClassification.from_pretrained ( Nazwa modelu )

Krok 4: Zaimportuj AutoTokenizer
Podaj następujące polecenie, aby wygenerować tokeny, przekazując „ Nazwa modelu ” jako argument:

z transformatorów importuje AutoTokenizer

wygenerowany token =AutoTokenizer.z_wstępnie przeszkolonego ( Nazwa modelu )

Krok 5: Wygeneruj token
Teraz wygenerujemy tokeny na zdaniu “Uwielbiam dobre jedzenie” za pomocą „ wygenerowany token ' zmienny:

słowa =wygenerujtoken ( „Uwielbiam dobre jedzenie” )
wydrukować ( słowa )

Dane wyjściowe są podawane w następujący sposób:

Kod do powyższego Google Co jest tu podane.

Wniosek

Aby użyć Tokenizerów w Hugging Face, zainstaluj bibliotekę za pomocą polecenia pip, wytrenuj model za pomocą AutoTokenizera, a następnie podaj dane wejściowe w celu przeprowadzenia tokenizacji. Stosując tokenizację, przypisz wagi słowom, na podstawie których są one sekwencjonowane, aby zachować znaczenie zdania. Wynik ten określa również ich wartość do analizy. Ten artykuł jest szczegółowym przewodnikiem na temat korzystania z tokenizerów w Transformersach Przytulających Twarzy.

Jak korzystać z tokenizerów w transformatorach z twarzą przytulającą?

Co to jest tokenizator?

Jak korzystać z tokenizerów w transformatorach z twarzą przytulającą?

Wniosek

Kategoria

Popularne Wiadomości

Co to jest Haptics na iPhonie

10 najlepszych wtyczek Oh My ZSH, które musisz mieć dla użytkowników komputerów Mac

Zainstaluj MySQL na Ubuntu 24.04

Schematy kolorów terminala Windows

Szyfrowanie szyfrem afinicznym przy użyciu języka Python

Co to jest Stack.pop() w Javie

SQL AND

Jak zaprojektować obwody obcinające diody i obcinacz diod

[Część 3] Jak używać AWS CLI do zarządzania instancjami EC2

Elasticsearch Wybierz określone pola

Jak rozwiązywać typowe problemy w Metasploit podczas testów penetracyjnych

Jak ustawić klucz OpenAI dla LangChain w Pythonie

Wiadomość Git Commit: Najlepsze praktyki

Jak skonfigurować macierz RAID za pomocą instalatora Debiana 12

Co to jest transformacja gwiazda-delta

Co to jest BCM i dlaczego jest używany w Raspberry Pi

Znaki specjalne w C++

Jak pobrać i zainstalować Sklep Google Play na Windows 11?

Jak zainstalować system Windows 11 (maszynę wirtualną) na VirtualBox?

Jak naprawić nieustawioną zmienną TERM