- opis :
Zestaw danych rozszerzeń skrótów medycznych, który stosuje odwrotne podstawienie w skali sieci (wsrs) do zbioru danych C4, który jest kolosalną, oczyszczoną wersją korpusu indeksowania sieci Common Crawl.
Oryginalnym źródłem jest zbiór danych Common Crawl: https://commoncrawl.org
Opis konfiguracji: domyślny zestaw danych C4-WSRS.
Strona główna : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Kod źródłowy :
tfds.text.c4_wsrs.C4WSRS
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
143.01 KiB
Rozmiar zestawu danych :
5.84 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'train' | 9575852 |
'validation' | 991422 |
- Struktura funkcji :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
skrócony_fragment | Tekst | strunowy | ||
oryginalny_fragment | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :