- opis :
BIGPATENT, składający się z 1,3 miliona rekordów dokumentów patentowych USA wraz z abstraktami napisanymi przez ludzi. Każde zgłoszenie patentowe w USA jest składane zgodnie z kodem Cooperative Patent Classification (CPC). Istnieje dziewięć takich kategorii klasyfikacji:
- A (potrzeby ludzkie),
- B (Wykonywanie Operacji; Transport),
- C (chemia; metalurgia),
- D (tekstylia; papier),
- E (konstrukcje stałe),
- F (Inżynieria mechaniczna; Błyskawica; Ogrzewanie; Broń; Wysadzanie),
- G (Fizyka),
- H (elektryczność) i
- Y (ogólne oznaczanie nowej lub przekrojowej technologii)
Istnieją dwie funkcje:
- opis: szczegółowy opis patentu.
streszczenie: Streszczenie patentu.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem
Strona główna : https://evasharma.github.io/bigpatent/
Kod źródłowy :
tfds.datasets.big_patent.Builder
Wersje :
-
1.0.0
: słowa z tokenami pisane małymi literami -
2.0.0
: Aktualizacja, aby używać nieprzetworzonych ciągów znaków z wielkością liter -
2.1.2
(domyślnie): Popraw aktualizację nieprzetworzonych ciągów znaków z wielkością liter.
-
Rozmiar pliku do pobrania :
9.45 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
abstrakcyjny | Tekst | strunowy | ||
opis | Tekst | strunowy |
Klucze nadzorowane (zobacz dokument
as_supervised
):('description', 'abstract')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (domyślna konfiguracja)
Opis konfiguracji : Patenty we wszystkich kategoriach.
Rozmiar zestawu danych :
35.17 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 67072 |
'train' | 1 207 222 |
'validation' | 67068 |
- Przykłady ( tfds.as_dataframe ):
duży_patent/a
Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)a: Ludzkie potrzeby
Rozmiar zestawu danych :
5.16 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 9675 |
'train' | 174134 |
'validation' | 9674 |
- Przykłady ( tfds.as_dataframe ):
duży_patent/b
Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)b: Wykonywanie operacji; Transport
Rozmiar zestawu danych :
4.06 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 8974 |
'train' | 161520 |
'validation' | 8973 |
- Przykłady ( tfds.as_dataframe ):
duży_patent/c
Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)c: Chemia; Metalurgia
Rozmiar zestawu danych :
3.63 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 5614 |
'train' | 101042 |
'validation' | 5613 |
- Przykłady ( tfds.as_dataframe ):
duży_patent/d
Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)d: Tekstylia; Papier
Rozmiar zestawu danych :
255.56 MiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 565 |
'train' | 10164 |
'validation' | 565 |
- Przykłady ( tfds.as_dataframe ):
duży_patent/e
Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC): Konstrukcje stałe
Rozmiar zbioru danych :
871.40 MiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 1914 |
'train' | 34443 |
'validation' | 1914 |
- Przykłady ( tfds.as_dataframe ):
duży_patent/f
Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)f: Inżynieria mechaniczna; Błyskawica; Ogrzewanie; Bronie; Strzałowy
Rozmiar zestawu danych :
2.06 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 4754 |
'train' | 85568 |
'validation' | 4754 |
- Przykłady ( tfds.as_dataframe ):
duży_patent/g
Opis konfiguracji : Patenty w ramach Spółdzielczej Klasyfikacji Patentów (CPC)g: Fizyka
Rozmiar zestawu danych :
8.19 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 14386 |
'train' | 258 935 |
'validation' | 14385 |
- Przykłady ( tfds.as_dataframe ):
duży_patent/h
Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)h: Energia elektryczna
Rozmiar zestawu danych :
7.50 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 14279 |
'train' | 257 019 |
'validation' | 14279 |
- Przykłady ( tfds.as_dataframe ):
duży_patent/r
Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)y: Ogólne oznaczanie nowej lub przekrojowej technologii
Rozmiar zestawu danych :
3.46 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 6911 |
'train' | 124397 |
'validation' | 6911 |
- Przykłady ( tfds.as_dataframe ):