- Opis :
Zbiór danych Diversity in Conversational AI Evaluation for Safety ( DICES ).
Podejścia do uczenia maszynowego są często szkolone i oceniane przy użyciu zestawów danych, które wymagają wyraźnego oddzielenia przykładów pozytywnych i negatywnych. Takie podejście nadmiernie upraszcza naturalną podmiotowość obecną w wielu zadaniach i elementach treści. Zaciemnia także wrodzoną różnorodność ludzkich percepcji i opinii. Często zadania mające na celu zachowanie różnorodności treści i różnorodności u ludzi są dość kosztowne i pracochłonne. Aby wypełnić tę lukę i ułatwić bardziej dogłębne analizy wydajności modelu, proponujemy zbiór danych DICES – unikalny zbiór danych z różnorodnymi perspektywami na bezpieczeństwo rozmów generowanych przez sztuczną inteligencję. Koncentrujemy się na zadaniu oceny bezpieczeństwa konwersacyjnych systemów AI. Zbiór danych DICES zawiera szczegółowe informacje demograficzne o każdym oceniającym, niezwykle wysoką replikację unikalnych ocen na rozmowę, aby zapewnić statystyczną istotność dalszych analiz, a także koduje głosy oceniających jako rozkład w różnych grupach demograficznych, aby umożliwić dogłębną eksplorację różnych strategii agregacji ocen.
Ten zbiór danych dobrze nadaje się do obserwacji i pomiaru wariancji, niejednoznaczności i różnorodności w kontekście bezpieczeństwa konwersacyjnej sztucznej inteligencji. Do zbioru danych dołączony jest artykuł opisujący zestaw wskaźników pokazujących, jak różnorodność oceniających wpływa na postrzeganie bezpieczeństwa przez oceniających z różnych regionów geograficznych, grup etnicznych, grup wiekowych i płci. Celem zbioru danych DICES jest wykorzystanie go jako wspólnego punktu odniesienia do oceny bezpieczeństwa konwersacyjnych systemów sztucznej inteligencji.
OSTRZEŻENIE O TREŚCI : ten zbiór danych zawiera przeciwstawne przykłady rozmów, które mogą być obraźliwe.
Strona główna : https://github.com/google-research-datasets/dices-dataset
Kod źródłowy :
tfds.datasets.dices.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja pierwsza.
-
Klucze nadzorowane (zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
dices/350 (konfiguracja domyślna)
Opis konfiguracji : Zestaw danych 350 zawiera 350 rozmów ocenionych przez zróżnicowaną pulę 123 unikalnych osób oceniających. Każda rozmowa jest oceniana w pięciu kategoriach bezpieczeństwa najwyższego poziomu i jednym pytaniu dotyczącym ogólnego zrozumienia rozmowy. Rekrutowani oceniający byli zbilansowani pod względem płci (mężczyzna lub kobieta), rasy/pochodzenia etnicznego (biały, czarny, Latynos, Azjata, wielorasowy) i każdy oceniający ocenił wszystkie elementy. Każdy oceniający ocenił wszystkie rozmowy. Każda rozmowa ma 123 unikalne oceny. Całkowita liczba wierszy w tym zbiorze danych wynosi 43050.
Rozmiar pobierania :
29.70 MiB
Rozmiar zbioru danych :
74.43 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'train' | 43050 |
- Struktura funkcji :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
Q1_whole_conversation_evaluation | Etykieta klasy | int64 | Ocena dotycząca zrozumiałości rozmowy. | |
Q2_harmful_content_dangerous_content | Etykieta klasy | int64 | ||
Q2_harmful_content_derogation_of_boat | Etykieta klasy | int64 | ||
Q2_harmful_content_inprotection | Etykieta klasy | int64 | ||
Q2_harmful_content_medical_legal_financial_or_relationship_advice | Etykieta klasy | int64 | ||
Q2_harmful_content_obscene_and_profane | Etykieta klasy | int64 | ||
Q2_harmful_content_other | Etykieta klasy | int64 | ||
Q2_harmful_content_overall | Etykieta klasy | int64 | ||
Q2_harmful_content_personal_information | Etykieta klasy | int64 | ||
Q2_harmful_content_regulated_goods | Etykieta klasy | int64 | ||
Q2_harmful_content_seksualnie_suggestive_content | Etykieta klasy | int64 | ||
Q3_bias_other | Etykieta klasy | int64 | ||
Q3_bias_overall | Etykieta klasy | int64 | ||
Q3_bias_targeting_beliefs | Etykieta klasy | int64 | ||
Q3_bias_targeting_gender_seksualna_orientacja | Etykieta klasy | int64 | ||
Q3_bias_targeting_inherited_attributes | Etykieta klasy | int64 | ||
Q3_bias_targeting_status | Etykieta klasy | int64 | ||
Q4_dezinformacja | Etykieta klasy | int64 | ||
Q5_przynależność_polityczna | Etykieta klasy | int64 | ||
Q6_policy_guidelines_making_endorsement | Etykieta klasy | int64 | ||
Q6_policy_guidelines_other | Etykieta klasy | int64 | ||
Q6_policy_guidelines_overall | Etykieta klasy | int64 | ||
Q6_policy_guidelines_polarizing_topics | Etykieta klasy | int64 | ||
P_ogółem | Etykieta klasy | int64 | ||
odpowiedź_czas_ms | Skalarny | int64 | Ilość czasu spędzonego przez każdego oceniającego nad każdym pytaniem dotyczącym adnotacji dotyczącej bezpieczeństwa. | |
odpowiedź_znacznik czasu | Skalarny | int64 | Czas, w którym każda rozmowa została oceniona przez każdego oceniającego. | |
kontekst | Tekst | smyczkowy | Rozmowa toczy się przed ostateczną odpowiedzią chatbota. | |
stopień_szkody | Etykieta klasy | int64 | Odręcznie opisana ocena powagi ryzyka bezpieczeństwa. | |
typ_szkody | Sekwencja (etykieta klasy) | (Nic,) | int64 | Temat(y) rozmowy dotyczące szkód z odręcznymi adnotacjami. |
id | Skalarny | int64 | Identyfikator liczbowy każdego wiersza reprezentujący wszystkie oceny wystawione przez jednego oceniającego w ramach jednej rozmowy. | |
identyfikator_przedmiotu | Skalarny | int64 | Numeryczny identyfikator każdej rozmowy. | |
faza | Etykieta klasy | int64 | Jeden z trzech różnych okresów. | |
oceniający_wiek | Etykieta klasy | int64 | Grupa wiekowa oceniającego. | |
oceniający_edukacja | Etykieta klasy | int64 | Edukacja oceniającego. | |
oceniający_płeć | Etykieta klasy | int64 | Płeć oceniającego. | |
id oceniającego | Skalarny | int64 | Numeryczny identyfikator każdego oceniającego. | |
oceniający_wyścig | Etykieta klasy | int64 | Rasa/pochodzenie etniczne oceniającego. | |
oceniający_raw_race | Tekst | smyczkowy | Zgłoszona przez siebie, surowa rasa/pochodzenie etniczne oceniającego, przed uproszczeniem do pięciu kategorii. | |
odpowiedź | Tekst | smyczkowy | Ostateczna odpowiedź chatbota w rozmowie. | |
bezpieczeństwo_złoto | Etykieta klasy | int64 | Znak bezpieczeństwa według złotego standardu, przyznany przez ekspertów. | |
bezpieczeństwo_złoty_powód | Tekst | smyczkowy | Powody (jeśli zostały podane) dla złotej etykiety bezpieczeństwa dostarczone przez ekspertów. |
- Przykłady ( tfds.as_dataframe ):
kostki/990
Opis konfiguracji : Zestaw danych 990 zawiera 990 rozmów ocenionych przez zróżnicowaną pulę 173 unikalnych osób oceniających. Każda rozmowa jest oceniana w trzech kategoriach bezpieczeństwa najwyższego poziomu i jednym pytaniu dotyczącym ogólnego zrozumienia rozmowy. Oceniających rekrutowano w taki sposób, aby liczba oceniających w każdej rozmowie była zrównoważona według płci (mężczyzna, kobieta) i regionu (Stany Zjednoczone, Indie). Każdy oceniający ocenił tylko próbkę rozmowy. Każda rozmowa ma 60–70 unikalnych ocen. Całkowita liczba wierszy w tym zbiorze danych wynosi 72103.
Rozmiar pobierania :
48.06 MiB
Rozmiar zbioru danych :
150.38 MiB
Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy
shuffle_files=False
(pociąg)Podziały :
Podział | Przykłady |
---|---|
'train' | 72103 |
- Struktura funkcji :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
Q1_whole_conversation_evaluation | Etykieta klasy | int64 | Ocena dotycząca zrozumiałości rozmowy. | |
Q2_harmful_content_explicitly_seksualny | Etykieta klasy | int64 | ||
Q2_harmful_content_financial_advice | Etykieta klasy | int64 | ||
Q2_harmful_content_harm_to_people_or_animals | Etykieta klasy | int64 | ||
Q2_harmful_content_health_and_safety_claims | Etykieta klasy | int64 | ||
Q2_harmful_content_how_tos_about_harmful_activities | Etykieta klasy | int64 | ||
Q2_harmful_content_obscenities_or_profanities | Etykieta klasy | int64 | ||
Q2_harmful_content_other | Etykieta klasy | int64 | ||
Q2_harmful_content_overall | Etykieta klasy | int64 | ||
Q2_harmful_content_personal_information | Etykieta klasy | int64 | ||
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods | Etykieta klasy | int64 | ||
Q2_harmful_content_promotes_or_condones_violence | Etykieta klasy | int64 | ||
Q2_harmful_content_violent_or_gory | Etykieta klasy | int64 | ||
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_powyżej | Etykieta klasy | int64 | ||
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious | Etykieta klasy | int64 | ||
Q3_bias_incites_hatred | Etykieta klasy | int64 | ||
Q3_bias_insults_about_emocjonalna_romantyczna_and_lub_seksualna_atrakcyjność | Etykieta klasy | int64 | ||
Q3_bias_other | Etykieta klasy | int64 | ||
Q3_bias_fizycznie_lub_mentalnie_gorszy | Etykieta klasy | int64 | ||
Q3_bias_subhuman_comparisons | Etykieta klasy | int64 | ||
Q3_bias_superiority_or_subjugation_of_a_group | Etykieta klasy | int64 | ||
Q3_unfair_bias_overall | Etykieta klasy | int64 | ||
Q4_misinformation_conspiracy_theories | Etykieta klasy | int64 | ||
Q4_misinformation_contradicts_expert_consensus | Etykieta klasy | int64 | ||
Q4_misinformation_false_theories | Etykieta klasy | int64 | ||
Q4_dezinformacja_inne | Etykieta klasy | int64 | ||
Q4_misinformation_overall | Etykieta klasy | int64 | ||
Q4_misinformation_political | Etykieta klasy | int64 | ||
P_ogółem | Etykieta klasy | int64 | ||
kontekst | Tekst | smyczkowy | Rozmowa toczy się przed ostateczną odpowiedzią chatbota. | |
stopień_szkody | Etykieta klasy | int64 | Odręcznie opisana ocena powagi ryzyka bezpieczeństwa. | |
typ_szkody | Sekwencja (etykieta klasy) | (Nic,) | int64 | Temat(y) rozmowy dotyczące szkód z odręcznymi adnotacjami. |
id | Skalarny | int64 | Identyfikator liczbowy każdego wiersza reprezentujący wszystkie oceny wystawione przez jednego oceniającego w ramach jednej rozmowy. | |
identyfikator_przedmiotu | Skalarny | int64 | Numeryczny identyfikator każdej rozmowy. | |
faza | Etykieta klasy | int64 | Jeden z trzech różnych okresów. | |
oceniający_wiek | Etykieta klasy | int64 | Grupa wiekowa oceniającego. | |
oceniający_edukacja | Etykieta klasy | int64 | Edukacja oceniającego. | |
oceniający_płeć | Etykieta klasy | int64 | Płeć oceniającego. | |
id oceniającego | Skalarny | int64 | Numeryczny identyfikator każdego oceniającego. | |
oceniający_lokalizacja | Etykieta klasy | int64 | Ustawienia regionalne osoby oceniającej. | |
oceniający_wyścig | Etykieta klasy | int64 | Rasa/pochodzenie etniczne oceniającego. | |
oceniający_raw_race | Tekst | smyczkowy | Zgłoszona przez siebie, surowa rasa/pochodzenie etniczne oceniającego, przed uproszczeniem do pięciu kategorii. | |
odpowiedź | Tekst | smyczkowy | Ostateczna odpowiedź chatbota w rozmowie. |
- Przykłady ( tfds.as_dataframe ):