kostki

  • Opis :

Zbiór danych Diversity in Conversational AI Evaluation for Safety ( DICES ).

Podejścia do uczenia maszynowego są często szkolone i oceniane przy użyciu zestawów danych, które wymagają wyraźnego oddzielenia przykładów pozytywnych i negatywnych. Takie podejście nadmiernie upraszcza naturalną podmiotowość obecną w wielu zadaniach i elementach treści. Zaciemnia także wrodzoną różnorodność ludzkich percepcji i opinii. Często zadania mające na celu zachowanie różnorodności treści i różnorodności u ludzi są dość kosztowne i pracochłonne. Aby wypełnić tę lukę i ułatwić bardziej dogłębne analizy wydajności modelu, proponujemy zbiór danych DICES – unikalny zbiór danych z różnorodnymi perspektywami na bezpieczeństwo rozmów generowanych przez sztuczną inteligencję. Koncentrujemy się na zadaniu oceny bezpieczeństwa konwersacyjnych systemów AI. Zbiór danych DICES zawiera szczegółowe informacje demograficzne o każdym oceniającym, niezwykle wysoką replikację unikalnych ocen na rozmowę, aby zapewnić statystyczną istotność dalszych analiz, a także koduje głosy oceniających jako rozkład w różnych grupach demograficznych, aby umożliwić dogłębną eksplorację różnych strategii agregacji ocen.

Ten zbiór danych dobrze nadaje się do obserwacji i pomiaru wariancji, niejednoznaczności i różnorodności w kontekście bezpieczeństwa konwersacyjnej sztucznej inteligencji. Do zbioru danych dołączony jest artykuł opisujący zestaw wskaźników pokazujących, jak różnorodność oceniających wpływa na postrzeganie bezpieczeństwa przez oceniających z różnych regionów geograficznych, grup etnicznych, grup wiekowych i płci. Celem zbioru danych DICES jest wykorzystanie go jako wspólnego punktu odniesienia do oceny bezpieczeństwa konwersacyjnych systemów sztucznej inteligencji.

OSTRZEŻENIE O TREŚCI : ten zbiór danych zawiera przeciwstawne przykłady rozmów, które mogą być obraźliwe.

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dices/350 (konfiguracja domyślna)

  • Opis konfiguracji : Zestaw danych 350 zawiera 350 rozmów ocenionych przez zróżnicowaną pulę 123 unikalnych osób oceniających. Każda rozmowa jest oceniana w pięciu kategoriach bezpieczeństwa najwyższego poziomu i jednym pytaniu dotyczącym ogólnego zrozumienia rozmowy. Rekrutowani oceniający byli zbilansowani pod względem płci (mężczyzna lub kobieta), rasy/pochodzenia etnicznego (biały, czarny, Latynos, Azjata, wielorasowy) i każdy oceniający ocenił wszystkie elementy. Każdy oceniający ocenił wszystkie rozmowy. Każda rozmowa ma 123 unikalne oceny. Całkowita liczba wierszy w tym zbiorze danych wynosi 43050.

  • Rozmiar pobierania : 29.70 MiB

  • Rozmiar zbioru danych : 74.43 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'train' 43050
  • Struktura funkcji :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
    'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDykt
Q1_whole_conversation_evaluation Etykieta klasy int64 Ocena dotycząca zrozumiałości rozmowy.
Q2_harmful_content_dangerous_content Etykieta klasy int64
Q2_harmful_content_derogation_of_boat Etykieta klasy int64
Q2_harmful_content_inprotection Etykieta klasy int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice Etykieta klasy int64
Q2_harmful_content_obscene_and_profane Etykieta klasy int64
Q2_harmful_content_other Etykieta klasy int64
Q2_harmful_content_overall Etykieta klasy int64
Q2_harmful_content_personal_information Etykieta klasy int64
Q2_harmful_content_regulated_goods Etykieta klasy int64
Q2_harmful_content_seksualnie_suggestive_content Etykieta klasy int64
Q3_bias_other Etykieta klasy int64
Q3_bias_overall Etykieta klasy int64
Q3_bias_targeting_beliefs Etykieta klasy int64
Q3_bias_targeting_gender_seksualna_orientacja Etykieta klasy int64
Q3_bias_targeting_inherited_attributes Etykieta klasy int64
Q3_bias_targeting_status Etykieta klasy int64
Q4_dezinformacja Etykieta klasy int64
Q5_przynależność_polityczna Etykieta klasy int64
Q6_policy_guidelines_making_endorsement Etykieta klasy int64
Q6_policy_guidelines_other Etykieta klasy int64
Q6_policy_guidelines_overall Etykieta klasy int64
Q6_policy_guidelines_polarizing_topics Etykieta klasy int64
P_ogółem Etykieta klasy int64
odpowiedź_czas_ms Skalarny int64 Ilość czasu spędzonego przez każdego oceniającego nad każdym pytaniem dotyczącym adnotacji dotyczącej bezpieczeństwa.
odpowiedź_znacznik czasu Skalarny int64 Czas, w którym każda rozmowa została oceniona przez każdego oceniającego.
kontekst Tekst smyczkowy Rozmowa toczy się przed ostateczną odpowiedzią chatbota.
stopień_szkody Etykieta klasy int64 Odręcznie opisana ocena powagi ryzyka bezpieczeństwa.
typ_szkody Sekwencja (etykieta klasy) (Nic,) int64 Temat(y) rozmowy dotyczące szkód z odręcznymi adnotacjami.
id Skalarny int64 Identyfikator liczbowy każdego wiersza reprezentujący wszystkie oceny wystawione przez jednego oceniającego w ramach jednej rozmowy.
identyfikator_przedmiotu Skalarny int64 Numeryczny identyfikator każdej rozmowy.
faza Etykieta klasy int64 Jeden z trzech różnych okresów.
oceniający_wiek Etykieta klasy int64 Grupa wiekowa oceniającego.
oceniający_edukacja Etykieta klasy int64 Edukacja oceniającego.
oceniający_płeć Etykieta klasy int64 Płeć oceniającego.
id oceniającego Skalarny int64 Numeryczny identyfikator każdego oceniającego.
oceniający_wyścig Etykieta klasy int64 Rasa/pochodzenie etniczne oceniającego.
oceniający_raw_race Tekst smyczkowy Zgłoszona przez siebie, surowa rasa/pochodzenie etniczne oceniającego, przed uproszczeniem do pięciu kategorii.
odpowiedź Tekst smyczkowy Ostateczna odpowiedź chatbota w rozmowie.
bezpieczeństwo_złoto Etykieta klasy int64 Znak bezpieczeństwa według złotego standardu, przyznany przez ekspertów.
bezpieczeństwo_złoty_powód Tekst smyczkowy Powody (jeśli zostały podane) dla złotej etykiety bezpieczeństwa dostarczone przez ekspertów.

kostki/990

  • Opis konfiguracji : Zestaw danych 990 zawiera 990 rozmów ocenionych przez zróżnicowaną pulę 173 unikalnych osób oceniających. Każda rozmowa jest oceniana w trzech kategoriach bezpieczeństwa najwyższego poziomu i jednym pytaniu dotyczącym ogólnego zrozumienia rozmowy. Oceniających rekrutowano w taki sposób, aby liczba oceniających w każdej rozmowie była zrównoważona według płci (mężczyzna, kobieta) i regionu (Stany Zjednoczone, Indie). Każdy oceniający ocenił tylko próbkę rozmowy. Każda rozmowa ma 60–70 unikalnych ocen. Całkowita liczba wierszy w tym zbiorze danych wynosi 72103.

  • Rozmiar pobierania : 48.06 MiB

  • Rozmiar zbioru danych : 150.38 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Podział Przykłady
'train' 72103
  • Struktura funkcji :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDykt
Q1_whole_conversation_evaluation Etykieta klasy int64 Ocena dotycząca zrozumiałości rozmowy.
Q2_harmful_content_explicitly_seksualny Etykieta klasy int64
Q2_harmful_content_financial_advice Etykieta klasy int64
Q2_harmful_content_harm_to_people_or_animals Etykieta klasy int64
Q2_harmful_content_health_and_safety_claims Etykieta klasy int64
Q2_harmful_content_how_tos_about_harmful_activities Etykieta klasy int64
Q2_harmful_content_obscenities_or_profanities Etykieta klasy int64
Q2_harmful_content_other Etykieta klasy int64
Q2_harmful_content_overall Etykieta klasy int64
Q2_harmful_content_personal_information Etykieta klasy int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods Etykieta klasy int64
Q2_harmful_content_promotes_or_condones_violence Etykieta klasy int64
Q2_harmful_content_violent_or_gory Etykieta klasy int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_powyżej Etykieta klasy int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious Etykieta klasy int64
Q3_bias_incites_hatred Etykieta klasy int64
Q3_bias_insults_about_emocjonalna_romantyczna_and_lub_seksualna_atrakcyjność Etykieta klasy int64
Q3_bias_other Etykieta klasy int64
Q3_bias_fizycznie_lub_mentalnie_gorszy Etykieta klasy int64
Q3_bias_subhuman_comparisons Etykieta klasy int64
Q3_bias_superiority_or_subjugation_of_a_group Etykieta klasy int64
Q3_unfair_bias_overall Etykieta klasy int64
Q4_misinformation_conspiracy_theories Etykieta klasy int64
Q4_misinformation_contradicts_expert_consensus Etykieta klasy int64
Q4_misinformation_false_theories Etykieta klasy int64
Q4_dezinformacja_inne Etykieta klasy int64
Q4_misinformation_overall Etykieta klasy int64
Q4_misinformation_political Etykieta klasy int64
P_ogółem Etykieta klasy int64
kontekst Tekst smyczkowy Rozmowa toczy się przed ostateczną odpowiedzią chatbota.
stopień_szkody Etykieta klasy int64 Odręcznie opisana ocena powagi ryzyka bezpieczeństwa.
typ_szkody Sekwencja (etykieta klasy) (Nic,) int64 Temat(y) rozmowy dotyczące szkód z odręcznymi adnotacjami.
id Skalarny int64 Identyfikator liczbowy każdego wiersza reprezentujący wszystkie oceny wystawione przez jednego oceniającego w ramach jednej rozmowy.
identyfikator_przedmiotu Skalarny int64 Numeryczny identyfikator każdej rozmowy.
faza Etykieta klasy int64 Jeden z trzech różnych okresów.
oceniający_wiek Etykieta klasy int64 Grupa wiekowa oceniającego.
oceniający_edukacja Etykieta klasy int64 Edukacja oceniającego.
oceniający_płeć Etykieta klasy int64 Płeć oceniającego.
id oceniającego Skalarny int64 Numeryczny identyfikator każdego oceniającego.
oceniający_lokalizacja Etykieta klasy int64 Ustawienia regionalne osoby oceniającej.
oceniający_wyścig Etykieta klasy int64 Rasa/pochodzenie etniczne oceniającego.
oceniający_raw_race Tekst smyczkowy Zgłoszona przez siebie, surowa rasa/pochodzenie etniczne oceniającego, przed uproszczeniem do pięciu kategorii.
odpowiedź Tekst smyczkowy Ostateczna odpowiedź chatbota w rozmowie.