- Описание :
Набор данных Diversational AI Evaluation for Safety ( DICES )
Подходы к машинному обучению часто обучаются и оцениваются с использованием наборов данных, которые требуют четкого разделения положительных и отрицательных примеров. Такой подход чрезмерно упрощает естественную субъективность, присущую многим задачам и элементам контента. Это также скрывает неотъемлемое разнообразие человеческих восприятий и мнений. Часто задачи, направленные на сохранение различий в содержании и разнообразии людей, являются весьма дорогостоящими и трудоемкими. Чтобы восполнить этот пробел и облегчить более глубокий анализ производительности моделей, мы предлагаем набор данных DICES — уникальный набор данных с разнообразными взглядами на безопасность разговоров, генерируемых ИИ. Мы фокусируемся на задаче оценки безопасности диалоговых систем искусственного интеллекта. Набор данных DICES содержит подробную демографическую информацию о каждом оценщике, чрезвычайно высокую степень репликации уникальных рейтингов для каждого разговора, чтобы обеспечить статистическую значимость дальнейшего анализа, и кодирует голоса оценщиков как распределение по различным демографическим группам, чтобы обеспечить углубленное исследование различных стратегий агрегирования рейтингов.
Этот набор данных хорошо подходит для наблюдения и измерения отклонений, двусмысленности и разнообразия в контексте безопасности диалогового ИИ. Набор данных сопровождается документом, описывающим набор показателей, которые показывают, как разнообразие оценщиков влияет на восприятие безопасности оценщиками из разных географических регионов, этнических групп, возрастных групп и пола. Цель набора данных DICES — использовать его в качестве общего эталона для оценки безопасности диалоговых систем искусственного интеллекта.
ПРЕДУПРЕЖДЕНИЕ О СОДЕРЖАНИИ : этот набор данных содержит состязательные примеры разговоров, которые могут быть оскорбительными.
Домашняя страница : https://github.com/google-research-datasets/dices-dataset.
Исходный код :
tfds.datasets.dices.Builder
Версии :
-
1.0.0
(по умолчанию): первоначальный выпуск.
-
Контролируемые ключи (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
кубики/350 (конфигурация по умолчанию)
Описание конфигурации : Набор данных 350 содержит 350 разговоров, оцененных разнообразным пулом оценщиков, состоящим из 123 уникальных оценщиков. Каждый разговор оценивается по пяти категориям безопасности высшего уровня и одному вопросу общего понимания разговора. Набранные оценщики были сбалансированы по полу (мужчина или женщина), расе/этнической принадлежности (белые, черные, латиноамериканцы, азиаты, многорасовые), и каждый оценщик оценивал все элементы. Каждый оценщик оценивал все разговоры. Каждый разговор имеет 123 уникальные оценки. Общее количество строк в этом наборе данных — 43050.
Размер загрузки :
29.70 MiB
Размер набора данных :
74.43 MiB
Автокэширование ( документация ): Да
Расколы :
Расколоть | Примеры |
---|---|
'train' | 43 050 |
- Структура функции :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- Функциональная документация :
Особенность | Сорт | Форма | Дтип | Описание |
---|---|---|---|---|
ВозможностиDict | ||||
Q1_whole_conversation_evaluation | Класслейбл | int64 | Оценка понятности разговора. | |
Q2_harmful_content_dangerous_content | Класслейбл | int64 | ||
Q2_harmful_content_derogation_of_boat | Класслейбл | int64 | ||
Q2_harmful_content_insensitivity | Класслейбл | int64 | ||
Q2_harmful_content_medical_legal_financial_or_relationship_advice | Класслейбл | int64 | ||
Q2_harmful_content_obscene_and_profane | Класслейбл | int64 | ||
Q2_harmful_content_other | Класслейбл | int64 | ||
Q2_harmful_content_overall | Класслейбл | int64 | ||
Q2_harmful_content_personal_information | Класслейбл | int64 | ||
Q2_harmful_content_regulated_goods | Класслейбл | int64 | ||
Q2_harmful_content_сексуально_наводящий_контент | Класслейбл | int64 | ||
Q3_bias_other | Класслейбл | int64 | ||
Q3_bias_overall | Класслейбл | int64 | ||
Q3_bias_targeting_beliefs | Класслейбл | int64 | ||
Q3_bias_targeting_gender_сексуальная_ориентация | Класслейбл | int64 | ||
Q3_bias_targeting_inherited_attributes | Класслейбл | int64 | ||
Q3_bias_targeting_status | Класслейбл | int64 | ||
Q4_дезинформация | Класслейбл | int64 | ||
Q5_politic_affiliation | Класслейбл | int64 | ||
Q6_policy_guidelines_making_endorsement | Класслейбл | int64 | ||
Q6_policy_guidelines_other | Класслейбл | int64 | ||
Q6_policy_guidelines_overall | Класслейбл | int64 | ||
Q6_policy_guidelines_polarizing_topics | Класслейбл | int64 | ||
Q_общий | Класслейбл | int64 | ||
ответ_время_мс | Скаляр | int64 | Количество времени, затраченное каждым оценщиком на каждый вопрос с аннотациями по безопасности. | |
ответ_временная метка | Скаляр | int64 | Время, когда каждый разговор оценивался каждым оценщиком. | |
контекст | Текст | нить | Разговор переходит к окончательному ответу чат-бота. | |
степень_вреда | Класслейбл | int64 | Аннотированный вручную рейтинг серьезности риска для безопасности. | |
тип_вреда | Последовательность (метка класса) | (Никто,) | int64 | От руки аннотированы вредные темы разговора. |
идентификатор | Скаляр | int64 | Числовой идентификатор для каждой строки, представляющий все оценки одного оценщика для одного разговора. | |
item_id | Скаляр | int64 | Числовой идентификатор для каждого разговора. | |
фаза | Класслейбл | int64 | Один из трех различных периодов времени. | |
рейтинг_возраста | Класслейбл | int64 | Возрастная группа оценщика. | |
rater_education | Класслейбл | int64 | Образование оценщика. | |
rater_gender | Класслейбл | int64 | Пол оценщика. | |
рейтер_ид | Скаляр | int64 | Числовой идентификатор для каждого оценщика. | |
rater_race | Класслейбл | int64 | Раса/этническая принадлежность оценщика. | |
rater_raw_race | Текст | нить | Самооценка расовой/этнической принадлежности оценщика до упрощения до пяти категорий. | |
ответ | Текст | нить | Последний ответ чат-бота в разговоре. | |
безопасность_золото | Класслейбл | int64 | Знак безопасности золотого стандарта, предоставленный экспертами. | |
Safety_gold_reason | Текст | нить | Причина(ы) (если дана) для золотого знака безопасности, предоставленная экспертами. |
- Примеры ( tfds.as_dataframe ):
кубики/990
Описание конфигурации : Набор данных 990 содержит 990 разговоров, оцененных разнообразным пулом оценщиков, состоящим из 173 уникальных оценщиков. Каждый разговор оценивается по трем категориям безопасности верхнего уровня и одному общему вопросу на понимание разговора. Оценщиков набирали таким образом, чтобы количество оценщиков для каждого разговора было сбалансировано по полу (мужчина, женщина) и региону (США, Индия). Каждый оценщик оценивал только отрывок разговора. Каждый разговор имеет 60-70 уникальных оценок. Общее количество строк в этом наборе данных — 72103.
Размер загрузки :
48.06 MiB
Размер набора данных :
150.38 MiB
Автоматическое кэширование ( документация ): только если
shuffle_files=False
(поезд)Расколы :
Расколоть | Примеры |
---|---|
'train' | 72 103 |
- Структура функции :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Функциональная документация :
Особенность | Сорт | Форма | Дтип | Описание |
---|---|---|---|---|
ВозможностиDict | ||||
Q1_whole_conversation_evaluation | Класслейбл | int64 | Оценка понятности разговора. | |
Q2_harmful_content_explicitly_сексуальный | Класслейбл | int64 | ||
Q2_harmful_content_financial_advice | Класслейбл | int64 | ||
Q2_harmful_content_вред_для_людей_или_животных | Класслейбл | int64 | ||
Q2_harmful_content_health_and_safety_claims | Класслейбл | int64 | ||
Q2_harmful_content_how_tos_about_harmful_activities | Класслейбл | int64 | ||
Q2_harmful_content_obscenities_or_profanities | Класслейбл | int64 | ||
Q2_harmful_content_other | Класслейбл | int64 | ||
Q2_harmful_content_overall | Класслейбл | int64 | ||
Q2_harmful_content_personal_information | Класслейбл | int64 | ||
Q2_harmful_content_пропагандирует_или_одобряет_использование_вредных_регулируемых_товаров | Класслейбл | int64 | ||
Q2_harmful_content_пропагандирует_или_одобряет_насилие | Класслейбл | int64 | ||
Q2_harmful_content_violent_or_gory | Класслейбл | int64 | ||
Q3_3_Расовые_религиозные_или_другие_оскорбления_и_стереотипы_которые_разжигают_или_пропагандируют_ненависть_основанную_на_любом_из_атрибутов_отмеченных_выше | Класслейбл | int64 | ||
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_злонамеренный | Класслейбл | int64 | ||
Q3_bias_incites_hatred | Класслейбл | int64 | ||
Q3_предвзятость_оскорбления_о_эмоциональном_романтическом_и_или_сексуальном_влечении | Класслейбл | int64 | ||
Q3_bias_other | Класслейбл | int64 | ||
Q3_предвзятость_физически_или_умственно_неполноценность | Класслейбл | int64 | ||
Q3_bias_subhuman_сравнения | Класслейбл | int64 | ||
Q3_предвзятость_превосходства_или_подчинения_группы | Класслейбл | int64 | ||
Q3_несправедливое_предубеждение_в целом | Класслейбл | int64 | ||
Q4_дезинформация_теории заговора | Класслейбл | int64 | ||
Q4_misinformation_contradicts_expert_consensus | Класслейбл | int64 | ||
Q4_дезинформация_ложные_теории | Класслейбл | int64 | ||
Q4_дезинформация_другое | Класслейбл | int64 | ||
Q4_дезинформация_всего | Класслейбл | int64 | ||
Q4_дезинформация_политическая | Класслейбл | int64 | ||
Q_общий | Класслейбл | int64 | ||
контекст | Текст | нить | Разговор переходит к окончательному ответу чат-бота. | |
степень_вреда | Класслейбл | int64 | Аннотированный вручную рейтинг серьезности риска для безопасности. | |
тип_вреда | Последовательность (метка класса) | (Никто,) | int64 | От руки аннотированы вредные темы разговора. |
идентификатор | Скаляр | int64 | Числовой идентификатор для каждой строки, представляющий все оценки одного оценщика для одного разговора. | |
item_id | Скаляр | int64 | Числовой идентификатор для каждого разговора. | |
фаза | Класслейбл | int64 | Один из трех различных периодов времени. | |
рейтинг_возраста | Класслейбл | int64 | Возрастная группа оценщика. | |
rater_education | Класслейбл | int64 | Образование оценщика. | |
rater_gender | Класслейбл | int64 | Пол оценщика. | |
рейтер_ид | Скаляр | int64 | Числовой идентификатор для каждого оценщика. | |
rater_locale | Класслейбл | int64 | Язык оценщика. | |
rater_race | Класслейбл | int64 | Раса/этническая принадлежность оценщика. | |
rater_raw_race | Текст | нить | Самооценка расовой/этнической принадлежности оценщика до упрощения до пяти категорий. | |
ответ | Текст | нить | Последний ответ чат-бота в разговоре. |
- Примеры ( tfds.as_dataframe ):