- Описание :
Эта версия набора данных CivilComments обеспечивает доступ к семи основным меткам, которые были аннотированы краудфандинговыми работниками, а токсичность и другие теги имеют значение от 0 до 1, указывающее долю аннотаторов, которые присвоили эти атрибуты тексту комментария.
Другие теги доступны только для части входных примеров. В настоящее время они игнорируются для основного набора данных; набор CivilCommentsIdentities включает эти метки, но состоит только из подмножества данных с ними. Другие атрибуты, которые были частью исходной версии CivilComments, включены только в необработанные данные. См. документацию Kaggle для получения более подробной информации о доступных функциях.
Комментарии в этом наборе данных взяты из архива платформы Civil Comments, плагина комментариев для независимых новостных сайтов. Эти публичные комментарии создавались в период с 2015 по 2017 год и появились примерно на 50 англоязычных новостных сайтах по всему миру. Когда Civil Comment закрылся в 2017 году, они решили сделать публичные комментарии доступными в постоянном открытом архиве, чтобы можно было проводить исследования в будущем. Исходные данные, опубликованные на figshare, включают в себя текст публичного комментария, некоторые связанные метаданные, такие как идентификаторы статей, идентификаторы публикаций, временные метки и созданные комментаторами «вежливые» ярлыки, но не включают идентификаторы пользователей. Jigsaw расширил этот набор данных, добавив дополнительные метки для токсичности, упоминания личности, а также скрытого оскорбительного характера. Этот набор данных является точной копией данных, опубликованных для испытания Jigsaw Unintended Bias in Toxicity Classification Kaggle. Этот набор данных выпущен под лицензией CC0, как и основной текст комментария.
Для комментариев, у которых есть parent_id также в данных гражданских комментариев, текст предыдущего комментария предоставляется как функция «parent_text». Обратите внимание, что разделение было сделано без учета этой информации, поэтому использование предыдущих комментариев может привести к утечке некоторой информации. Аннотаторы не имели доступа к исходному тексту при создании надписей.
Домашняя страница : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
Исходный код :
tfds.text.CivilComments
Версии :
-
1.0.0
: Первоначальный полный выпуск. -
1.0.1
: Добавлен уникальный идентификатор для каждого комментария. -
1.1.0
: добавлена конфигурация CivilCommentsCovert. -
1.1.1
: добавлена конфигурация CivilCommentsCovert с правильной контрольной суммой. -
1.1.2
: добавлена отдельная ссылка для набора данных CivilCommentsCovert. -
1.1.3
: Исправлены типы идентификаторов с float на string. -
1.2.0
: Добавлены токсичные диапазоны, контекст и функции текста родительского комментария. -
1.2.1
: исправлено неправильное форматирование при разделении контекста. -
1.2.2
: Обновлено, чтобы отразить контекст только с разделением поезда. -
1.2.3
: добавлено предупреждение в CivilCommentsCovert, поскольку мы исправим проблему с данными. -
1.2.4
(по умолчанию): добавление идентификаторов публикаций и временных меток комментариев.
-
Размер загрузки :
427.41 MiB
Рисунок ( tfds.show_examples ): не поддерживается.
Civil_comments/CivilComments (конфигурация по умолчанию)
Описание конфигурации : набор CivilComments включает все данные, но только семь основных меток (токсичность, серьезная_токсичность, непристойность, угроза, оскорбление, идентичность_атака и сексуальное_явное).
Размер набора данных :
1.54 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 97 320 |
'train' | 1 804 874 |
'validation' | 97 320 |
- Структура функции :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
article_id | Тензор | int32 | ||
Дата создания | Тензор | нить | ||
идентификатор | Тензор | нить | ||
identity_attack | Тензор | поплавок32 | ||
оскорблять | Тензор | поплавок32 | ||
непристойный | Тензор | поплавок32 | ||
parent_id | Тензор | int32 | ||
parent_text | Текст | нить | ||
id_публикации | Тензор | нить | ||
суровая_токсичность | Тензор | поплавок32 | ||
сексуальный_explicit | Тензор | поплавок32 | ||
текст | Текст | нить | ||
угроза | Тензор | поплавок32 | ||
токсичность | Тензор | поплавок32 |
Контролируемые ключи (см.
as_supervised
doc ):('text', 'toxicity')
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Civil_comments/CivilCommentsIdentities
Описание конфигурации : Набор CivilCommentsIdentities включает расширенный набор меток идентификации в дополнение к основным семи меткам. Однако он включает только подмножество (примерно четверть) данных со всеми этими функциями.
Размер набора данных :
654.97 MiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 21 577 |
'train' | 405 130 |
'validation' | 21 293 |
- Структура функции :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
article_id | Тензор | int32 | ||
азиатский | Тензор | поплавок32 | ||
атеист | Тензор | поплавок32 | ||
бисексуал | Тензор | поплавок32 | ||
черный | Тензор | поплавок32 | ||
буддист | Тензор | поплавок32 | ||
христианин | Тензор | поплавок32 | ||
Дата создания | Тензор | нить | ||
женский | Тензор | поплавок32 | ||
гетеросексуальный | Тензор | поплавок32 | ||
индус | Тензор | поплавок32 | ||
гомосексуалист_гей_или_лесбиянка | Тензор | поплавок32 | ||
идентификатор | Тензор | нить | ||
identity_attack | Тензор | поплавок32 | ||
оскорблять | Тензор | поплавок32 | ||
Intelligent_or_learning_disability | Тензор | поплавок32 | ||
еврейский | Тензор | поплавок32 | ||
латиноамериканец | Тензор | поплавок32 | ||
мужской | Тензор | поплавок32 | ||
мусульманин | Тензор | поплавок32 | ||
непристойный | Тензор | поплавок32 | ||
other_disability | Тензор | поплавок32 | ||
other_gender | Тензор | поплавок32 | ||
other_race_or_ethnicity | Тензор | поплавок32 | ||
другая_религия | Тензор | поплавок32 | ||
другая_сексуальная_ориентация | Тензор | поплавок32 | ||
parent_id | Тензор | int32 | ||
parent_text | Текст | нить | ||
инвалидность | Тензор | поплавок32 | ||
психиатрическое_или_психическое_заболевание | Тензор | поплавок32 | ||
id_публикации | Тензор | нить | ||
суровая_токсичность | Тензор | поплавок32 | ||
сексуальный_explicit | Тензор | поплавок32 | ||
текст | Текст | нить | ||
угроза | Тензор | поплавок32 | ||
токсичность | Тензор | поплавок32 | ||
трансгендер | Тензор | поплавок32 | ||
белый | Тензор | поплавок32 |
Контролируемые ключи (см.
as_supervised
doc ):('text', 'toxicity')
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Civil_comments/CivilCommentsCovert
- Описание конфигурации : ПРЕДУПРЕЖДЕНИЕ: существует потенциальная проблема с качеством данных в CivilCommentsCovert, над устранением которой мы активно работаем (28.06.22); базовые данные могут измениться!
Набор CivilCommentsCovert является подмножеством CivilCommentsIdentities, в котором примерно 20 % обучающих и тестовых разделов дополнительно аннотируются для скрытой оскорбительности, в дополнение к меткам токсичности и идентификации. Оценщиков попросили классифицировать комментарии как явно, неявно, не оскорбительно или не уверен, что они оскорбительны, а также содержат ли они различные типы скрытой оскорбительности. Полная процедура аннотирования подробно описана в готовящемся документе по адресу https://sites.google.com/corp/view/hciandnlp/accepted-papers .
Размер набора данных :
97.83 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2455 |
'train' | 48 074 |
- Структура функции :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
article_id | Тензор | int32 | ||
азиатский | Тензор | поплавок32 | ||
атеист | Тензор | поплавок32 | ||
бисексуал | Тензор | поплавок32 | ||
черный | Тензор | поплавок32 | ||
буддист | Тензор | поплавок32 | ||
христианин | Тензор | поплавок32 | ||
covert_emoticons_emojis | Тензор | поплавок32 | ||
скрытый_юмор | Тензор | поплавок32 | ||
hidden_masked_harm | Тензор | поплавок32 | ||
скрытая_микроагрессия | Тензор | поплавок32 | ||
скрытое_обфускация | Тензор | поплавок32 | ||
скрытое_политическое | Тензор | поплавок32 | ||
скрытый_сарказм | Тензор | поплавок32 | ||
Дата создания | Тензор | нить | ||
явно_оскорбительный | Тензор | поплавок32 | ||
женский | Тензор | поплавок32 | ||
гетеросексуальный | Тензор | поплавок32 | ||
индус | Тензор | поплавок32 | ||
гомосексуалист_гей_или_лесбиянка | Тензор | поплавок32 | ||
идентификатор | Тензор | нить | ||
identity_attack | Тензор | поплавок32 | ||
implicitly_offensive | Тензор | поплавок32 | ||
оскорблять | Тензор | поплавок32 | ||
Intelligent_or_learning_disability | Тензор | поплавок32 | ||
еврейский | Тензор | поплавок32 | ||
латиноамериканец | Тензор | поплавок32 | ||
мужской | Тензор | поплавок32 | ||
мусульманин | Тензор | поплавок32 | ||
не_наступление | Тензор | поплавок32 | ||
not_sure_offensive | Тензор | поплавок32 | ||
непристойный | Тензор | поплавок32 | ||
other_disability | Тензор | поплавок32 | ||
other_gender | Тензор | поплавок32 | ||
other_race_or_ethnicity | Тензор | поплавок32 | ||
другая_религия | Тензор | поплавок32 | ||
другая_сексуальная_ориентация | Тензор | поплавок32 | ||
parent_id | Тензор | int32 | ||
parent_text | Текст | нить | ||
инвалидность | Тензор | поплавок32 | ||
психиатрическое_или_психическое_заболевание | Тензор | поплавок32 | ||
id_публикации | Тензор | нить | ||
суровая_токсичность | Тензор | поплавок32 | ||
сексуальный_explicit | Тензор | поплавок32 | ||
текст | Текст | нить | ||
угроза | Тензор | поплавок32 | ||
токсичность | Тензор | поплавок32 | ||
трансгендер | Тензор | поплавок32 | ||
белый | Тензор | поплавок32 |
Контролируемые ключи (см.
as_supervised
doc ):('text', 'toxicity')
Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
Civil_comments/CivilCommentsToxicSpans
Описание конфигурации : Токсичные диапазоны CivilComments — это подмножество CivilComments, помеченное на уровне диапазона — индексы границ всех символов (кодовых точек Unicode), которые были помечены как токсичные большинством аннотаторов, возвращаются в функции «промежутки».
Размер набора данных :
5.81 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2000 |
'train' | 7939 |
'validation' | 682 |
- Структура функции :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
article_id | Тензор | int32 | ||
Дата создания | Тензор | нить | ||
идентификатор | Тензор | нить | ||
parent_id | Тензор | int32 | ||
parent_text | Текст | нить | ||
id_публикации | Тензор | нить | ||
охватывает | Тензор | (Никто,) | int32 | |
текст | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('text', 'spans')
Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
Civil_comments/CivilCommentsInContext
Описание конфигурации : CivilComments in Context — это подмножество CivilComments, которое было помечено путем предоставления доступа к маркировщикам parent_text. Он включает функцию contextual_toxicity.
Размер набора данных :
9.63 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 9969 |
- Структура функции :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
article_id | Тензор | int32 | ||
контекстная_токсичность | Тензор | поплавок32 | ||
Дата создания | Тензор | нить | ||
идентификатор | Тензор | нить | ||
identity_attack | Тензор | поплавок32 | ||
оскорблять | Тензор | поплавок32 | ||
непристойный | Тензор | поплавок32 | ||
parent_id | Тензор | int32 | ||
parent_text | Текст | нить | ||
id_публикации | Тензор | нить | ||
суровая_токсичность | Тензор | поплавок32 | ||
сексуальный_explicit | Тензор | поплавок32 | ||
текст | Текст | нить | ||
угроза | Тензор | поплавок32 | ||
токсичность | Тензор | поплавок32 |
Контролируемые ключи (см.
as_supervised
doc ):('text', 'toxicity')
Примеры ( tfds.as_dataframe ):
- Цитата :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}