TFDS теперь поддерживает формат Croissant 🥐 ! Прочтите документацию , чтобы узнать больше.

Эта страница переведена с помощью Cloud Translation API.

кинообъектив

Описание :

Этот набор данных содержит набор рейтингов фильмов с веб-сайта MovieLens, службы рекомендаций фильмов. Этот набор данных был собран и поддерживается GroupLens , исследовательской группой Университета Миннесоты. В комплекте 5 версий: "25м", "последняя-маленькая", "100к", "1м", "20м". Во всех наборах данных данные фильмов и данные рейтингов объединяются в «movieId». Набор данных 25 м, последний небольшой набор данных и набор данных 20 м содержат только данные о фильмах и данные о рейтингах. Набор данных 1 млн и набор данных 100 тыс. содержат демографические данные в дополнение к данным о фильмах и рейтингах.

«25m»: это последняя стабильная версия набора данных MovieLens. Рекомендуется для исследовательских целей.
«latest-small»: это небольшое подмножество последней версии набора данных MovieLens. GroupLens со временем изменяет и обновляет его.
«100k»: это самая старая версия наборов данных MovieLens. Это небольшой набор данных с демографическими данными.
«1m»: это самый большой набор данных MovieLens, содержащий демографические данные.
«20 м»: это один из наиболее часто используемых наборов данных MovieLens в научных статьях наряду с набором данных 1 м.

Для каждой версии пользователи могут просматривать либо только данные о фильмах, добавляя суффикс «-movies» (например, «25 млн фильмов»), либо данные о рейтингах, объединенные с данными о фильмах (и данные о пользователях в наборах данных 1 млн и 100 тыс.), добавляя суффикс "-рейтинги" (например, "25m-рейтинги").

Перечисленные ниже функции включены во все версии с суффиксом «-ratings».

"movie_id": уникальный идентификатор оцениваемого фильма.
«movie_title»: название рейтингового фильма с годом выпуска в скобках.
«movie_genres»: последовательность жанров, к которым относится оцениваемый фильм.
"user_id": уникальный идентификатор пользователя, составившего рейтинг
"user_rating": оценка рейтинга по пятизвездочной шкале
«отметка времени»: отметка времени рейтингов, представленная в секундах с полуночи по всемирному координированному времени (UTC) 1 января 1970 г.

Версии «100k-рейтинги» и «1m-рейтинги» дополнительно включают следующие демографические характеристики.

"user_gender": пол пользователя, составившего рейтинг; истинное значение соответствует мужскому
«bucketized_user_age»: значения возраста пользователя, составившего рейтинг, с разбивкой по сегментам, значения и соответствующие диапазоны:
- 1: «До 18 лет»
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: «50-55»
- 56: «56+»
«user_occupation_label»: род занятий пользователя, составившего рейтинг, представленный меткой в целочисленном коде; метки предварительно обработаны, чтобы быть согласованными в разных версиях
"user_occupation_text": род занятий пользователя, составившего рейтинг в исходной строке; разные версии могут иметь разный набор текстовых меток
"user_zip_code": почтовый индекс пользователя, составившего рейтинг

Кроме того, набор данных «100k-ratings» также будет иметь функцию «raw_user_age», которая представляет собой точный возраст пользователей, составивших рейтинг.

Наборы данных с суффиксом «-movies» содержат только функции «movie_id», «movie_title» и «movie_genres».

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://grouplens.org/datasets/movielens/
Исходный код : tfds.structured.Movielens
Версии :
- 0.1.1 (по умолчанию): нет примечаний к выпуску.
Ключи под наблюдением (см . документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-рейтинги (конфигурация по умолчанию)

Описание конфигурации : этот набор данных содержит 25 000 095 оценок для 62 423 фильмов, созданных 162 541 пользователем в период с 9 января 1995 года по 21 ноября.
Этот набор данных является последней стабильной версией набора данных MovieLens, созданной 21 ноября 2019 года.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не включает демографические данные.

Размер загрузки : 249.84 MiB
Размер набора данных : 3.89 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	25 000 095

Структура функции :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
кино_жанры	Последовательность (метка класса)	(Никто,)	int64
movie_id	Тензор		нить
название фильма	Тензор		нить
отметка времени	Тензор		int64
ID пользователя	Тензор		нить
рейтинг пользователей	Тензор		поплавок32

Примеры ( tfds.as_dataframe ):

кинообъектив/25м-фильмы

Описание конфигурации : этот набор данных содержит данные о 62 423 фильмах, оцененных в наборе данных 25 м.
Размер загрузки : 249.84 MiB
Размер набора данных : 5.71 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	62 423

Структура функции :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
кино_жанры	Последовательность (метка класса)	(Никто,)	int64
movie_id	Тензор		нить
название фильма	Тензор		нить

Примеры ( tfds.as_dataframe ):

кинообъектив/последние-маленькие-рейтинги

Описание конфигурации : этот набор данных содержит 100 836 оценок для 9 742 фильмов, созданных 610 пользователями в период с 29 марта 1996 г. по 24 сентября 2018 г. Этот набор данных создан 26 сентября 2018 г. и является подмножеством полной последней версии набора данных MovieLens. . Этот набор данных изменяется и обновляется с течением времени.

Размер загрузки : 955.28 KiB
Размер набора данных : 15.82 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	100 836

Структура функции :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
кино_жанры	Последовательность (метка класса)	(Никто,)	int64
movie_id	Тензор		нить
название фильма	Тензор		нить
отметка времени	Тензор		int64
ID пользователя	Тензор		нить
рейтинг пользователей	Тензор		поплавок32

Примеры ( tfds.as_dataframe ):

кинообъектив/последние маленькие фильмы

Описание конфигурации : этот набор данных содержит данные о 9742 фильмах, оцененных в последнем небольшом наборе данных.
Размер загрузки : 955.28 KiB
Размер набора данных : 910.64 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	9742

Структура функции :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
кино_жанры	Последовательность (метка класса)	(Никто,)	int64
movie_id	Тензор		нить
название фильма	Тензор		нить

Примеры ( tfds.as_dataframe ):

кинообъектив/100k-рейтинги

Описание конфигурации : этот набор данных содержит 100 000 оценок 943 пользователей для 1 682 фильмов. Этот набор данных является самой старой версией набора данных MovieLens.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в целую звезду. Этот набор данных содержит демографические данные пользователей в дополнение к данным о фильмах и рейтингах.

Размер загрузки : 4.70 MiB
Размер набора данных : 32.41 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	100 000

Структура функции :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
Bucketized_user_age	Тензор		поплавок32
кино_жанры	Последовательность (метка класса)	(Никто,)	int64
movie_id	Тензор		нить
название фильма	Тензор		нить
raw_user_age	Тензор		поплавок32
отметка времени	Тензор		int64
user_gender	Тензор		логический
ID пользователя	Тензор		нить
user_occupation_label	Метка класса		int64
user_occupation_text	Тензор		нить
рейтинг пользователей	Тензор		поплавок32
user_zip_code	Тензор		нить

Примеры ( tfds.as_dataframe ):

кинообъектив/100 000 фильмов

Описание конфигурации : этот набор данных содержит данные о 1682 фильмах, оцененных в наборе данных 100 000.
Размер загрузки : 4.70 MiB
Размер набора данных : 150.35 KiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	1682

Структура функции :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
кино_жанры	Последовательность (метка класса)	(Никто,)	int64
movie_id	Тензор		нить
название фильма	Тензор		нить

Примеры ( tfds.as_dataframe ):

кинообъектив/1м-рейтинги

Описание конфигурации : этот набор данных содержит 1 000 209 анонимных оценок примерно 3 900 фильмов, созданных 6 040 пользователями MovieLens, присоединившимися к MovieLens в
Этот набор данных является самым большим набором данных, который включает демографические данные.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в целую звезду. В демографических данных значения возраста делятся на диапазоны, и вместо фактических значений в данных используется наименьшее значение возраста для каждого диапазона.

Размер загрузки : 5.64 MiB
Размер набора данных : 308.42 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	1 000 209

Структура функции :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
Bucketized_user_age	Тензор		поплавок32
кино_жанры	Последовательность (метка класса)	(Никто,)	int64
movie_id	Тензор		нить
название фильма	Тензор		нить
отметка времени	Тензор		int64
user_gender	Тензор		логический
ID пользователя	Тензор		нить
user_occupation_label	Метка класса		int64
user_occupation_text	Тензор		нить
рейтинг пользователей	Тензор		поплавок32
user_zip_code	Тензор		нить

Примеры ( tfds.as_dataframe ):

кинообъектив/1м-фильмы

Описание конфигурации : этот набор данных содержит данные примерно о 3900 фильмах, оцененных в наборе данных 1 м.
Размер загрузки : 5.64 MiB
Размер набора данных : 351.12 KiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	3883

Структура функции :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
кино_жанры	Последовательность (метка класса)	(Никто,)	int64
movie_id	Тензор		нить
название фильма	Тензор		нить

Примеры ( tfds.as_dataframe ):

кинообъектив/20м-рейтинги

Описание конфигурации : этот набор данных содержит 20 000 263 оценки для 27 278 фильмов, созданных 138 493 пользователями в период с 09 января 1995 года по 31 марта 2015 года. Этот набор данных был сгенерирован 17 октября 2016 года.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не содержит демографических данных.

Размер загрузки : 189.50 MiB
Размер набора данных : 3.10 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	20 000 263

Структура функции :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
кино_жанры	Последовательность (метка класса)	(Никто,)	int64
movie_id	Тензор		нить
название фильма	Тензор		нить
отметка времени	Тензор		int64
ID пользователя	Тензор		нить
рейтинг пользователей	Тензор		поплавок32

Примеры ( tfds.as_dataframe ):

кинообъектив/20м-фильмы

Описание конфигурации : этот набор данных содержит данные о 27 278 фильмах, оцененных в наборе данных 20 м.
Размер загрузки : 189.50 MiB
Размер набора данных : 2.55 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	27 278

Структура функции :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
кино_жанры	Последовательность (метка класса)	(Никто,)	int64
movie_id	Тензор		нить
название фильма	Тензор		нить

Примеры ( tfds.as_dataframe ):

кинообъектив Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.