- Описание :
Этот набор данных содержит набор рейтингов фильмов с веб-сайта MovieLens, службы рекомендаций фильмов. Этот набор данных был собран и поддерживается GroupLens , исследовательской группой Университета Миннесоты. В комплекте 5 версий: "25м", "последняя-маленькая", "100к", "1м", "20м". Во всех наборах данных данные фильмов и данные рейтингов объединяются в «movieId». Набор данных 25 м, последний небольшой набор данных и набор данных 20 м содержат только данные о фильмах и данные о рейтингах. Набор данных 1 млн и набор данных 100 тыс. содержат демографические данные в дополнение к данным о фильмах и рейтингах.
- «25m»: это последняя стабильная версия набора данных MovieLens. Рекомендуется для исследовательских целей.
- «latest-small»: это небольшое подмножество последней версии набора данных MovieLens. GroupLens со временем изменяет и обновляет его.
- «100k»: это самая старая версия наборов данных MovieLens. Это небольшой набор данных с демографическими данными.
- «1m»: это самый большой набор данных MovieLens, содержащий демографические данные.
- «20 м»: это один из наиболее часто используемых наборов данных MovieLens в научных статьях наряду с набором данных 1 м.
Для каждой версии пользователи могут просматривать либо только данные о фильмах, добавляя суффикс «-movies» (например, «25 млн фильмов»), либо данные о рейтингах, объединенные с данными о фильмах (и данные о пользователях в наборах данных 1 млн и 100 тыс.), добавляя суффикс "-рейтинги" (например, "25m-рейтинги").
Перечисленные ниже функции включены во все версии с суффиксом «-ratings».
- "movie_id": уникальный идентификатор оцениваемого фильма.
- «movie_title»: название рейтингового фильма с годом выпуска в скобках.
- «movie_genres»: последовательность жанров, к которым относится оцениваемый фильм.
- "user_id": уникальный идентификатор пользователя, составившего рейтинг
- "user_rating": оценка рейтинга по пятизвездочной шкале
- «отметка времени»: отметка времени рейтингов, представленная в секундах с полуночи по всемирному координированному времени (UTC) 1 января 1970 г.
Версии «100k-рейтинги» и «1m-рейтинги» дополнительно включают следующие демографические характеристики.
- "user_gender": пол пользователя, составившего рейтинг; истинное значение соответствует мужскому
- «bucketized_user_age»: значения возраста пользователя, составившего рейтинг, с разбивкой по сегментам, значения и соответствующие диапазоны:
- 1: «До 18 лет»
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: «50-55»
- 56: «56+»
- «user_occupation_label»: род занятий пользователя, составившего рейтинг, представленный меткой в целочисленном коде; метки предварительно обработаны, чтобы быть согласованными в разных версиях
- "user_occupation_text": род занятий пользователя, составившего рейтинг в исходной строке; разные версии могут иметь разный набор текстовых меток
- "user_zip_code": почтовый индекс пользователя, составившего рейтинг
Кроме того, набор данных «100k-ratings» также будет иметь функцию «raw_user_age», которая представляет собой точный возраст пользователей, составивших рейтинг.
Наборы данных с суффиксом «-movies» содержат только функции «movie_id», «movie_title» и «movie_genres».
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://grouplens.org/datasets/movielens/
Исходный код :
tfds.structured.Movielens
Версии :
-
0.1.1
(по умолчанию): нет примечаний к выпуску.
-
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movielens/25m-рейтинги (конфигурация по умолчанию)
- Описание конфигурации : этот набор данных содержит 25 000 095 оценок для 62 423 фильмов, созданных 162 541 пользователем в период с 9 января 1995 года по 21 ноября.
- Этот набор данных является последней стабильной версией набора данных MovieLens, созданной 21 ноября 2019 года.
Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не включает демографические данные.
Размер загрузки :
249.84 MiB
Размер набора данных :
3.89 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 25 000 095 |
- Структура функции :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
movie_id | Тензор | нить | ||
название фильма | Тензор | нить | ||
отметка времени | Тензор | int64 | ||
ID пользователя | Тензор | нить | ||
рейтинг пользователей | Тензор | поплавок32 |
- Примеры ( tfds.as_dataframe ):
кинообъектив/25м-фильмы
Описание конфигурации : этот набор данных содержит данные о 62 423 фильмах, оцененных в наборе данных 25 м.
Размер загрузки :
249.84 MiB
Размер набора данных :
5.71 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 62 423 |
- Структура функции :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
movie_id | Тензор | нить | ||
название фильма | Тензор | нить |
- Примеры ( tfds.as_dataframe ):
кинообъектив/последние-маленькие-рейтинги
- Описание конфигурации : этот набор данных содержит 100 836 оценок для 9 742 фильмов, созданных 610 пользователями в период с 29 марта 1996 г. по 24 сентября 2018 г. Этот набор данных создан 26 сентября 2018 г. и является подмножеством полной последней версии набора данных MovieLens. . Этот набор данных изменяется и обновляется с течением времени.
Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не включает демографические данные.
Размер загрузки :
955.28 KiB
Размер набора данных :
15.82 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 100 836 |
- Структура функции :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
movie_id | Тензор | нить | ||
название фильма | Тензор | нить | ||
отметка времени | Тензор | int64 | ||
ID пользователя | Тензор | нить | ||
рейтинг пользователей | Тензор | поплавок32 |
- Примеры ( tfds.as_dataframe ):
кинообъектив/последние маленькие фильмы
Описание конфигурации : этот набор данных содержит данные о 9742 фильмах, оцененных в последнем небольшом наборе данных.
Размер загрузки :
955.28 KiB
Размер набора данных :
910.64 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 9742 |
- Структура функции :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
movie_id | Тензор | нить | ||
название фильма | Тензор | нить |
- Примеры ( tfds.as_dataframe ):
кинообъектив/100k-рейтинги
- Описание конфигурации : этот набор данных содержит 100 000 оценок 943 пользователей для 1 682 фильмов. Этот набор данных является самой старой версией набора данных MovieLens.
Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в целую звезду. Этот набор данных содержит демографические данные пользователей в дополнение к данным о фильмах и рейтингах.
Размер загрузки :
4.70 MiB
Размер набора данных :
32.41 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 100 000 |
- Структура функции :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
Bucketized_user_age | Тензор | поплавок32 | ||
кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
movie_id | Тензор | нить | ||
название фильма | Тензор | нить | ||
raw_user_age | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 | ||
user_gender | Тензор | логический | ||
ID пользователя | Тензор | нить | ||
user_occupation_label | Метка класса | int64 | ||
user_occupation_text | Тензор | нить | ||
рейтинг пользователей | Тензор | поплавок32 | ||
user_zip_code | Тензор | нить |
- Примеры ( tfds.as_dataframe ):
кинообъектив/100 000 фильмов
Описание конфигурации : этот набор данных содержит данные о 1682 фильмах, оцененных в наборе данных 100 000.
Размер загрузки :
4.70 MiB
Размер набора данных :
150.35 KiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1682 |
- Структура функции :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
movie_id | Тензор | нить | ||
название фильма | Тензор | нить |
- Примеры ( tfds.as_dataframe ):
кинообъектив/1м-рейтинги
- Описание конфигурации : этот набор данных содержит 1 000 209 анонимных оценок примерно 3 900 фильмов, созданных 6 040 пользователями MovieLens, присоединившимися к MovieLens в
- Этот набор данных является самым большим набором данных, который включает демографические данные.
Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в целую звезду. В демографических данных значения возраста делятся на диапазоны, и вместо фактических значений в данных используется наименьшее значение возраста для каждого диапазона.
Размер загрузки :
5.64 MiB
Размер набора данных :
308.42 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1 000 209 |
- Структура функции :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
Bucketized_user_age | Тензор | поплавок32 | ||
кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
movie_id | Тензор | нить | ||
название фильма | Тензор | нить | ||
отметка времени | Тензор | int64 | ||
user_gender | Тензор | логический | ||
ID пользователя | Тензор | нить | ||
user_occupation_label | Метка класса | int64 | ||
user_occupation_text | Тензор | нить | ||
рейтинг пользователей | Тензор | поплавок32 | ||
user_zip_code | Тензор | нить |
- Примеры ( tfds.as_dataframe ):
кинообъектив/1м-фильмы
Описание конфигурации : этот набор данных содержит данные примерно о 3900 фильмах, оцененных в наборе данных 1 м.
Размер загрузки :
5.64 MiB
Размер набора данных :
351.12 KiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 3883 |
- Структура функции :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
movie_id | Тензор | нить | ||
название фильма | Тензор | нить |
- Примеры ( tfds.as_dataframe ):
кинообъектив/20м-рейтинги
- Описание конфигурации : этот набор данных содержит 20 000 263 оценки для 27 278 фильмов, созданных 138 493 пользователями в период с 09 января 1995 года по 31 марта 2015 года. Этот набор данных был сгенерирован 17 октября 2016 года.
Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не содержит демографических данных.
Размер загрузки :
189.50 MiB
Размер набора данных :
3.10 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 20 000 263 |
- Структура функции :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
movie_id | Тензор | нить | ||
название фильма | Тензор | нить | ||
отметка времени | Тензор | int64 | ||
ID пользователя | Тензор | нить | ||
рейтинг пользователей | Тензор | поплавок32 |
- Примеры ( tfds.as_dataframe ):
кинообъектив/20м-фильмы
Описание конфигурации : этот набор данных содержит данные о 27 278 фильмах, оцененных в наборе данных 20 м.
Размер загрузки :
189.50 MiB
Размер набора данных :
2.55 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 27 278 |
- Структура функции :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
movie_id | Тензор | нить | ||
название фильма | Тензор | нить |
- Примеры ( tfds.as_dataframe ):