mslr_web

  • Описание :

MSLR-WEB — это два крупномасштабных набора данных Learning-to-Rank, выпущенных Microsoft Research. Первый набор данных (называемый «30 000») содержит 30 000 запросов, а второй набор данных (называемый «10 000») содержит 10 000 запросов. Каждый набор данных состоит из пар запрос-документ, представленных в виде векторов признаков и соответствующих меток суждения о релевантности.

Вы можете указать, использовать ли версию набора данных «10 КБ» или «30 КБ» и соответствующую складку следующим образом:

ds = tfds.load("mslr_web/30k_fold1")

Если указан только mslr_web , по умолчанию выбирается вариант mslr_web/10k_fold1 :

# This is the same as `tfds.load("mslr_web/10k_fold1")`
ds = tfds.load("mslr_web")
  • Домашняя страница : https://www.microsoft.com/en-us/research/project/mslr/

  • Исходный код : tfds.ranking.mslr_web.MslrWeb

  • Версии :

    • 1.0.0 : Первоначальный выпуск.
    • 1.1.0 : Объединение функций в одну функцию «float_features».
    • 1.2.0 (по умолчанию): добавьте идентификаторы запросов и документов.
  • Автоматическое кэширование ( документация ): Нет

  • Структура функции :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 136), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
doc_id Тензор (Никто,) int64
float_features Тензор (Нет, 136) поплавок64
этикетка Тензор (Никто,) поплавок64
query_id Текст нить
@article{DBLP:journals/corr/QinL13,
  author    = {Tao Qin and Tie{-}Yan Liu},
  title     = {Introducing {LETOR} 4.0 Datasets},
  journal   = {CoRR},
  volume    = {abs/1306.2597},
  year      = {2013},
  url       = {http://arxiv.org/abs/1306.2597},
  timestamp = {Mon, 01 Jul 2013 20:31:25 +0200},
  biburl    = {http://dblp.uni-trier.de/rec/bib/journals/corr/QinL13},
  bibsource = {dblp computer science bibliography, http://dblp.org}
}

mslr_web/10k_fold1 (конфигурация по умолчанию)

  • Размер загрузки : 1.15 GiB

  • Размер набора данных : 310.08 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 6000
'vali' 2000

mslr_web/10k_fold2

  • Размер загрузки : 1.15 GiB

  • Размер набора данных : 310.08 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 6000
'vali' 2000

mslr_web/10k_fold3

  • Размер загрузки : 1.15 GiB

  • Размер набора данных : 310.08 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 6000
'vali' 2000

mslr_web/10k_fold4

  • Размер загрузки : 1.15 GiB

  • Размер набора данных : 310.08 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 6000
'vali' 2000

mslr_web/10k_fold5

  • Размер загрузки : 1.15 GiB

  • Размер набора данных : 310.08 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 6000
'vali' 2000

mslr_web/30k_fold1

  • Размер загрузки : 3.59 GiB

  • Размер набора данных : 964.09 MiB .

  • Сплиты :

Расколоть Примеры
'test' 6306
'train' 18 919
'vali' 6306

mslr_web/30k_fold2

  • Размер загрузки : 3.59 GiB

  • Размер набора данных : 964.09 MiB .

  • Сплиты :

Расколоть Примеры
'test' 6307
'train' 18 918
'vali' 6306

mslr_web/30k_fold3

  • Размер загрузки : 3.59 GiB

  • Размер набора данных : 964.09 MiB .

  • Сплиты :

Расколоть Примеры
'test' 6306
'train' 18 918
'vali' 6307

mslr_web/30k_fold4

  • Размер загрузки : 3.59 GiB

  • Размер набора данных : 964.09 MiB .

  • Сплиты :

Расколоть Примеры
'test' 6306
'train' 18 919
'vali' 6306

mslr_web/30k_fold5

  • Размер загрузки : 3.59 GiB

  • Размер набора данных : 964.09 MiB .

  • Сплиты :

Расколоть Примеры
'test' 6306
'train' 18 919
'vali' 6306