Перейти к содержанию

Датасеты

Datasets (Датасеты)

CIFAR10 классификация небольших изображений

Набор данных из 50 000 цветных учебных изображений 32×32, помеченных более чем в 10 категориях, и 10 000 тестовых изображений.

Использование:

from keras.datasets import cifar10

(x_train, y_train), (x_test, y_test) = cifar10.load_data()

  • Возвращает:
    • 2 кортежа:
    • x_train, x_test: массив данных RGB изображений uint8 с формой (num_samples, 3, 32, 32) или (num_samples, 32, 32, 3), основанный на настройке бэкэнда image_data_format либо channels_first, либо channels_last соответственно.
    • y_train, y_test: массив uint8 обозначений категорий (целые числа в диапазоне 0-9) с формой (num_samples, 1).

CIFAR100 классификация небольших изображений

Набор данных из 50 000 цветных учебных изображений 32×32, помеченных более чем в 100 категориях, и 10 000 тестовых изображений.

Использование:

from keras.datasets import cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode=’fine’)

Возвращает:

    • 2 кортежа:
    • x_train, x_test: массив данных RGB изображений uint8 с формой (num_samples, 3, 32, 32) или (num_samples, 32, 32, 3), основанный на настройке бэкэнда image_data_format либо channels_first, либо channels_last соответственно.
    • y_train, y_test: массив uint8 обозначений категорий с формой (num_samples, 1).

Аргументы:

  • label_mode: «fine» или «coarse».

IMDB Movie обзор классификации настроений

Набор из 25 000 отзывов о фильмах из IMDB, помеченных сентиментальностью (положительный/отрицательный). Отзывы были препроцессированы, и каждый отзыв закодирован как последовательность индексов слов (целых чисел). Для удобства, слова индексируются по общей частоте в наборе данных, так что, например, целое число «3» кодирует 3-е наиболее часто встречающееся слово в данных. Это позволяет быстро выполнять такие операции фильтрации: «учитывайте только 10 000 самых распространенных слов, но исключайте 20 самых распространенных слов».

Как правило, «0» не означает конкретное слово, а используется для кодирования любого неизвестного слова.

Использование:

from keras.datasets import imdb

(x_train, y_train), (x_test, y_test) = imdb.load_data(path=»imdb.npz»,

                                                      num_words=None,

                                                      skip_top=0,

                                                      maxlen=None,

                                                      seed=113,

                                                      start_char=1,

                                                      oov_char=2,

                                                      index_from=3)

Возвращает:

  • 2 кортежа:
  • x_train, x_test: список последовательностей, которые представляют собой списки индексов (целых чисел). Если аргумент num_words был специфичен, то максимально возможное значение индекса — num_words-1. Если был указан аргумент maxlen, то максимально возможная длина последовательности — maxlen.
  • y_train, y_test: список целых меток (1 или 0).

Аргументы:

  • path: если у вас нет данных локально (в ‘~/.keras/datasets/’ + путь), они будут загружены в это место.
  • num_words: целое или None. Наиболее часто встречающиеся слова для рассмотрения. Любое менее частое слово будет выглядеть как значение oov_char в данных последовательности.
  • skip_top: целое число. Лучшие наиболее часто игнорируемые слова (они будут отображаться в данных последовательности как значение oov_char).
  • maxlen: целое число. Максимальная длина последовательности. Любая более длинная последовательность будет усечена.
  • seed: целое число. Посевной материал для воспроизводимого перетасовки данных.
  • start_char: целое число. Начало последовательности будет помечено этим символом. Установите значение 1, потому что 0 обычно является символом подкладки.
  • oov_char: целое число. слова, вырезанные из-за ограничения num_words или skip_top, будут заменены этим символом.
  • index_from: целое число. Индексирует фактические слова с этим индексом и выше.

Классификация тем новостных лент Reuters

Датасет из 11 228 новостных лент от Reuters, обозначенных более чем 46 темами. Как и в наборе данных IMDB, каждый провод кодируется как последовательность индексов слов (те же самые конвенции).

Использование:

from keras.datasets import reuters

(x_train, y_train), (x_test, y_test) = reuters.load_data(path=»reuters.npz»,

                                                         num_words=None,

                                                         skip_top=0,

                                                         maxlen=None,

                                                         test_split=0.2,

                                                         seed=113,

                                                         start_char=1,

                                                         oov_char=2,

                                                         index_from=3)

Спецификации такие же, как и в наборе данных IMDB, с добавлением:

test_split: флоут. Часть набора данных, которая будет использоваться в качестве тестовых данных.

Этот набор данных также делает доступным индекс слова, используемый для кодирования последовательностей:

word_index = reuters.get_word_index(path=»reuters_word_index.json»)

Возвращает: Словарь, где ключом являются слова (str), а значением — индексы (целое число). Например, word_index[«giraffe»] может вернуть 1234.

Аргументы:

  • path: если у вас нет файла индекса локально (в ‘~/.keras/datasets/’ + path), он будет загружен в это место.

База данных MNIST рукописных цифр

Набор из 60 000 полутоновых изображений размером 28×28, состоящий из 10 цифр, а также тестовый набор из 10 000 изображений.

Использование:

from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

Возвращает:

  • 2 кортежа:
  • x_train, x_test: массив данных изображения в градациях серого uint8 с формой (num_samples, 28, 28).
  • y_train, y_test: массив uint8 цифровых меток (целые числа в диапазоне 0-9) с фигурой (num_samples,).

Аргументы:

  • путь: если у вас нет файла индекса локально (в ‘~/.keras/datasets/’ + path), он будет загружен в это место.

База данных модных статей Fashion-MNIST

Набор из 60 000 полутоновых изображений 28х28 серого цвета 10 категорий моды, а также тестовый набор из 10 000 изображений. Этот набор данных может быть использован в качестве замены MNIST. Классовые метки:

МеткаОписание
0футболка/клубка
1Брюки
2Пуловер
3Платье
4Пальто
5Сандал
6Рубашка
7Кроссовок
8Сумка
9Ботинок

Использование:

from keras.datasets import fashion_mnist

(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

  • Возвращает:
  • 2 кортежа:
  • x_train, x_test: массив данных изображения в градациях серого uint8 с формой (num_samples, 28, 28).
  • y_train, y_test: массив меток uint8 (целые числа в диапазоне 0-9) с фигурой (num_samples,).

Набор данных по регрессии цен на жилье в Бостоне

Данные взяты из библиотеки StatLib, которая находится в университете Карнеги-Меллон.

Образцы содержат 13 атрибутов домов в разных местах в пригороде Бостона в конце 1970-х годов. Цели — это медианные значения домов в определенном местоположении (в k$).

Использование:

from keras.datasets import boston_housing

(x_train, y_train), (x_test, y_test) = boston_housing.load_data()

Аргументы:

  • path: путь, где локально кэшировать набор данных (относительно ~/.keras/datasets).
  • seed: Случайный сиддля перетасовки данных перед вычислением тестового разделения.
  • test_split: часть данных для резервирования в качестве тестового набора.

Взвращает: Кортеж Numpy массивов: (x_train, y_train), (x_test, y_test).