Datasets (Датасеты)
CIFAR10 классификация небольших изображений
Набор данных из 50 000 цветных учебных изображений 32×32, помеченных более чем в 10 категориях, и 10 000 тестовых изображений.
Использование:
from keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
- Возвращает:
- 2 кортежа:
- x_train, x_test: массив данных RGB изображений uint8 с формой (num_samples, 3, 32, 32) или (num_samples, 32, 32, 3), основанный на настройке бэкэнда image_data_format либо channels_first, либо channels_last соответственно.
- y_train, y_test: массив uint8 обозначений категорий (целые числа в диапазоне 0-9) с формой (num_samples, 1).
CIFAR100 классификация небольших изображений
Набор данных из 50 000 цветных учебных изображений 32×32, помеченных более чем в 100 категориях, и 10 000 тестовых изображений.
Использование:
from keras.datasets import cifar100
(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode=’fine’)
Возвращает:
- 2 кортежа:
- x_train, x_test: массив данных RGB изображений uint8 с формой (num_samples, 3, 32, 32) или (num_samples, 32, 32, 3), основанный на настройке бэкэнда image_data_format либо channels_first, либо channels_last соответственно.
- y_train, y_test: массив uint8 обозначений категорий с формой (num_samples, 1).
Аргументы:
- label_mode: «fine» или «coarse».
IMDB Movie обзор классификации настроений
Набор из 25 000 отзывов о фильмах из IMDB, помеченных сентиментальностью (положительный/отрицательный). Отзывы были препроцессированы, и каждый отзыв закодирован как последовательность индексов слов (целых чисел). Для удобства, слова индексируются по общей частоте в наборе данных, так что, например, целое число «3» кодирует 3-е наиболее часто встречающееся слово в данных. Это позволяет быстро выполнять такие операции фильтрации: «учитывайте только 10 000 самых распространенных слов, но исключайте 20 самых распространенных слов».
Как правило, «0» не означает конкретное слово, а используется для кодирования любого неизвестного слова.
Использование:
from keras.datasets import imdb
(x_train, y_train), (x_test, y_test) = imdb.load_data(path=»imdb.npz»,
num_words=None,
skip_top=0,
maxlen=None,
seed=113,
start_char=1,
oov_char=2,
index_from=3)
Возвращает:
- 2 кортежа:
- x_train, x_test: список последовательностей, которые представляют собой списки индексов (целых чисел). Если аргумент num_words был специфичен, то максимально возможное значение индекса — num_words-1. Если был указан аргумент maxlen, то максимально возможная длина последовательности — maxlen.
- y_train, y_test: список целых меток (1 или 0).
Аргументы:
- path: если у вас нет данных локально (в ‘~/.keras/datasets/’ + путь), они будут загружены в это место.
- num_words: целое или None. Наиболее часто встречающиеся слова для рассмотрения. Любое менее частое слово будет выглядеть как значение oov_char в данных последовательности.
- skip_top: целое число. Лучшие наиболее часто игнорируемые слова (они будут отображаться в данных последовательности как значение oov_char).
- maxlen: целое число. Максимальная длина последовательности. Любая более длинная последовательность будет усечена.
- seed: целое число. Посевной материал для воспроизводимого перетасовки данных.
- start_char: целое число. Начало последовательности будет помечено этим символом. Установите значение 1, потому что 0 обычно является символом подкладки.
- oov_char: целое число. слова, вырезанные из-за ограничения num_words или skip_top, будут заменены этим символом.
- index_from: целое число. Индексирует фактические слова с этим индексом и выше.
Классификация тем новостных лент Reuters
Датасет из 11 228 новостных лент от Reuters, обозначенных более чем 46 темами. Как и в наборе данных IMDB, каждый провод кодируется как последовательность индексов слов (те же самые конвенции).
Использование:
from keras.datasets import reuters
(x_train, y_train), (x_test, y_test) = reuters.load_data(path=»reuters.npz»,
num_words=None,
skip_top=0,
maxlen=None,
test_split=0.2,
seed=113,
start_char=1,
oov_char=2,
index_from=3)
Спецификации такие же, как и в наборе данных IMDB, с добавлением:
test_split: флоут. Часть набора данных, которая будет использоваться в качестве тестовых данных.
Этот набор данных также делает доступным индекс слова, используемый для кодирования последовательностей:
word_index = reuters.get_word_index(path=»reuters_word_index.json»)
Возвращает: Словарь, где ключом являются слова (str), а значением — индексы (целое число). Например, word_index[«giraffe»] может вернуть 1234.
Аргументы:
- path: если у вас нет файла индекса локально (в ‘~/.keras/datasets/’ + path), он будет загружен в это место.
База данных MNIST рукописных цифр
Набор из 60 000 полутоновых изображений размером 28×28, состоящий из 10 цифр, а также тестовый набор из 10 000 изображений.
Использование:
from keras.datasets import mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
Возвращает:
- 2 кортежа:
- x_train, x_test: массив данных изображения в градациях серого uint8 с формой (num_samples, 28, 28).
- y_train, y_test: массив uint8 цифровых меток (целые числа в диапазоне 0-9) с фигурой (num_samples,).
Аргументы:
- путь: если у вас нет файла индекса локально (в ‘~/.keras/datasets/’ + path), он будет загружен в это место.
База данных модных статей Fashion-MNIST
Набор из 60 000 полутоновых изображений 28х28 серого цвета 10 категорий моды, а также тестовый набор из 10 000 изображений. Этот набор данных может быть использован в качестве замены MNIST. Классовые метки:
Метка | Описание |
0 | футболка/клубка |
1 | Брюки |
2 | Пуловер |
3 | Платье |
4 | Пальто |
5 | Сандал |
6 | Рубашка |
7 | Кроссовок |
8 | Сумка |
9 | Ботинок |
Использование:
from keras.datasets import fashion_mnist
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
- Возвращает:
- 2 кортежа:
- x_train, x_test: массив данных изображения в градациях серого uint8 с формой (num_samples, 28, 28).
- y_train, y_test: массив меток uint8 (целые числа в диапазоне 0-9) с фигурой (num_samples,).
Набор данных по регрессии цен на жилье в Бостоне
Данные взяты из библиотеки StatLib, которая находится в университете Карнеги-Меллон.
Образцы содержат 13 атрибутов домов в разных местах в пригороде Бостона в конце 1970-х годов. Цели — это медианные значения домов в определенном местоположении (в k$).
Использование:
from keras.datasets import boston_housing
(x_train, y_train), (x_test, y_test) = boston_housing.load_data()
Аргументы:
- path: путь, где локально кэшировать набор данных (относительно ~/.keras/datasets).
- seed: Случайный сиддля перетасовки данных перед вычислением тестового разделения.
- test_split: часть данных для резервирования в качестве тестового набора.
Взвращает: Кортеж Numpy массивов: (x_train, y_train), (x_test, y_test).