Прогнозирование цен на сырую нефть методом K-means и модели LSTM
Сырая нефть, являясь важнейшим источником энергии, оказывает огромное влияние на глобальную экономику, транспорт и производственные процессы. Прогнозирование её будущей стоимости является ключевой задачей для многих участников рынка, включая потребителей, компании и государства. Точные прогнозы могут помочь:
— Потребителям: лучше понимать возможные изменения цен на бензин и другие энергоносители, что позволит более эффективно планировать семейный бюджет и принимать решения о покупках.
— Энергетическим рынкам: оптимизировать производство, хранение и распределение нефти и газа, что приведет к более эффективному использованию ресурсов и стабильности цен.
— Финансовому планированию: обеспечить предприятия точными данными для принятия инвестиционных решений и управления финансовыми рисками, связанными с энергетическими затратами.
— Развитию устойчивой энергетики: помочь оценить будущие затраты на традиционные виды топлива и способствовать развитию альтернативных источников энергии.
Однако точное прогнозирование цен на нефть осложняется её высокой волатильностью. На колебания цен могут влиять множество факторов, включая глобальный спрос, геополитические события и технологические достижения. Эта волатильность усложняет процесс прогнозирования и увеличивает вероятность ошибок. В результате активно ведутся исследования для создания более надежных моделей прогнозирования, которые могут учитывать эти сложности.
С ростом важности прогнозирования цен на энергию с 2017 года наблюдается значительное увеличение количества исследований. Классические методы, такие как авторегрессионная интегрированная скользящая средняя (ARIMA), применялись для прогнозирования цен, однако они не способны выявить нелинейные зависимости и паттерны во временных рядах. Нейронные сети (NN) успешно решили эту проблему, добавив больше нелинейности, и широко применяются в прогнозировании цен.
Некоторые исследователи использовали ансамбли правил предсказаний (PRE) и глубокие нейронные сети (DNN) для прогнозирования цен на акции, объединяя результаты этих моделей для получения более точных прогнозов. Другие работы использовали генетический алгоритм с нейронными сетями для оптимизации гиперпараметров сети, таких как топология, смещения и веса. Эти методы показали, что объединение подходов повышает точность прогнозирования по сравнению с использованием отдельных моделей.
Модели LSTM (Long Short-Term Memory) и GRU (Gated Recurrent Unit) играют важную роль в анализе временных рядов и активно применяются для финансовых данных. Эти методы способны лучше улавливать зависимости между временными последовательностями, что делает их эффективными для прогнозирования цен на сырье и другие финансовые показатели. Модели LSTM и GRU могут работать как отдельно, так и в сочетании с другими архитектурами нейронных сетей, например, с CNN (сверточные нейронные сети) и механизмом внимания (attention mechanism), что значительно улучшает качество предсказаний.
Некоторые исследования также использовали такие методы, как разложение сигналов, чтобы улучшить точность моделей LSTM. Например, методы вариационного разложения мод (VMD) и вейвлет-преобразование (WT) доказали свою эффективность в повышении точности предсказаний, хотя такие подходы увеличивают время вычислений, поскольку для каждого компонента сигнала необходимо строить отдельные модели.
Улучшенные версии LSTM, такие как двунаправленная LSTM (BiLSTM) и двунаправленная GRU (BiGRU), способны обрабатывать данные как в прямом, так и в обратном направлениях, что позволяет моделям лучше улавливать паттерны и зависимости. Эти методы успешно применяются для прогнозирования различных финансовых показателей, включая прогнозы цен на нефть и фьючерсы на энергоносители.
Кроме того, стратегии dense-sparse-dense (DSD*, предложенные для уменьшения числа параметров нейронных сетей без значительной потери точности, также нашли свое применение в прогнозировании временных рядов. Техника DSD позволяет значительно сокращать размер модели, сохраняя при этом её эффективность.
Методы кластеризации, такие как K-means, также широко применяются для разделения данных на группы, что позволяет улучшить точность предсказаний для каждой группы данных. Например, использование кластеризации K-means совместно с LSTM для прогнозирования пассажиропотока или цен на энергоносители продемонстрировало более высокие результаты по сравнению с классическими подходами.
Таким образом, интеграция методов LSTM, GRU, кластеризации и техник оптимизации, таких как DSD, представляет собой мощный инструмент для точного прогнозирования цен на сырьевые товары и другие финансовые показатели.
В данном исследовании рассматривается влияние кластеризации и стратегии DSD на улучшение прогнозирования цен на нефть. Основная цель — создание более точной и устойчивой модели для предсказания цен, что позволит снизить будущие потери в таких областях, как долгосрочное планирование. Для этого предложена модель K-means-DSD-LSTM, которая сочетает две техники — кластеризацию K-means и обучение по стратегии DSD.
Процесс обучения модели состоит из трёх этапов:
- Обучение модели DSD-LSTM.
- Кластеризация данных с помощью K-means.
- Тонкая настройка модели DSD-LSTM для каждого кластера. Это позволяет каждому кластеру обучаться на специализированных данных, что повышает точность прогнозирования для каждой группы.
Преимущества:
- Эффективность: Кластеризация данных снижает вычислительную нагрузку по сравнению с методами разложения сигнала, так как для каждого кластера используется только одна модель. Методы разложения сигнала требуют одновременного выполнения всех моделей, что значительно увеличивает время вычислений.
- Устойчивость: Использование K-means позволяет снизить риск переобучения за счёт создания специализированных моделей для каждого кластера.
- Высокая производительность: Модель K-means-DSD-LSTM показывает конкурентоспособные или даже превосходящие результаты по сравнению с более сложными методами, такими как модели с разложением сигнала.
Оценка модели:
Модель была протестирована на двух известных наборах данных по ценам на нефть: West Texas Intermediate (WTI) и Brent. Результаты показали, что предложенная модель демонстрирует высокую точность и эффективность в прогнозировании цен.
Таким образом, комбинирование методов кластеризации и DSD-стратегии позволяет создать мощный инструмент для точного и эффективного прогнозирования цен на нефть, снижая вычислительную сложность и повышая устойчивость модели.
Методы и материалы
LSTM — это рекуррентная нейронная сеть, способная обучаться как на коротких, так и на длинных временных зависимостях. Основные операции ячейки LSTM можно выразить через несколько уравнений:
1. Forget Gate определяют, какую часть предыдущего состояния памяти нужно забыть:
\[
f_t = \sigma(W_{hf}h_{t-1} + W_{xf}x_t + b_f)
\]
2. Input Gate определяют, сколько новой информации поступит в память ячейки:
\[
i_t = \sigma(W_{hi}h_{t-1} + W_{xi}x_t + b_i)
\]
3. Output Gate) регулируют, какую информацию из текущего состояния памяти отправить в выходное состояние:
\[
o_t = \sigma(W_{ho}h_{t-1} + W_{xo}x_t + b_o)
\]
4. После этого вычисляются новые значения состояния памяти и скрытого состояния:
\[
\tilde{C_t} = \tanh(W_{hc}h_{t-1} + W_{xc}x_t + b_c)
\]
\[
C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C_t}
\]
5. Наконец, новое скрытое состояние ячейки:
\[
h_t = o_t \odot \tanh(C_t)
\]
Где \(\sigma\) — это сигмоида, \(\tanh\) — гиперболический тангенс, а \(\odot\) — поэлементное умножение векторов (произведение Адамара).
Эти уравнения описывают, как LSTM управляет сохранением и обновлением информации во временных рядах, что делает её подходящей для обработки данных с длительными зависимостями.
Dense-Sparse-Dense (DSD) — это стратегия обучения, которая может повысить точность модели без влияния на её размер. Она включает три основных этапа:
Этап 1: Обучение полной модели
На этом этапе модель обучается с использованием всех параметров, аналогично традиционным методам обучения. Однако основной задачей является выявление ключевых параметров нейронной сети (NN).
Рис. 1. Различные этапы стратегии обучения DSD.
(a) Обучение всей модели для выявления важных связей.
(b) Удаление незначительных связей и повторное обучение модели для усиления ключевых связей.
(c) Восстановление удалённых связей и повторное обучение модели.
Этап 2: Обучение прореженной (sparse) модели
На втором этапе ненужные параметры модели удаляются (прореживаются). Затем модель повторно обучается с той же скоростью обучения, что и на первом этапе. Это помогает усилить важные связи. Для процесса прореживания необходимо задать гиперпараметр — (sparsity), который указывает процент параметров, подлежащих удалению. Для слоя L с N параметрами, после сортировки по значению, выбирается k-ый наибольший параметр, где k = N ∗ (1 − разреженность). Все параметры, значение которых меньше, чем у k-ого, удаляются.
Этап 3: Обучение финальной полной (dense) модели
На последнем этапе все удалённые параметры восстанавливаются и инициализируются нулями. Затем модель обучается с уменьшенной в 10 раз скоростью обучения. Это помогает модели выйти из локального минимума и позволяет ей улучшить свою производительность, находя более оптимальные решения, восстанавливая веса и проводя дополнительное обучение.
K-means
Кластеризация методом K-means — это алгоритм обучения без учителя, который используется для разделения набора данных на K-групп (кластеров). Процесс начинается с случайного выбора Kцентроидов (одного для каждого кластера). Затем каждому элементу данных присваивается ближайший центроид на основе метрики расстояния (обычно евклидова расстояния). После этого центроиды пересчитываются как среднее значение всех точек кластера. Этот процесс повторяется до тех пор, пока центроиды не стабилизируются, а изменение назначений точек становится минимальным.
Рис. 2. Архитектура модели DSD-LSTM демонстрирует использование стратегии Dense-Sparse-Dense в комбинации с Long Short-Term Memory (LSTM). В этой архитектуре модель сначала проходит этап обучения с полным набором параметров (dense), затем ненужные параметры удаляются для создания разреженной структуры (sparse), и на последнем этапе происходит повторное обучение с восстановлением параметров. Этот процесс позволяет улучшить производительность модели и её способность к обработке временных рядов, сохраняя высокую вычислительную эффективность.
Итеративная настройка в методе K-means продолжается до тех пор, пока центроиды не стабилизируются или не будет достигнуто заданное количество итераций. Этот процесс нацелен на минимизацию целевой функции — суммы квадратов расстояний между точками и их соответствующими центроидами кластеров, что позволяет оценить плотность кластеров и их разделение от других групп.
Предложенный метод
В исследовании представлена новая гибридная модель для прогнозирования цен на нефть. Процесс состоит из трёх шагов:
1. Обучение модели DSD-LSTM: Модель включает две слои LSTM, за которыми следуют полносвязный слой и выходной слой. На этом этапе модель обучается на тренировочном наборе данных. Архитектура показана на Рис. 2.
2. Применение алгоритма K-means: После обучения модели выполняется кластеризация данных с помощью K-means для выделения кластеров в тренировочном наборе данных.
3. Тонкая настройка для каждого кластера: Копия обученной модели DSD-LSTM настраивается для каждого из найденных кластеров. Это позволяет создавать специализированные модели для отдельных кластеров, что улучшает точность предсказаний, так как каждая модель адаптируется под уникальные паттерны данных в своём кластере. Такой подход помогает снизить риск переобучения и улучшить способность модели предсказывать новые, невиданные данные. Общая схема предложенного метода представлена на Рис. 3.
Рис. 3. Обзор предложенной гибридной модели прогнозирования цен на нефть.
Данная блок-схема иллюстрирует трёхфазный процесс обучения:
1. Изначальное обучение модели DSD-LSTM.
2. Применение алгоритма K-means для формирования кластеров в данных.
3. Последующая тонкая настройка копий моделей DSD-LSTM для каждого отдельного кластера, что позволяет создавать специализированные, но при этом обобщающие модели для прогнозирования цен на нефть.
Шаг 1: Повторное обучение с прореживанием
На первом этапе веса двух упомянутых наборов параметров (веса скрытых состояний и рекуррентные веса) игнорируются, а модель повторно обучается для усиления ключевых связей. В последнем шаге (re-dense) игнорированные веса восстанавливаются с инициализацией нулями, и проводится тонкая настройка модели.
Параметры LSTM включают три набора весов:
- Веса скрытых состояний (Whf, Whu, Whc, Who).
- Рекуррентные веса (Wxf, Wxu, Wxc, Wxo).
- Смещения (bias). В модели DSD-LSTM смещения не подлежат прореживанию, поэтому оно применяется только к первым двум наборам параметров, а также к весовой матрице полносвязного и выходного слоев.
Шаг 2: Кластеризация с помощью алгоритма K-means
На втором этапе тренировочный набор данных разделяется на несколько кластеров с использованием алгоритма K-means. Цель этого шага — обучить специализированные модели, каждая из которых будет лучше предсказывать подмножество данных, чем общая модель.
Алгоритм K-means выбран за его эффективность и простоту, особенно при работе с большими наборами данных, где он значительно быстрее других алгоритмов (например, иерархической кластеризации). Его настройка также проще по сравнению с алгоритмами, такими как DBSCAN, который динамически определяет количество кластеров и выделяет шумовые точки, что усложняет прогнозирование.
Шаг 3: Тонкая настройка копий модели для каждого кластера
Последний шаг направлен на получение более точной модели для каждого кластера. Процедура включает:
- Кластеризация всех образцов тренировочного набора данных с помощью обученной модели K-means.
- Тонкую настройку копии обученной DSD-LSTM модели для каждого кластера на основе данных, относящихся к этому кластеру.
В процессе предсказания сначала определяется кластер сигнала с помощью модели K-means, а затем предсказание выполняется с использованием DSD-LSTM модели, которая была настроена для этого кластера.
Этот подход позволяет разрабатывать специализированные модели, адаптированные к уникальным характеристикам каждого кластера, что улучшает точность прогнозов.
В этом исследовании используется модель K-means-DSD-LSTM для прогнозирования цен на два типа нефти — WTI и Brent. Эти эталонные сорта нефти широко используются для оценки мировых цен. WTI— это высококачественная лёгкая и малосернистая нефть, добываемая в США и торгуемая на мировых рынках, а Brent — смесь нефти, добываемой в Северном море, которая является ключевым эталоном для Европы и Азии.
Целью исследования является оценка способности модели прогнозировать цены для разных типов нефти и регионов, что позволяет более всесторонне оценить её производительность. Для справедливого сравнения модель обучается на одном и том же наборе данных, что использовался в других исследованиях. Примерные периоды анализа: с 01/04/2010 по 31/07/2020 для WTI и Brent, а также данные по ценам EIA на нефть Brent с 1987 по 2019 и WTI с 1986 по 2022 год.
Техника скользящего окна используется для подготовки входных и выходных данных. Окно перемещается по набору данных, где текущие точки данных служат входными значениями, а последующая точка становится целевой меткой (label). Например, если xi — это i-я точка временного ряда, и размер окна равен w, то первые входные значения будут от x0 до xw-1, а целевым значением будет xw. Процесс продолжается до конца набора данных.
Важно, чтобы тренировочные и тестовые наборы данных были полностью разделены. Один из рекомендуемых подходов — это сегментировать данные до применения техники скользящего окна, что гарантирует независимость тренировочных и тестовых наборов.
Стандартизация входных данных также применяется для улучшения сходимости модели. Она заключается в вычитании среднего значения и делении на стандартное отклонение, что нормализует данные с средним значением 0 и стандартным отклонением 1.
7. Стандартизация данных:
\[
x’ = \frac{x — \mu}{\sigma}
\]
где \(\mu\) — среднее значение, а \(\sigma\) — стандартное отклонение точек данных.
8. Средняя абсолютная ошибка (MAE):
\[
\text{MAE} = \frac{1}{m} \sum_{i=1}^{m} |y_i — \hat{y_i}|
\]
9. Среднеквадратичная ошибка (MSE):
\[
\text{MSE} = \frac{1}{m} \sum_{i=1}^{m} (y_i — \hat{y_i})^2
\]
10. Корень из среднеквадратичной ошибки (RMSE):
\[
\text{RMSE} = \sqrt{\frac{1}{m} \sum_{i=1}^{m} (y_i — \hat{y_i})^2}
\]
11. Средняя абсолютная процентная ошибка (MAPE):
\[
\text{MAPE} = \frac{100}{m} \sum_{i=1}^{m} \left| \frac{y_i — \hat{y_i}}{y_i} \right|
\]
12. Коэффициент детерминации (\(R^2\)):
\[
R^2 = 1 — \frac{\sum_{i=1}^{m} (y_i — \hat{y_i})^2}{\sum_{i=1}^{m} (y_i — \bar{y})^2}
\]
где \(m\) обозначает количество точек данных, \(y_i\) — истинная метка, \(\hat{y_i}\) — предсказанная метка, а \(\bar{y}\) — среднее значение истинных меток.
Используя эти метрики, исследование нацелено на всестороннюю оценку способности модели точно прогнозировать цены на нефть и на проверку того, насколько модель избегает переобучения на тренировочных данных.
Гиперпараметры
Гиперпараметры модели K-means-DSD-LSTM выбираются на основе научной литературы и экспериментов. Основные гиперпараметры описаны ниже, а неупомянутые параметры устанавливаются по умолчанию, согласно библиотекам, используемым для их реализации:
(a) Количество испытаний (trials):
Для прогнозирования цен на нефть начальные веса модели значительно влияют на конечный результат. Путём многократного обучения модели могут возникать различные ошибки на каждом этапе. Чтобы минимизировать такие эффекты, модель обучается несколько раз, и выбирается лучшая модель на основе MAE (средней абсолютной ошибки). Этот подход уже применялся в анализе временных рядов в финансовом секторе. В данном исследовании количество испытаний равно 10.
(b) Количество эпох (epochs):
Количество эпох может варьироваться в зависимости от исследования и модели. По наблюдениям, все модели в данной работе сходились до 50-й эпохи, поэтому количество эпох было установлено на уровне 50.
(c) Размер пакета (Batch size):
Размер пакета определяет количество входных данных, которые проходят через модель за одну итерацию. Здесь важен компромисс: меньший размер пакета добавляет больше шума в процессе обучения, тогда как больший размер увеличивает потребление памяти. Во многих исследованиях используется размер пакета 64. Кроме того, исследование Kanwal и коллег показало, что результат с пакетом 64 был лучше, чем с пакетами 32 и 128. В этом исследовании модель K-means-DSD-LSTM обучается с размером пакета 64.
(d) Оптимизатор:
Оптимизатор — это алгоритм, который настраивает параметры модели для минимизации потерь. Существует множество оптимизаторов, таких как стохастический градиентный спуск (SGD), RMSprop и адаптивная моментная оценка (Adam). В этом исследовании выбран Adam, так как он популярен в данной области и является вычислительно эффективным.
(e) Скорость обучения:
Скорость обучения — это ключевой гиперпараметр, который способствует правильной сходимости модели. Изначально скорость обучения модели устанавливается на уровне 0.001, затем на этапе повторного уплотнения она снижается до 0.0001. В финальном этапе, когда модели проходят тонкую настройку для каждого кластера, скорость обучения уменьшается до 0.00001. Это стратегическое снижение помогает сделать небольшие коррективы в уже найденном локальном минимуме, чтобы улучшить модель для каждого кластера.
(f) Разреженность (Sparsity):
Разреженность определяет процент параметров, которые будут удалены. Более высокая разреженность означает меньшее количество оставшихся параметров, что снижает точность. Более низкая разреженность ослабляет эффект стратегии DSD. Допустимые значения разреженности — от 0.25 до 0.5. В исследовании тестировались четыре различных значения разреженности для поиска оптимального.
(g) Размер окна (Window size):
Размер окна указывает количество дней, передаваемых нейронной сети для сравнения. Правильный выбор размера окна важен: слишком маленькие значения могут заставить модель игнорировать старые данные, а слишком большие — отвлекать её. В этом исследовании был выбран размер окна 5.
(h) Количество кластеров:
Количество кластеров имеет большое значение в модели K-means-DSD-LSTM. Меньшее количество кластеров не позволяет создавать специализированные модели, тогда как увеличение числа кластеров повышает риск переобучения. Для определения оптимального числа кластеров исследование тестировало разные значения.
(i) Мера расстояния для кластеризации:
Для измерения сходства при кластеризации DTW (динамическое временное выравнивание) показывает лучшие результаты по сравнению с евклидовой мерой, когда размер окна велик (например, при прогнозировании цен на акции). Однако для прогнозирования цен на нефть с небольшим размером окна хорошие результаты показывает и евклидова мера. В исследовании были протестированы обе меры для выбора наиболее подходящей.
Environment
Все эксперименты были проведены в среде Google Colab с использованием Tesla T4 GPU и конфигурации с большим объемом оперативной памяти (51 гигабайт). Реализация выполнялась с помощью языка программирования Python версии 3.10.1. Для обучения глубинных нейронных сетей (DNN) использовалась библиотека Keras с фреймворком TensorFlow (версия 2.15.0) в качестве backend. Для выполнения операций кластеризации применялась библиотека tslearn (версия 0.6.3).
Обучение
Алгоритм 1 описывает псевдокод, описывающий процесс обучения и оценки предложенной модели. После установки констант (строки 2–4) начинается основной цикл. В этом цикле создается модель, состоящая из двух слоев LSTM с 128 нейронами каждый, полносвязного слоя с количеством нейронов от 32 до 512 и выходного слоя (строки 8–12). Затем модель обучается по процедуре DSD (строки 13–16), после чего выполняется кластеризация (строка 17). После этого для каждого кластера выполняется тонкая настройка (строки 18–22). В конце процесса проводится оценка, и результаты наилучшей модели сохраняются в переменную ‘best_result’.
Процесс выбора количества нейронов в полносвязном слое был сделан случайным образом, что аналогично предложению Kanwal и соавторов. Исследования показали, что случайный выбор гиперпараметров работает так же хорошо или лучше, чем метод сеточного поиска, при этом использование ресурсов ниже. В этом исследовании случайный выбор применялся только для определения количества нейронов в полносвязном слое.
На рис. 4 показано распределение весов в модели DSD-LSTM на разных этапах обучения по стратегии DSD. На первом этапе (dense) распределение весов похоже на нормальное. Однако на следующем этапе, когда веса прореживаются и модель повторно обучается, появляется заметный разрыв в распределении.
Рис. 4 показывает распределение параметров предложенной модели на разных этапах обучения по стратегии DSD:
- (a) Dense: Параметры модели на этапе полного обучения, когда все веса и связи присутствуют, и распределение параметров приближается к нормальному распределению.
- (b) Sparse: На этапе прореживания удаляются менее значимые параметры, что приводит к разреженности в весах модели.
- (c) Re-dense: На заключительном этапе удалённые параметры восстанавливаются и инициализируются нулями, после чего модель повторно обучается для дальнейшего улучшения производительности.
На финальном этапе веса, которые были удалены (прорежены), инициализируются нулями, что приводит к концентрации параметров около нуля. Однако распределение параметров остаётся в основном неизменным по сравнению с предыдущим этапом благодаря использованию сниженной скорости обучения (одной десятой от изначальной). Это помогает направить модель к более улучшенному локальному минимуму, увеличив её ёмкость.
Алгоритм 1 описывает процесс обучения и оценки модели K-means-DSD-LSTM.
Таблица 1 демонстрирует производительность модели K-means-LSTM при использовании различных метрик расстояния и разного количества кластеров на наборе данных о ценах на нефть WTI.
Таблица 2 представляет результаты работы модели K-means-LSTM на наборе данных по ценам на нефть Brent при использовании различных типов метрик расстояния и разного количества кластеров
Таблица 3 демонстрирует производительность модели DSD-LSTM при различных значениях разреженности (sparsity). Разреженность определяет процент удаляемых параметров, что оказывает влияние на точность модели.
Анализ количества кластеров и меры расстояния
Таблицы 1 и 2 демонстрируют производительность модели K-means-LSTM с различным количеством кластеров и двумя типами мер расстояния — евклидова и DTW — для наборов данных WTI и Brent. Оказалось, что производительность обеих метрик расстояния почти одинакова, но влияние количества кластеров более выражено. Поскольку евклидова метрика легче и быстрее, она является предпочтительным выбором. Лучшее количество кластеров для евклидова расстояния в таблице 1 составляет 8, что превосходит все модели K-means-LSTM, обученные с DTW. Количество кластеров 6 показало худшие результаты, чем 4 и 8 для обеих метрик, что подчеркивает важность правильного выбора количества кластеров. В случае DTW на наборе данных WTI наилучшие результаты были достигнуты при 2, 10 и 4 кластерах.
В таблице 2, относящейся к набору данных Brent, наилучшая производительность для обеих метрик достигается при 2 кластерах. Это показывает, что разделение данных на два кластера является оптимальным. Второе лучшее количество кластеров — 6 для обеих мер расстояния. Опять же, ошибки евклидова и DTW практически идентичны, но наилучшие результаты достигаются с евклидовой метрикой.
Анализ значения разреженности (sparsity)
Значение разреженности играет важную роль в стратегии обучения DSD. Высокие значения могут привести к потере важных связей, тогда как низкие значения не оказывают значительного влияния. Таблица 3 показывает производительность модели DSD-LSTM с разными значениями разреженности. Хотя MAE при разреженности 25% лучше, чем при 35%, RMSE и R² при 35% лучше. Поскольку улучшение в RMSE больше, чем ухудшение MAE, общая производительность при разреженности 35% лучше. При более высоких значениях разреженности (45% и 55%) производительность ухудшается, поэтому оптимальным значением разреженности можно считать 35%.
Оценка по сравнению с упрощёнными моделями
Таблица 4 сравнивает результаты предложенной модели (K-means-DSD-LSTM), DSD-LSTM, K-means-LSTM и LSTM.
— В наборе данных WTI модель K-means-LSTM показала улучшение, уменьшив MAE примерно на 0.11 и RMSE на 0.04 по сравнению с LSTM. Также наблюдаются улучшения в MAPE и R². Это демонстрирует, что использование кластеризации может повысить производительность модели.
— На наборе данных Brent улучшения в RMSE для K-means-LSTM более заметны по сравнению с MAE, но все метрики показывают улучшения благодаря использованию кластеризации.
DSD-LSTM превосходит LSTM по всем метрикам, и улучшение значительно в некоторых из них. Например, в наборе данных WTI MAPE уменьшилось примерно на 0.44, а в наборе Brent— на 0.35. Это улучшение связано исключительно с изменением стратегии обучения на DSD, при этом время выполнения и размер моделей LSTM и DSD-LSTM остаются неизменными.
Анализ производительности DSD-LSTM, K-means-LSTM и K-means-DSD-LSTM на наборе данных WTI показывает, что K-means-DSD-LSTM превосходит обе модели по всем метрикам. Однако результаты ближе к DSD-LSTM. На наборе Brent ситуация аналогична, но DSD-LSTM показала лучшее значениеMAE по сравнению с K-means-DSD-LSTM. Несмотря на это, улучшение в RMSE перевешивает ухудшение MAE, что позволяет сделать вывод о более высокой общей производительности K-means-DSD-LSTM.
Заключение: Использование как DSD, так и K-means приводит к общему улучшению модели.
На рис. 5 и 6 показаны прогнозы моделей, где их предсказания в большинстве точек схожи, но различия становятся заметны между 700-й и 800-й точками данных, что совпадает с определённым периодом времени.
Рис. 5 показывает предсказание тестового набора WTI с использованием четырёх моделей: LSTM, DSD-LSTM, K-means-LSTM и предложенной модели K-means-DSD-LSTM. На графике отображены результаты прогнозов, где видно, как каждая модель справляется с предсказанием цен на нефть в наборе данных WTI.
Рис. 6 аналогично демонстрирует предсказание тестового набора Brent с теми же моделями (LSTM, DSD-LSTM, K-means-LSTM и K-means-DSD-LSTM). График иллюстрирует, как модели справляются с прогнозированием цен на нефть Brent, и даёт возможность оценить их производительность на этом наборе данных.
В апреле 2020 года рынок нефти испытал значительные колебания цен, особенно с резким падением цен на нефть WTI 20 апреля 2020 года — с 55,90 до -37,62 долларов за баррель. Прогнозирование таких резких изменений является сложной задачей. Однако, анализируя графики, можно заметить, что производительность предложенной модели K-means-DSD-LSTM оказалась лучше по сравнению с остальными моделями. Это указывает на способность данной модели эффективно предсказывать значительные изменения цен и справляться с подобными ситуациями более точно.
Сравнение с эталонными исследованиями
Для сравнения выбрано три эталонных исследования, которые показаны в Таблице 5. Таблица 6 предоставляет результаты сравнения предложенной модели K-means-DSD-LSTM с этими исследованиями.
Таблица 5 представляет собой эталонные исследования, использованные для сравнения в данном исследовании.
Таблица 6 демонстрирует результаты сравнения предложенной модели K-means-DSD-LSTM с эталонными моделями.
Эталонные исследования были использованы для справедливого сравнения с предложенной моделью K-means-DSD-LSTM. Модель была обучена и протестирована на тех же наборах данных, что и в эталонных исследованиях, и в тот же период.
Для первого эталона , модель обучалась на наборах данных WTI и Brent за период с 01/04/2010 по 31/07/2020 с разделением данных на обучение и тестирование в пропорции 70% и 30%. Результаты показали, что модель K-means-DSD-LSTM превзошла модель BiLSTM-Attention-CNN (BLAC) по всем метрикам: MAE, RMSE, MAPE и R².
Хотя предложенная модель не превосходит WT-BLAC во всех аспектах, они конкурентоспособны. Более конкретно, MAE и MAPE предложенной модели ниже, чем у WT-BLAC на наборе данных WTI, что указывает на более точное среднее предсказание предложенной модели.
Ошибки модели K-means-DSD-LSTM оказались ниже в среднем по сравнению с WT-BLAC, что подтверждается метриками MAE и MAPE. Тем не менее, более низкое значение RMSE у WT-BLAC указывает на то, что использование WT(волнового разложения) помогло модели WT-BLAC совершать меньше крупных ошибок, хотя средняя ошибка была выше. Показатель R² у WT-BLAC также оказался немного лучше (примерно на 0.006 для WTI и на 0.0007 для Brent), что говорит о чуть более точной подгонке. Однако, даже несмотря на наличие модуля разложения сигнала в модели WT-BLAC, она не превзошла предложенную модель.
Во втором эталоне , где модель BOP-BL обучалась на наборе данных Brent (1987-2019), предложенная модель снова показала лучшие результаты по всем метрикам. MAE и RMSE предложенной модели оказались ниже примерно на 0.2, что свидетельствует о её способности снижать средние и крупные ошибки.
Третий эталон использовал данные WTI, но с нормализацией целевых значений в диапазоне 0–1, поэтому метрика MAPE не была рассчитана. В этом случае предложенная модель превосходит LSTM-SSA-DO по метрикам MAE, MSE и RMSE. Однако использование метода разложения сигнала VMD значительно улучшило производительность LSTM-SSA-DO. При сравнении MAE и RMSE, предложенная модель показала MAE на 0.0017 меньше, но RMSE у V-LSTM-SSA-DO было на 0.0010 ниже.
Сравнение кластеризации и разложения сигнала
Предложенная модель имеет несколько преимуществ по сравнению с методами, использующими разложение сигнала. Для предсказания требуется только одна нейронная сеть, в то время как методы с разложением сигнала требуют выполнения всех сетей. Кроме того, разложение сигнала должно выполняться для каждого предсказания, что может сделать операции ресурсоёмкими. Основным недостатком предложенной модели является необходимость обучения алгоритма кластеризации, однако такие алгоритмы, как K-means, достаточно быстры, и время обучения можно не учитывать, поскольку это одноразовый процесс.
Практическое применение
Модель K-means-DSD-LSTM, представленная в данном исследовании, имеет значительные практические последствия для различных участников энергетического сектора, особенно тех, кто занимается финансовым планированием, обеспечением экономической стабильности и принятием инвестиционных решений.
Модель K-means-DSD-LSTM продемонстрировала высокую точность в прогнозировании цен на нефть, что подтверждается низким MAPE (около 2%). Это даёт ценные данные для принятия взвешенных решений.
Применение для бизнеса:
— Компании, работающие в области добычи, переработки или транспортировки нефти и газа, могут использовать модель для оптимизации распределения ресурсов, разработки ценовых стратегий и управления рисками. Точные прогнозы цен на нефть помогают лучше планировать затраты на энергию, корректировать графики производства и принимать обоснованные инвестиционные решения.
Применение для политиков:
— Политики могут использовать данные модели для обеспечения экономической стабильности и энергетической безопасности. Прогнозирование цен на нефть позволяет разрабатывать более эффективные меры по производству, потреблению и налогообложению энергоресурсов, снижая волатильность на энергетических рынках.
Применение для инвесторов:
— Для инвесторов модель становится мощным инструментом для оценки инвестиционных возможностей в энергетическом секторе. Она помогает выявлять потенциальные зоны роста и избегать высокорискованных вложений, предоставляя прогнозы колебаний цен.
Кроме того, хотя модель ориентирована на прогнозирование цен на нефть, её выводы могут значительно повлиять на развитие и внедрение альтернативных источников энергии. Она позволяет лучше понять будущее цены и доступность ископаемого топлива, поддерживая переход на возобновляемые источники энергии.
Аббревиатуры:
— DSD — Dense-Sparse-Dense
— LSTM — Long Short Term Memory (долгосрочная краткосрочная память)
— WTI — West Texas Intermediate
— ARIMA — AutoRegressive Integrated Moving Average (авторегрессионная интегрированная скользящая средняя)
— NN — Neural Network (нейронная сеть)
— PRE — Prediction Rule Ensembles (ансамбли правил предсказаний)
— DNN — Deep Neural Network (глубокая нейронная сеть)
— VMD — Variational Mode Decomposition (вариационное разложение мод)
— RFE — Recursive Feature Elimination (рекурсивное исключение признаков)
— PCA — Principal Component Analysis (анализ главных компонент)
— RNN — Recurrent Neural Network (рекуррентная нейронная сеть)
— GRU — Gated Recurrent Unit (рекуррентная сеть с механизмом управления)
— CNN — Convolutional Neural Network (сверточная нейронная сеть)
— BiLSTM — Bidirectional LSTM (двунаправленная LSTM)
— BiGRU — Bidirectional GRU (двунаправленная GRU)
— AdaBoost — Adaptive Boosting (адаптивное бустинг)
— XGBM — Extreme Gradient Boosting Machine (экстремальный градиентный бустинг)
-LGBM — Light Gradient Boosting Machine (лёгкая версия градиентного бустинга)
— LWDWT — Logistic Weighted Dynamic Time Warping (логистическое взвешенное динамическое временное выравнивание)
— MAE — Mean Absolute Error (средняя абсолютная ошибка)
— MSE — Mean Squared Error (среднеквадратичная ошибка)
— RMSE — Root Mean Squared Error (корень из среднеквадратичной ошибки)
— MAPE — Mean Absolute Percentage Error (средняя абсолютная процентная ошибка)
— SSA — Salp Swarm Algorithm (алгоритм роя салп)
— DO — Disputation Operator (оператор диспута)
— BLAC — BiLSTM-Attention-CNN (двунаправленная LSTM с механизмом внимания и сверточной нейронной сетью)
Ссылка на оригинальную статью:
Jahandoost, A., Abedinzadeh Torghabeh, F., Hosseini, S.A., & Houshmand, M. (2024). Crude oil price forecasting using K-means clustering and LSTM model enhanced by dense-sparse-dense strategy. Journal of Big Data, 11:117.
Итоги и выводы
Заключение и будущее исследования:
В данной работе была предложена модель K-means-DSD-LSTM для прогнозирования цен на нефть. Она включает трёхэтапный процесс обучения: обучение модели DSD-LSTM на всём наборе данных, кластеризация с помощью K-means и тонкая настройка модели для каждого кластера. Это позволяет улучшить общую производительность и снизить переобучение.
Сравнение с LSTM, DSD-LSTM и K-means-LSTM показало, что и стратегия DSD, и алгоритм K-means способствуют повышению точности. Модель K-means-DSD-LSTM продемонстрировала превосходство по сравнению с более сложными сетями, такими как BiLSTM и BLAC, и осталась конкурентоспособной по сравнению с методами, использующими разложение сигнала, такими как WT-BLAC.
Модель K-means-DSD-LSTM отличается быстрой скоростью развёртывания, так как для предсказания требуется выполнение только одной сети, связанной с кластером сигнала. В отличие от этого, модели, использующие техники разложения сигнала, требуют выполнения нескольких сетей для каждого разложенного компонента, что увеличивает время вычислений.
В будущем исследования могут быть направлены на улучшение метода за счёт использования более сложных методов кластеризации, которые учитывают не только форму сигнала, но и другие важные характеристики. Это может привести к созданию более однородных кластеров и повысить общую производительность модели.
Кроме того, применение эволюционных алгоритмов в процессе кластеризации может повысить её эффективность. Универсальность модели можно дополнительно оценить, применив её к другим наборам данных, таким как цены на газ или металлы. Оптимизация гиперпараметров и тестирование на различных финансовых временных рядах, включая криптовалюты, могут дать новые ценные выводы. Исследование альтернативных архитектур нейронных сетей, таких как Transformers, также может привести к перспективным результатам.