Значение УПРАВЛЯЕМЫЙ СЛУЧАЙНЫЙ ПРОЦЕСС в Большой советской энциклопедии, БСЭ

УПРАВЛЯЕМЫЙ СЛУЧАЙНЫЙ ПРОЦЕСС

случайный процесс, случайный процесс, вероятностные характеристики которого можно изменять с помощью управляющих воздействий. Основная цель теории У. с. п. v отыскание оптимальных (или близких к ним) управлений, доставляющих экстремум заданному критерию качества. В простейшем случае управляемых марковских цепей одна из математических постановок задачи нахождения оптимального управления формулируется следующим образом. Пусть X d( x n , ) , n 0, 1,..., v семейство однородных марковских цепей с конечным числом состояний Е {0, 1, ..., N} и матрицами переходных вероятностей P xy ( d ){ x 1 у } , зависящих от параметра d, принадлежащего некоторому множеству управляющих воздействий D. Набор функций a { а 0 ( x 0) , a 1 ( x 0 , x 1) ,... }со значениями в D называют стратегией, а каждую из функций a n а п ( х 0 ,..., х п) v управлением в момент времени n. Каждой стратегии a отвечает управляемая марковская цепь X a ( х п , ), n 0,1,..., где

( x 0 , x 1 ..., х п)d( х 0 , х ) Рх 0 х 1( a 0 ( x 0)) ... Px n-1 x n ( a n-1( x 0 , x 1 ,..., x n-1))

Пусть:

где функция f ( d, х ) ³ 0 и f ( d, 0)0 (если точка {0} является поглощающим состоянием и f ( d, x )I, d Î D, x 1 ,..., N, то V a ( x ) есть матем. ожидание времени попадания из точки х в точку 0). Функцию

называется ценой, а стратегию а * v оптимальной, если V ( x ) для всех х Î Е.

При довольно общих предположениях о множестве D устанавливается, что цена V ( x ) удовлетворяет следующему уравнению оптимальности (уравнению Беллмана):

,

где

.

В классе всех стратегий наибольший интерес представляют т. н. однородные марковские стратегии, характеризуемые одной функцией а ( х ) такой, что a n ( x 0,..., x n) a ( x n) при всех n 0 , 1,...

Следовательно, критерий оптимальности (или достаточное условие оптимальности) может быть использован для проверки того, что данная однородная марковская стратегия является оптимальной: пусть существуют функции a * а* ( х ) и V* V* ( x ) такие, что для любого d Î D

0 f ( x, a* ( x )) + L a *V* £ f ( x, d ) + L d V* ( x )

( L d T d v I, I v единичный оператор), тогда V * является ценой ( V * V ) и стратегия a* a*( х ) является оптимальной.

Лит.: Ховард Р.-А., Динамическое программирование и марковские процессы, пер. с англ., М. 1964.

А. Н. Ширяев.

Большая советская энциклопедия, БСЭ.