Russian Federation
This paper addresses the problem of adaptive optimal robust tracking for a discrete-time plant with unknown parameters of autoregressive nominal model and unknown bias of bounded external disturbance. Upper bounds of unbiased external disturbance and gains of uncertainties in output and control are assumed to be know. The optimal tracking problem is to minimize the guaranteed worst-case steady-state upper bound of the tracking error for a given bounded reference signal. Solution of the problem is based on optimal set-membership estimation of unknown non-identifiable parameters and treating the control criterion as the identification criterion. Optimal on-line set-membership estimation becomes computationally tractable due to a linear-fractional representation of the control criterion.
optimal control, robust control, adaptive control, uncertainty, bounded disturbance, set-membership estimation
Введение
Предметом теории адаптивного управления, зародив-
шейся в 1960-х гг., являются задачи управления система-
ми с неизвестными параметрами. Один из двух известных
подходов к синтезу адаптивного управления заключает-
ся в прямой настройке по данным измерений параметров
регулятора и называется прямым адаптивным управлени-
ем. Другой подход базируется на онлайн оценивании неиз-
вестных параметров объекта управления с последующей
настройкой регулятора. Этот подход называют идентифи-
кационным или непрямым адаптивным управлением. Алго-
ритмами оценивания в рамках идентификационного под-
хода служат различные модификации градиентного (про-
екционного) алгоритма минимизации невязки в уравнении
модели управляемого объекта или модификации метода
наименьших квадратов. В середине 1980-х гг. в знамени-
той статье [1] было показано, что полученные к тому вре-
мени алгоритмы адаптивной стабилизации не гарантируют
устойчивости даже при малых внешних или операторных
возмущениях (немоделируемой динамике). Это стимулиро-
вало, с одной стороны, разработку модификаций алгорит-
мов оценивания для обеспечения устойчивости адаптив-
ных систем при наличии возмущений и, с другой стороны,
развитие теории робастного управления, посвященной си-
стемам с операторными возмущениями и ставшей главным
направлением теории автоматического управления с кон-
ца 1970-х гг. на последующие два десятилетия [2]. Одна-
10
Известия Коми научного центра Уральского отделения Российской академии наук № 4 (62), 2023
Серия «Физико-математические науки»
www.izvestia.komisc.ru
ко последующие результаты в теории робастного адап-
тивного управления базировались в основном на аппа-
рате функций Ляпунова, ограничивались задачами обес-
печения устойчивости и не коррелировали с результата-
ми теории робастного управления, в основе которой лежа-
ла теорема о малом коэффициенте усиления (small gaim
theorem).
Модель внешних ограниченных возмущений породила
направление в теории идентификации систем, основан-
ное на использовании множественных оценок неизвестных
параметров. Почти все многочисленные публикации это-
го направления относятся к системам, аффинным относи-
тельно неизвестных параметров, и предполагают извест-
ными верхние границы возмущений. Множества не сфаль-
сифицированных данными измерений неизвестных пара-
метров таких систем описываются ограниченными много-
гранниками. Поскольку число линейных неравенств в опи-
сании этих многогранников может неограниченно возрас-
тать с ростом числа измерений, основные усилия в этом
подходе направлены на получение верхних по включению
множественных оценок, имеющих описание ограниченной
сложности (параллелотопы, зонотопы, многогранники с за-
данными направлениями граней, эллипсоиды и т.п.). Одна-
ко до настоящего времени нет приложений этих исследо-
ваний к адаптивному управлению со строгим математиче-
ским обоснованием.
В начале 1990-х гг. были получены фундаментальные
результаты по устойчивости и робастному качеству систем
с неопределенностью и ограниченным внешним возмуще-
нием [3]. Позднее были получены явные представления
для асимптотических показателей качества таких систем,
в том числе для систем слежения [4–7]. Теория робастного
управления для таких систем получила название ℓ1-тео-
рии, поскольку индуцированные нормы линейных стацио-
нарных операторов на пространстве ограниченных после-
довательностей ℓ∞ выражаются через ℓ1-нормы их им-
пульсных характеристик. Полученные результаты позво-
лили сформулировать общий метод синтеза адаптивного
оптимального робастного управления, основанный на иде-
ях множественного оценивания и использования показа-
теля качества задачи управления как идентификацион-
ного критерия [8]. Трудность применения метода заключа-
ется в сложности онлайн минимизации невыпуклого в об-
щем случае показателя качества на текущих оценках мно-
жеств не сфальсифицированных измерениями неизвест-
ных параметров. Однако такая минимизация оказывается
возможной для специальных систем.
В статье [9] решалась задача адаптивной оптимальной
стабилизации авторегрессионного объекта с неизвестны-
ми параметрами номинального объекта, внешнего возму-
щения и неопределенностей по выходу и управлению при
специальном дополнительном предположении о непред-
намеренности неопределенности по управлению. Более
сложная по сравнению со стабилизацией задача опти-
мального слежения решалась в работе [10] для объек-
та с дробно-рациональной передаточной функцией без
неопределенности по управлению. Для указанных объ-
ектов показатель качества задачи управления является
дробно-линейной функцией неизвестных параметров, что
делает возможной его онлайн минимизацию. В настоящей
статье более сложная задача адаптивного слежения рас-
сматривается для авторегрессионного объекта с неизвест-
ными параметрами номинального объекта и неизвестным
смещением внешнего возмущения. Для обеспечения дроб-
но-рационального вида показателя качества верхние гра-
ницы внешнего несмещенного возмущения и коэффициен-
ты усиления неопределенностей предполагаются извест-
ными. Известно, что задача минимизации дробно-рацио-
нальных функций при линейных ограничениях сводится к
линейному программированию [11], что позволяет приме-
нять современное программное обеспечение для синтеза
адаптивного оптимального управления для рассматривае-
мого объекта управления.
Используемые обозначения:
|φ| — евклидова норма вектора φ ∈ Rn;
ℓe — линейное пространство вещественных последова-
тельностей x = (. . . , x−2, x−1, x0, x1, x2, . . .),
xt
s = (xs, xs+1, . . . , xt) для x ∈ ℓe;
|xt
s
| = maxs⩽k⩽t |xk|;
ℓ∞ — нормированное пространство ограниченных веще-
ственных последовательностей x = (x0, x1, x2, . . .)
с нормой ∥x∥∞ = supt
|xt|;
∥x∥ss = lim supt→+∞ |xt|;
ℓ1 — нормированное пространство абсолютно суммируе-
мых последовательностей с нормой ∥x∥1 =
P+∞
k=0
|xk|;
∥G∥ =
P+∞
k=0
|gk| = ∥g∥1 — индуцированная норма
устойчивой линейной стационарной системы G : ℓ∞ →
ℓ∞ с передаточной функцией G(λ) =
P+∞
k=0 gkλk.
1. Постановка задачи
Рассмотрим объект управления с дискретным време-
нем, описываемый уравнением
a(q−1)yt = b1ut−1 + vt , t = 1, 2, 3, . . . , (1)
где yt ∈ R— выход объекта в момент времени t, ut ∈ R—
управление, vt ∈ R — суммарное возмущение в объекте,
a(q−1) = 1 + a1q−1 + . . . + anq−n
и q−1 — оператор сдвига назад (q−1yt = yt−1) на ли-
нейном пространстве ℓe. Начальные значения y0
1−n =
(y1−n, . . . , y0) произвольные, yk = 0 при k < 1 − n
и uk = 0 при k < 0.
Априорная информация об объекте управления состоит
из четырех априорных предположений АП1–АП4.
АП1. Вектор коэффициентов
ξ := (a1, . . . , an, b1)T (2)
номинальной модели (т.е. модели без суммарного возмуще-
ния v) принадлежит известному ограниченному многогран-
нику Ξ,
ξ ∈ Ξ = { ˆξ | P ˆξ ⩾ p } ⊂ Rn+1 , (3)
где P ∈ Rl×(n+m), p ∈ Rl и b1 ̸= 0 для любого ξ ∈ Ξ.
АП2. Суммарное возмущение v имеет вид
vt = cw + δwwt + δyΔ1(y)t + δuΔ2(u)t , (4)
Известия Коми научного центра Уральского отделения Российской академии наук № 4 (62), 2023
Серия «Физико-математические науки»
www.izvestia.komisc.ru
11
где w ∈ ℓ∞ — неизвестная последовательность,
∥w∥∞ ⩽ 1 , (5)
δw ⩾ 0 — верхняя граница несмещенного внешнего возму-
щения δww, cw — смещение ограниченного внешнего воз-
мущения cw+δww. ОператорыΔ1 : ℓe → ℓe иΔ2 : ℓe →
ℓe удовлетворяют при всех t ограничениям
|Δ1(y)t| ⩽ |yt−1
t−μ
|, |Δ2(u)t| ⩽ |ut−1
t−μ
| . (6)
Параметры δy ⩾ и δu ⩾ 0 в (4) — верхние границы ин-
дуцированных норм (коэффициентов усиления) оператор-
ных возмущений (неопределенностей) Δ1 и Δ2 по выходу
и управлению соответственно. Параметр μ в неравенствах
(6) характеризует память неопределенностей. Она может
быть выбрана конструктором сколь угодно большой, но не
бесконечной, без ущерба для качества синтезируемого ни-
же адаптивного управления.
АП3. Набор верхних границ
δ = (δw, δy, δu) (7)
предполагается известным, вектор параметров
θ = (ξT, cw)T ∈ Rn+2 (8)
— неизвестным, и |cw| ⩽ Cw с известной верхней грани-
цей Cw > 0.
Предположение об известной верхней границе Cw
в АП3 используется только для упрощения доказательств
и не ограничительно, поскольку Cw может быть выбрано
сколь угодно большим.
В разделе 2 будет сформулировано дополнительное
необходимое априорное предположение о робастной ста-
билизируемости объекта (1).
Априорное предположение АП2 сформулировано в тер-
минах теории робастного управления в ℓ1 постановке
для удобства последующих ссылок. Согласно этой тео-
рии, предположение АП2 для классов линейных нестаци-
онарных или нелинейных операторов Δ1 и Δ2 может быть
представлено в следующем компактном виде:
|vt − cw| ⩽ δw + δypy
t + δuput
, (9)
где
py
t = |yt−1
t−μ
|, put
= |ut−1
t−μ
| . (10)
Содержательная постановка рассматриваемой в ста-
тье задачи заключается в построении причинной обратной
связи вида ut = Ut(yt1
−n, ut−1
0 ) (но с конечной памятью),
гарантирующей как можно меньшую верхнюю границу для
асимптотического показателя качества
Jμ(θ, δ) = sup
v
lim sup
t→+∞
|yt − rt| , (11)
где r — заданный командный сигнал, т.е. желаемая по-
следовательность выходов объекта управления (1), и sup
берется на множестве возмущений v, удовлетворяющих
предположению АП2. То есть задача заключается в мини-
мизации гарантированной асимптотической верхней гра-
ницы для модуля ошибки слежения
et = yt − rt (12)
в классе возмущений, удовлетворяющих неравенствам (9).
Главная сложность сформулированной оптимальной
задачи заключается в неидентифицируемости неизвест-
ного вектора параметров θ.
Строгая формулировка задачи приведена в конце раз-
дела 2 после получения представления для неконсерва-
тивной верхней оценки показателя качества Jμ.
2. Оптимальная система с известной номи-
нальной моделью
Для объекта с известным вектором ξ параметров номи-
нальной модели и при известном смещении cw регулятор
ut =
1
b1
[(a(q−1) − 1)yt+1 + rt+1 − cw] (13)
гарантирует при всех t равенства
yt+1 − rt+1 = vt+1 − cw =
= δwwt+1 + δyΔ1(y)t+1 + δuΔ2(u)t+1 . (14)
Из непредсказуемости и произвольности значений правой
части (14) в момент вычисления управления ut следует, что
регулятор (13) является оптимальным для показателя ка-
чества (11). Введем обозначение для передаточной функ-
ции от y к u регулятора (13) :
Gξ(λ) =
a(λ) − 1
b1λ
=
1
b1
Xn
k=1
ak λk−1 ,
благодаря чему регулятор (13) принимает вид
ut = Gξ(q−1)yt + rt+1/b1 − cw/b1 , (15)
и
∥Gξ∥ =
1
|b1|
Xn
k=1
|ak| . (16)
Определение 1. Замкнутая система (1), (13) называется
робастно устойчивой в классе возмущений (4), если значе-
ние показателя качества (11) конечно.
Определение 2. Будем говорить, что последователь-
ность |r| равномерно часто попадает в окрестности верх-
него предела ∥r∥ss, если для любого ε > 0 существуют
T > 0 и возрастающая последовательность (t1, t2, . . .)
такие, что
∀j ∈ N 0 < tj+1 − tj ⩽ T ∧ |rtj+1
| ⩾ ∥r∥ss − ε .
Качество оптимальной системы (1), (13) представлено
в теореме 1.
Теорема 1. Для замкнутой системы (1), (13) справедливы
следующие утверждения.
1. Система робастно устойчива при μ = +∞ тогда
и только тогда, когда
δy + δu∥Gξ∥ < 1 . (17)
12
Известия Коми научного центра Уральского отделения Российской академии наук № 4 (62), 2023
Серия «Физико-математические науки»
www.izvestia.komisc.ru
Для системы с нулевыми начальными данными y0
1−n
J+∞(θ, δ) =
δw + δy∥r∥ss +
δu
|b1| (|cw| + ∥r∥ss)
1 − δy − δu∥Gξ∥ .
(18)
2. Для системы с любыми начальными данными y0
1−n
Jμ(θ, δ) ⩽ J+∞(θ, δ)
для любой памяти μ > 0. Если в любую окрестность верх-
него предела ∥r∥ss последовательность |r| попадает рав-
номерно часто, то при любых начальных данных
Jμ(θ, δ) ↗ J+∞(θ, δ) =: J(θ, δ) , (19)
где знак ↗ означает монотонную сходимость снизу при
μ → +∞.
Доказательство теоремы 1. Для доказательства теоре-
мы представим замкнутую систему (1), (13) в стандартной
M − Δ форме, изображенной на рис. 1 и описываемой
уравнениями
e
z
= M
0
@
f
w
ξ
1
A , ξ = Δz , (20)
где e — ошибка слежения (12), z и ξ — соответственно вход
и выход структурированной неопределенности Δ,
zt =
yt
ut
, ξ =
Δ1 0
0 Δ2
z =
Δ1(y)
Δ2(u)
,
f — фиксированный входной сигнал, включающий отсле-
живаемый сигнал r и постоянный сигнал, равный 1 :
f =
r1
, 1 := (1, 1, . . .) ∈ ℓ∞ .
Рисунок 1.M − Δ форма системы (1), (13).
Figure 1. M − Δ form of system (1), (13)
Матрицу M в (20) представим в блочной форме, соот-
ветствующей входным и выходным сигналам на рис. 1:
M =
Mef Mew Meξ
Mzr Mzw Mzξ
. (21)
Для системы (1), (13) эта блочная форма имеет вид
M =
0
B@
0 0 δw δy δu
1 0 δw δy δu
q
b1
−cw
b1
δwGξ δyGξ δuGξ
1
CA
, (22)
где q — оператор сдвига вперед (qrt = rt+1). Первая стро-
ка матрицы M в (22) соответствует правой части равен-
ства (14), а вторая строка получается переносом rt в пра-
вую часть этого равенства. Третья строкаM соответствует
представлению оптимального регулятора в виде (15).
Необходимое и достаточное условие робастной устой-
чивости (17) следует из теоремы 7 в [6], примененной к си-
стеме (1), (13).
Для доказательства представления (18) для показателя
качества J+∞(θ, δ) достаточно применить теоремы 5 и 6
из статьи [6] (или теоремы 2.18 и 2.22 работы [7]). Введем
обозначение
[A]1 :=
0
B@
∥A11∥1 · · · ∥A1q∥1 ...
...
...
∥Ap1∥1 · · · ∥Apq∥1
1
CA
для произвольной p × q матрицы A импульсных откликов
Aij ∈ ℓ1. Для блочной матрицыM из (21) положим
Mss(f) :=
[Mef f]ss + [Mew]1 [Meξ]1
[Mzf r]ss + [Mzw]1 [Mzξ]1
.
Согласно теореме 5 из [6],
J+∞(θ, δ) = [Merr]ss + [Mew]1+ (23)
+ [Myξ]1(I − [Mzξ]1)−1([Mzrr]ss + [Mzw]1) .
Для рассматриваемой системы с матрицей (22) матрица
Mss(f) принимает вид
0
@
δw δy δu
∥r∥ss + |δw| δy δu
(∥r∥ss + |cw|)/b1 + δw∥Gξ∥ δy∥Gξ∥ δu∥Gξ∥
1
A.
(24)
Применив формулу (23) к матрице (24), получаем
J(θ, δ) =
=δw + (δy δu)
I −
δy δu
δy∥Gξ∥ δu∥Gξ∥
−1
×
×
∥rss∥ + δw
(∥r∥ss + |cw|)/b1 + δw∥Gξ∥
=
=δw +
1
1 − δy − δu∥Gξ∥ (δy δu)×
×
1 − δu∥Gξ∥ δu
δy∥Gξ∥ 1 − δy
×
×
∥rss∥ + δw
(∥r∥ss + |cw|)/b1 + δw∥Gξ∥
.
Учитывая, что
(δy δu)
1 − δu∥Gξ∥ δu
δy∥Gξ∥ 1 − δy
= (δy δu) ,
получаем представление (18)
J(θ, δ) = δw +
1
1 − δy − δu∥Gξ∥
×
× (δy δu)
∥rss∥ + δw
(∥r∥ss + |cw|)/b1 + δw∥Gξ∥
=
=
δw + δy∥r∥ss + δu∥r∥ss/|b1| + δu|cw/b1|)
1 − δy − δu∥Gξ∥ .
(25)
Известия Коми научного центра Уральского отделения Российской академии наук № 4 (62), 2023
Серия «Физико-математические науки»
www.izvestia.komisc.ru
13
Неравенство Jμ(θ, δ) ⩽ J+∞(θ, δ) во втором утвер-
ждении теоремы 1 очевидно следует из того, что множество
операторных возмущений с ограниченной памятью μ явля-
ется подмножеством операторных возмущений с бесконеч-
ной памятью. Монотонность последовательности Jμ(θ, δ)
относительно μ следует из строгого возрастания по μ мно-
жеств допустимых операторных возмущений. Наконец, схо-
димость Jμ(θ, δ) к J(θ, δ) гарантируется теоремой 6 из [6].
Теорема 1 доказана.
Последнее априорное предположение АП4 об управля-
емом объекте диктуется условием робастной стабилизиру-
емости (17).
АП4. Неизвестный вектор параметров θ удовлетворяет
неравенству
δy + δu∥Gξ∥ ⩽ ¯δ < 1 (26)
с известным числом ¯δ.
Число ¯δ > 0 может быть сколь угодно близким к
1 и выбирается конструктором на основе априорной ин-
формации или вовсе без нее и исключает из рассмотре-
ния неприемлемые для практических приложений модели,
слишком близкие к границе области робастно стабилизи-
руемых объектов.
Задача. Требуется построить обратную связь вида ut =
Ut(yt1
−n, ut−1
0 ), имеющую конечную память и гарантиру-
ющую выполнение с заданной точностью неравенства
lim sup
t→+∞
|yt − rt| ⩽ J(θ, δ) (27)
при справедливости априорных предположений АП1–АП4.
Главная сложность задачи заключается в неидентифи-
цируемости вектора коэффициентов ξ номинальной моде-
ли и смещения cw, необходимых для использования опти-
мального регулятора (13).
3. Субоптимальное слежение
Решение поставленной задачи базируется на опти-
мальном оценивании, в котором показатель качества за-
дачи управления используется как идентификационный
критерий и минимизируется на текущих оценках множе-
ства неизвестных параметров, согласованных с данными
измерений. Вычисление множественных оценок основано
на следующем простом утверждении.
Лемма 1. Если для некоторой оценки
ˆθ = (ˆξT , ˆcw)T , ˆξ = (ˆa1, . . . , ˆan,ˆb1)T ∈ Ξ
неизвестного вектора θ при всех t справедливы неравен-
ства
|ˆa(q−1)yt − ˆb1ut−1 − ˆcw| ⩽ δw + δypy
t + δuput
, (28)
то объект управления (1) с вектором параметров ˆθ удовле-
творяет уравнению (1) и априорным предположениям АП1,
АП2 при всех t.
Лемма 1 является частным случаем Леммы 1 работы [9],
в которой дополнительно предполагаются неизвестными
параметры δw, δy, δu.
Из Леммы 1 следует, что при любом управлении объек-
том (1) полная информация о векторе неизвестных пара-
метров θ к моменту времени t имеет вид включения
θ ∈ St = { ˆθ ∈ Θ0
|ˆa(q−1)yk −ˆb1uk−1 − ˆcw| ⩽
⩽ δw + δypy
k + δupuk
∀k ⩽ t } ,
где
Θ0 = { ˆθ = (ˆξT , ˆcw)T
ˆξ ∈ Ξ , |cw| ⩽ Cw,
ˆδy + ˆδu∥G
ˆξ∥ ⩽ ¯δ } (29)
— априорное множество допустимых параметров θ.
Заметим, что никаким ограниченным управлением
нельзя обеспечить сходимости множеств St к множеству
с одним элементом θ, поскольку априорные верхние гра-
ницы δw, δy, δu, как правило, являются неточными, и кон-
кретные реализации всех возмущений даже при точных
верхних границах только в исключительных случаях неод-
нократно и одновременно принимают значения, соответ-
ствующие их верхним границам. Это означает, что вектор
неизвестных параметров θ не идентифицируем с помощью
ограниченного управления.
Метод рекуррентных целевых неравенств синтеза
адаптивного управления заключается в построении схо-
дящейся последовательности оценок θt → θ∞ при t →
+∞, достаточно точно удовлетворяющих целевым нера-
венствам (28) при всех достаточно больших t. В отличие от
задач адаптивной стабилизации, этого недостаточно для
решения поставленной оптимальной задачи. Действитель-
но, если θt → θ∞ и выполнены целевые неравенства, то
в силу теоремы 1 и непрерывности функции J(θ, δ) следу-
ет неравенство
lim sup
t→+∞
|yt| ⩽ J(θ∞, δ) .
Однако для решения поставленной оптимальной зада-
чи этого неравенства недостаточно и необходимо гаранти-
ровать выполнение с заданной точностью дополнительно-
го неравенства
J(θ∞, δ) ⩽ J(θ, δ) (30)
с неизвестным и не идентифицируемым вектором θ. Из это-
го следует необходимость использования показателя ка-
чества J(θ, δ) задачи управления в роли идентификаци-
онного критерия, т.е. использования оптимального оцени-
вания вида
θt = argmin
ˆθ∈St
J(ˆθ) . (31)
Непосредственное использование оптимальной иден-
тификации (31) в режиме онлайн невозможно, ввиду воз-
можного неограниченного роста числа целевых нера-
венств в описании множеств St. Для преодоления этой
трудности будут использованы верхние по включению
оценки множеств St с ограниченным числом обновлений
за счет введения мертвой зоны при обновлении оценок.
Выберем число ε > 0 в качестве параметра мертвой
зоны, при этом точность решения поставленной оптималь-
ной задачи слежения будет пропорциональна ε. В каждый
14
Известия Коми научного центра Уральского отделения Российской академии наук № 4 (62), 2023
Серия «Физико-математические науки»
www.izvestia.komisc.ru
момент времени t будут вычисляться векторные оценки
θt = (ξT
t , cwt
)T , ξt = (at
1, . . . , at
n, bt
1)
и множественные оценки Θt неизвестного вектора ξ.
Адаптивный регулятор. Управление ut в момент t опре-
деляется адаптивным регулятором
ut =
1
bt
1
(at
1yt + . . . + at
nyt−n+1 + rt+1 − cwt
) . (32)
Выберем в качестве начальной множественной оценки
множество Θ0, определенное в (29), а качестве начальной
векторной оценки
θ0 = argmin
ˆθ∈Θ0
J(ˆθ, δ) .
Введем следующие обозначения. После подачи управле-
ния ut в момент времени t и измерения выхода yt+1 в мо-
мент t + 1 положим
φTt
= (−yt,−yt−1, . . . ,−yt−n+1, ut),
ηt+1 = sign(yt+1 − φTt
ξt − cwt
) ,
ψt+1 = (ηt+1φTt
, ηt+1)T ,
ht+1 = δw + δypy
t+1 + δuput
+1 .
Заметим, что значения всех введенных переменных вы-
числяются по данным измерений, доступных к моменту
t + 1. Во введенных обозначениях целевое неравенство
(28) в момент t + 1 для текущей оценки θt принимает вид
|yt+1 − φTt
ξt − cwt
| =
= ηt+1yt+1 − ψT
t+1θt ⩽ ηt+1ht+1 ,
что эквивалентно
ψT
t+1θt ⩾ ηt+1(yt+1 − ht+1) . (33)
Алгоритм обновления векторных оценок θt и множе-
ственных оценок Θt имеет следующий вид:
θt+1 = θt , Θt+1 = Θt , (34)
если ψT
t+1θt ⩾ ηt+1(yt+1 − ht+1) − ε|ψt+1| . (35)
В противном случае положим
Θt+1 = Θt ∩ Ωt+1 , (36)
Ωt+1 = { ˆθ
ψT
t+1
ˆθ ⩾ ηt+1(yt+1 − ht+1 } , (37)
θt+1 = argmin
ˆθ∈Θt+1
J(ˆθ, δ) . (38)
Алгоритм оптимального оценивания (34)–(38) имеет
простую геометрическую интерпретацию. Каждое целевое
неравенство (28) представляет собой полоску в Rn+1, за-
данную парой линейных неравенств относительно векто-
ра ˆθ. Только одно из этих неравенств, именно неравенство
(33), может нарушаться для вектора θt. Неравенство в (35)
означает, что евклидово расстояние от вектора θt до по-
лупространства Ωt+1, определенного в (37), не больше ε,
и тогда, согласно (34), векторная оценка θt и множествен-
ная оценкаΘt не обновляются. В противном случае желае-
мое неравенство (37) добавляется к списку неравенств, за-
дающих множественную оценку Θt, образуя обновленную
оценку Θt+1. При этом некоторые неравенства из старо-
го списка могут оказаться лишними. Один из эффективных
алгоритмов удаления лишних неравенств описан в рабо-
те [12].
Замечание 1. Введение мертвой зоны с параметром ε
гарантирует ограниченность числа возможных обновлений
оценок θt и Θt и тем самым сходимость оценок за конеч-
ное время. Формула (38) вычисления оптимальной оценки
θt+1 является главной в задаче синтеза адаптивного оп-
тимального управления в условиях неидентифицируемо-
сти вектора параметров θ. Она обеспечивает выполнение
требуемого неравенства (30) с заданной точностью, про-
порциональной параметру мертвой зоны ε.
Субоптимальность адаптивного регулятора (32) уста-
навливается следующей теоремой.
Теорема 2. Пусть выполнены априорные предположе-
ния А1-А4, и параметр мертвой зоны ε в (35) выбран из ин-
тервала
0 < ε <
1 − ¯ √ δ
n + Gu
, Gu = max
ξ∈Ξ
∥Gξ∥ .
Тогда для замкнутой системы управления, включающей
объект (1), адаптивный регулятор (32) и алгоритм оценива-
ния (34)–(38) справедливы утверждения:
1) Множественные оценки Θt и векторные оценки θt
сходятся к своим предельным значениям Θ∞ и θ∞ за ко-
нечное время и
J(θ∞, δ) ⩽ J(θ, δ) , (39)
2)
lim sup
t→+∞
|yt| ⩽ J(θ∞, δ) + O(ε) , (40)
где O(ε) → 0 при ε → 0.
Доказательство Теоремы 2 аналогично доказательству
Теоремы 2 в статье [10]. Приведем его краткую схему. Со-
гласно данной выше геометрической интерпретации ал-
горитма оценивания, при нарушениях неравенства (35) из
множественных оценок Θt заведомо удаляются шары ра-
диуса ε с центрами θt и в описание Θt+1 добавляются
неравенства из (37). В результате этого шары радиуса ε/2
с центрами θt не пересекаются. В силу оптимизации (38)
J(θt, δ) ⩽ J(θ, δ)
при всех t, так что оценки θt остаются в ограниченном мно-
жестве в Rn+2 . Поэтому число исключаемых из оценок
Θt не пересекающихся шаров радиуса ε/2 конечно ввиду
ограниченности множества векторов ˆθ, удовлетворяющих
неравенству J(ˆθt, δ) ⩽ J(θ, δ). Следовательно конечно
и число возможных обновлений оценок Θt и θt.
Для доказательства неравенства (40) заметим, что по-
сле сходимости θt к θ∞ за конечное время для оценки θ∞
выполняются неравенства (35). Нетрудно показать, что
ε|ψt+1| ⩽ ε(
√
n py
t+1 + put
+1 + 1) . (41)
Из (41) и (35) теперь следует, что для оценки θ∞ выполня-
ются неравенства (28) с правой частью
δw + ε + (δy + ε
√
n)py
t + (δu + ε)put
, (42)
Известия Коми научного центра Уральского отделения Российской академии наук № 4 (62), 2023
Серия «Физико-математические науки»
www.izvestia.komisc.ru
15
которой соответствует набор верхних границ возмущений
δε = (δw + ε, δy + ε
√
n, δu + ε) .
Тогда в силу Леммы 1 выход yt можно считать выходом объ-
екта (1) с вектором параметров θ∞ = (ξT∞
, cw
∞)T , набором
верхних границ δε и управляемого соответствующим оцен-
ке θ∞ оптимальным регулятором. Далее по Теореме 1
lim sup
t→+∞
|yt − rt| ⩽ Jθ∞, δε) . (43)
Остается заметить, что J(θ∞, δε) = Jθ∞, δ)+O(ε). Ана-
логично [10] можно вычислить постояннуюK, представля-
ющую величину O(ε) в прямой форме Kε.
Замечание 2. Показатель качества J(θ, δ), определен-
ный в (18), запишем, используя (16), в виде
J(θ, δ) =
(δw + δy∥r∥ss)|b1| + δu∥r∥ss + δu|cw|)
(1 − δy)|b1| − δu
Pn
k=1
|ak| .
(44)
Нетрудно заметить, что этот показатель является дроб-
но-линейной функцией оцениваемого вектора θ (для этого
каждую абсолютную величину |x| следует записать в виде
x = x+ − x−, где x+ ⩾ 0, x− ⩾ 0. Из этого следует,
что оптимизация (38) представляет собой задачу дробно-
линейного программирования при линейных ограничениях.
Эта задача стандартным образом сводится к задаче ли-
нейного программирования [11], для решения которой име-
ется высокоэффективное современное программное обес-
печение. В статье [10] приведены примеры численного мо-
делирования, иллюстрирующие эффективность алгорит-
мов множественного оценивания для объектов управления
с девятью неизвестными параметрами. Заметим, что он-
лайн уменьшение параметра ε для повышения гарантиро-
ванной точности решения оптимальной задачи (38) влечет
рост числа возможных обновлений оценок и числа нера-
венств в описании множественных оценок Θt, т.е. к повы-
шению вычислительной сложности оптимальной задачи.
Замечание 3. Главное достоинство рассмотренного
адаптивного управления заключается в обеспечении оп-
тимальной с заданной точностью асимптотической верх-
ней оценки показателя качества для любого допустимо-
го и не идентифицируемого вектора θ. Главный же недо-
статок заключается в единой области допустимых значе-
ний коэффициентов усиления неопределенностей δy и δu
в виде неравенства (26). В то же время эта единая (универ-
сальная) для всех допустимых θ область является сколь
угодно близкой к оптимальной универсальной области за
счет выбора достаточно близкого к единице параметра ¯δ.
Традиционные алгоритмы оценивания на базе градиентно-
го алгоритма или метода наименьших квадратов не только
не могли гарантировать никакой оптимальности адаптив-
ного управления, но и допускали только достаточно ма-
лые области робастной устойчивости, поскольку обосно-
вывались с помощью метода функций Ляпунова, вносив-
шего значительный консерватизм в результаты по устой-
чивости по сравнению с ℓ1-теорией робастного управле-
ния. Это проявлялось, в частности, и в том, что в тради-
ционном робастном адаптивном управлении вместо струк-
турированной неопределенности по выходу и управлению
рассматривалась неструктурированная неопределенность
δ = max(δy, δu), вносившая дополнительный консерва-
тизм. Для такой неструктурированной неопределенности
наиболее продвинутый результат на основе градиентно-
го алгоритма оценивания был получен в статье [13] именно
в контексте ℓ1-теории при центрированном внешнем воз-
мущении (т.е. при cw = 0) для авторегрессионного объекта
с запаздыванием в управлении.
Заключение
Традиционные алгоритмы оценивания неизвестных па-
раметров объекта управления с детерминированными воз-
мущениями представляют собой модификации градиент-
ного алгоритма или алгоритма метода наименьших квадра-
тов и не могут гарантировать оптимальности адаптивно-
го управления. Более сложные алгоритмы множественно-
го оценивания открывают возможности синтеза адаптив-
ного оптимального управления при использовании пока-
зателя качества задачи управления как идентификацион-
ного критерия. В данной работе рассмотрена задача оп-
тимального робастного слежения для авторегрессионного
объекта с неизвестной номинальной моделью и неизвест-
ным смещением ограниченного внешнего возмущения, но
с известными коэффициентами усиления неопределенно-
стей по выходу и управлению и известной верхней грани-
цей несмещенного внешнего возмущения. Благодаря дроб-
но-линейному виду показателя качества в виде асимпто-
тически наихудшего возможного отклонения выхода объ-
екта от отслеживаемого сигнала, вычисление текущих оп-
тимальных оценок сводится к линейному программирова-
нию и реализуемо в режиме онлайн по крайней мере для
объектов невысокого порядка.
1. Rohrs, C.E. Robustness of continuous-time adaptive control algorithms in the presence of unmodeled dynamics / C.E. Rohrs, L. Valavani, M. Athans, G. Stein // IEEE Transactions on Automatic Control. - 1985. - Vol. 30. - № 9. - P. 881-889.
2. Zhou, K. Essentials of robust control / K. Zhou, G.C. Doyle // Prentice Hall, 1998. - 430 p.
3. Khammash, M. Performance robustness of discrete-time systems with structured uncertainty / M. Khammash, J. Pearson // IEEE Transactions on Automatic Control. -1991. - Vol. 36, № 4. - P. 398-412.
4. Khammash, M. Robust steady-state tracking / M. Khammash // IEEE Transactions on Automatic Control. - 1995. - Vol. 40, № 11. - P. 1872-1880.
5. Khammash, M. Robust performance: unknown disturbances and known fixed inputs / M. Khammash // IEEE Transactions on Automatic Control. - 1997. - Vol. 42, № 12. - P. 1730-1734.
6. Sokolov, V.F. ℓ1 robust performance of discrete-time systems with structured uncertainty / V.F. Sokolov // Syst. Control Lett. - 2001. - Vol. 42, № 5. - P. 363-377.
7. Sokolov, V.F. Robastnoe upravlenie pri ogranichennyh vozmuscheniyah / V.F. Sokolov. - Syktyvkar: Komi nauchnyy centr UrO RAN, 2011. - 218 s.
8. Sokolov, V.F. Adaptive ℓ1 robust control for SISO system / V.F. Sokolov // Systems and Control Letters. - 2001. - Vol. 42, № 5. - P. 379-393.
9. Sokolov, V.F. Adaptivnaya optimal'naya robastnaya sta- bilizaciya avtoregressionnogo ob'ekta so smeschennym vneshnim vozmuscheniem / V.F. Sokolov // Izvestiya Komi nauchnogo centra Ural'skogo otdeleniya Rossiyskoy akademii nauk. Seriya «Fiziko-matematicheskie nauki». - 2022. - № 5 (57). - S. 20-27.
10. Sokolov, V.F. Adaptivnoe optimal'noe slezhenie dlya diskretnogo minimal'no-fazovogo ob'ekta s neopredelennost'yu v kanale vyhoda / V.F. Sokolov // Avto matika i telemehanika. - 2021. - № 8. - C. 108-128.
11. Boyd, S. Convex optimization / S. Boyd, L. Vandenberghe. - New York: Cambridge University Press, 2004. - 742 p.
12. Walter, E. Exact recursive polyhedral description of the feasible parameter set for bounded error / E. Walter, H. Piet-Lahanier // IEEE Transactions on Automatic Control. 1989. - Vol. 34, № 8. - P. 911-915.
13. Weyer, E. Limitations of robust adaptive pole placement control / E. Weyer, I. Mareels, J. Polderman // IEEE Transactions on Automatic Control. - 1994.- Vol. 39, № 8. - P. 1665-1671.