Главное меню

Арматура а1 и а3 отличия


Арматура А1 и А3 отличия классов

На рынке стройматериалов представлено более десятка видов арматуры. Несмотря на обширный выбор, в гражданском строительстве чаще всего используют марки А1 и А3. Они различаются как по цене, так и по характеристикам, и наша статья поможет вам разобраться, какой материал лучше выбрать для тех или иных целей.

Общие характеристики арматуры

Для того, чтобы понять, чем отличается арматура А1 от А3, необходимо знать, какие свойства характеризуют данный вид металлопроката.

Тип профиля подразделяется на гладкий и периодический. Первый имеет ровную поверхность, а на втором выступают продольные и поперечные ребра. Периодический профиль лучше сцепляется с бетоном, что увеличивает прочность конструкции.

Не менее важная характеристика – диаметр поперечного сечения. Для каждой из марок арматуры ГОСТ устанавливает допустимые размеры. С увеличением диаметра поперечного сечения увеличивается как прочность арматурного каркаса, так и масса.

Также ГОСТ устанавливает марку стали, из которой изготавливаются прутья. От нее зависит не только прочность конструкции, но и коррозионная стойкость, что важно в агрессивных средах, местах с высокими перепадами температур и повышенной влажностью.

Исходя из класса арматурной стали и ее диаметра определяются прочностные характеристики материала. В ГОСТ 5781-82 для каждой марки и диаметра указан предел текучести, временное сопротивление разрыву, относительное удлинение и прочие характеристики, которые позволят сделать все расчеты перед строительством.

Характеристики и особенности арматуры А1

Арматура класса А1 имеет гладкий профиль и изготавливается из низколегированной стали (Ст3сп, Ст3пс, Ст3кп). Размер выпускаемого профиль, может иметь диаметр от 6 до 40 мм. Производится она с помощью холодного проката. Старая маркировка А1, новая А240.

Основное преимущество А1 – высокая коррозионная стойкость. Она хорошо выдерживает резкие перепады температур и повышенную влажность. Также арматура с гладким профилем лучше сваривается. К недостаткам относится более слабое сцепление с бетоном.

Особенности марки А1:

Характеристики и особенности арматуры А3

Арматура А3 имеет периодический профиль с продольными и поперечными ребрами жесткости. Ее изготавливают путем горячего проката из стали марок 35ГС, 25Г2С – диаметром 6-40 мм, и 32Г2Рпс – размер профиля от 6 до 22 мм. Новая маркировка А400, старая А3.

Ребристый профиль обеспечивает хорошее сцепление арматурного каркаса с бетоном. Это существенно увеличивает прочность несущей конструкции. Недостатком же является более низкая коррозионная стойкость, из-за чего арматуру марки А3 не рекомендуется применять в сочетании с некоторыми типами бетона, в местах с высокой влажностью и агрессивной химической средой.

Особенности марки А3:

Выбор марки

Арматура А1 и А3 отличается не только характеристиками, но и ценой. Первая стоит примерно на 30% дешевле второй, так что по возможности стараются использовать именно ее. Спектр применения обоих марок широк, и зачастую они используются в комбинации друг с другом.

А1 считается универсальным решением, которое рассматривают в первую очередь. Ее используют для изготовления множества железобетонных изделий: плит, колец, балок, блоков. Также продукцию с гладким профилем используют при заливке стяжки, отделке фасадов и для укрепления колонн. Рекомендуется использовать её для фундамента здания в роли конструктивной и монтажной.

А3 применяют в тех случаях, когда от железобетона требуется повышенная прочность. Ее используют при возведении мостов, плотин и других массивных объектов. Также высокопрочная арматура способна выдержать нагрузки монолитных зданий и фундаментов, которые испытывают высокое давление. Марку А3 рекомендуют использовать и для изготовления железобетонных перекрытий. Кроме того, ее используют для усиления каркаса на основе А1. Комбинированная сетка обеспечивает высокую прочность при доступной цене.

Совместное использование арматуры А1 и А3, при армировании балконной балки.

Помимо арматуры А1 и А3, отличия которых мы уже рассмотрели, предприятия выпускают и другие марки изделий, которые могут оказаться оптимальными для вашей задачи. Все они, как и А3, имеют периодический профиль и не столь устойчивы к коррозии (в этом плане А1 уникальна). Марка А2 изготавливается из стали с меньшим количеством легирующих добавок, что делает ее дешевой, но менее прочной. Ее активно используют при строительстве частных домов и малоэтажных коммерческих построек. А4, А5 и А6 способны выдерживать огромные нагрузки, но из-за высокой цены их применение оправдано только в высоконагруженных конструкциях.

Немаловажно и то, в каком виде вы будете приобретать продукцию. Она выпускается как прутьями, так и мотками. Разберемся, в чем разница. Предельная длина прутьев составляет 12 метров. С ними проще работать, так как их удобнее резать и не нужно выпрямлять, но есть и недостаток. После нарезания прутьев неизбежно остаются обрезки и часть материала уходит на свалку. С мотками такой проблемы нет. Кроме того, они незаменимы, когда в конструкции требуется арматурная сетка длиннее 12 метров.

Подведя итоги, можно сказать, что отличия арматуры А1 от А3 делают ее более универсальной. Она подойдет в большинстве случаев и позволит обойтись меньшими затратами, но тогда, когда требуется высокая прочность, лучше не экономить и использовать арматуру А3. Если же после прочтения статьи у вас остались сомнения, какую марку арматуры выбрать, то лучше обратиться за советом к профессионалу, который подберет оптимальное решение для вашего проекта.

Отличие арматуры А1 и А3. Характеристики и применение в строительстве

Арматура является основанием бетонных стен, стяжек и колонн. Этот важный элемент испытывает на себе все основные нагрузки и действия изгибающих моментов, предотвращая деформацию и разрушение бетонного основания. В качестве арматуры применяются металлические прутья разного диаметра, которые имеют круглое сечение. Существуют два основных вида арматурных металлических прутьев: А1 и А3. Чтобы понять отличие арматуры А1 и А3, а также область их применения, необходимо ознакомиться с их основными характеристиками, рассмотреть их преимущества и недостатки.

Расшифровка маркировки

Маркировку арматурных стержней обычно принято делать с помощью буквенных обозначений. Буквы означают то, каким именно методом была произведена данная арматура. Так, к примеру, наличие в наименовании буквы А говорит о том, что изделие изготовлено методом горячей или холодной катки. Если сравнивать оба метода, то стоит отметить, что сталь, полученная в результате холодной катки, обладает повышенными прочностными характеристиками и имеет большую твердость. Цифрой принято обозначать степень текучести используемой в арматуре стали, она определяет основное отличие между марками металла. Коэффициент текучести находится в зависимости от максимального напряжения, которое приводит к тому, что металл начинает деформироваться. То есть чем выше данный показатель, тем большей прочностью обладает сам прут. Так, к примеру, сталь А440 имеет больший запас прочности по сравнению с А240.

При постройке сооружений из железобетона требуется добиться наилучшей прочности всей конструкции, используя элементы с минимальной массой. Одним из решений является армирование конструкции с помощью использования стального каркаса, для сборки которого используют арматуру различного диаметра сечения. Она может быть в виде мотков или прутьев.

Дополнительная маркировка арматуры

Каждый тип арматуры, независимо от ее профиля, может подвергаться отдельной обработке температурой. Это можно понять по добавлению «Ат» в конце аббревиатуры. Металл арматуры может быть очищен от лишних примесей и иметь равномерное распределение углерода, что увеличивает качественные показатели сварных соединений (к аббревиатуре добавляется «С»). В металл могут добавлять медь в количестве до двух процентов для улучшения его антикоррозийных свойств (в конце аббревиатуры «К»).

Основными видами, применяемыми в строительстве, являются А3, а также арматура А1, ГОСТ 30136-94. Иногда можно встретить и иные названия. Например, арматура А1 часто встречается под названием А240, а А3 – А400. Вес арматуры А1 и А3 примерно одинаков, однако главное отличие данных видов арматуры заключается в том, что А1 имеет гладкую поверхность, а А3 – рифленую. Рифленость обеспечивает лучший контакт с бетоном. Из-за наличия рифленой поверхности на А3 она обладает лучшими армирующими качествами, по сравнению с гладкой арматурой А1. К недостаткам А3 можно отнести появление дополнительных напряжений из-за необходимости дополнительного цикла прокатывания, что необходимо для образования рифленой поверхности. Еще одним недостатком является уменьшение эффективного сечения арматуры при неизменном весе погонного метра, а также более высокая стоимость из-за сложности ее производства. Прочность уменьшается на 6% при несимметричном положении рисунка рифлености по сравнению с круглой арматурой.

Материал изготовления

Имеются отличия арматуры А1 и А3 и в плане используемого типа стали. Обычно для изготовления материалов используется сталь с пониженным содержанием углерода в ее составе. Для изготовления арматуры А3 используют стали с повышенной пластичностью и низким содержанием углерода. Арматуру А1 изготавливают из более жестких и твердых сталей. Также согласно ГОСТу разновидность А1 не должна иметь рифления.

Диаметр сечения прутьев арматуры, независимо от профиля, обычно варьируется в пределах 8-25 миллиметров. При строительстве более крупных сооружений, таких как мосты и высотные здания, используют арматуру диаметром 40 миллиметров. В состав материала меньшего сечения входит более глубоко очищенная от примесей сталь мягких сортов. Для арматуры большого диаметра может использоваться любой вид стали с низким содержанием углерода.

Применение арматуры

Поговорим об отличии арматуры А1 и А3 в плане применения. А1 широко используется при армировании конструкций из бетона в любом виде, будь то сетка или сложный каркас. Гладкая арматура также активно применяется при возведении любых конструкций, имеющих вспомогательное значение (ограждения, изделия в виде решеток, заборы и прочее).

Арматура А3, обладающая рифленостью, в основном используется для возведения несложных, легких и высокопрочных каркасных сооружений, выполненных из бетона. Данная разновидность не используется при возведении конструкций, выполняющих вспомогательную функцию.

Все отличия арматуры А1 и А3: фото

Для того, чтобы рассмотреть, чем различаются эти 2 вида изделий металлопроката, следует разобраться, что это за арматуры.

Немного теории

Арматурный прокат - пруты из стали с гладкой или рифленой периодическим рисунком поверхностью. Данные пруты свариваются каким-либо образом и идут в основу формирования каркаса изделий из бетона, камня, и др. Впоследствии, нагрузка на эти изделия, такая как сгибание или растягивание, переходит с изделий на армированный каркас, что увеличивает его прочность и не даёт основному материалу быстро разрушаться. В связи с тем, что разновидности конструкций могут быть самыми разными, и имеют место быть различия в условиях эксплуатации, то металлопрокат предлагает различные марки изделий. Каждая из них имеет свои особенности. Часто стоит выбор о приобретении классов А1 и А3, поэтому далее разберём, в чём их отличия.

Вот в чем состоит разница между А1 и А3:

  1. Состав. В А1 используется низколегированная сталь Ст3кп, Ст3пс, Ст3сп и похожих марок. В А3 используется высоколегированная сталь 25ГС, 35Г2С и похожих марок; в составе присутствуют такие добавки, как хром, титан, марганец. 
  2. Поверхность. А1 выполнена в виде гладкого стержня, А3 же имеет периодический рисунок.
  3. Габариты. Размеры А1: диаметр - 4-40мм, длина - до 11,7м; А2: диаметр - 6-80мм, длина до 12м.
  4. Сферы использования. А1 используется в: плиты, перекрытия, балки и др. ЖБИ; фундаменты зданий до 80т; тротуары; стяжка, штукатурка; теплицы; и др. А3 используется в: все фундаменты; мосты, опоры, причалы и др. ЖБИ; дорожное полотно; монолитные перекрытия.

Выводы

Как видно из описанных различий, арматуры А1 и А3 не являются взаимозаменяемыми, потому что у них разные функции. А3 является более прочным видом арматуры, а А1 является более универсальным. В соответствии с требованиями, можно делать выбор.

различия, характеристики, маркировка и цены

Арматура — каркас бетонных стен, фундаментов, стяжек, перекрытий, балок, колонн. Она принимает на себя основные растягивающие, изгибающие нагрузки, сохраняет целостность бетона. Чаще всего применяют металлические стержни круглого сечения. Две часто используемые марки прутьев из металла — А1 (А240) и А3 (А400 или А500).

Оглавление:

  1. Особенности маркировки
  2. Технические параметры А1
  3. Металлопрокат А3
  4. Цены

Расшифровка маркировки

Маркировка начинается с буквенного обозначения метода производства. Буква А означает, что этот тип изготавливается горяче- или холоднокатаным способами. Если есть возможность выяснить, каким из методов произведена сталь, то предпочтение нужно отдавать второму. Она отличается повышенными прочностью, твердостью.

Затем цифрами обозначают индекс текучести стали, из которой изготовлено изделие. Он определяет главное различие между марками металлопроката. Индекс текучести зависит от предельного напряжения, при котором начинает развиваться пластическая деформация металла. Чем этот показатель выше, тем прочнее прут, то есть А240 уступает по прочности маркам А400 или А500.

Если материал подвергнут одному из типов дополнительной обработки, то после цифр к маркировке добавляют соответствующую букву:

Стержни любой марки могут быть подвергнуты одному из перечисленных видов обработки.

Краткая характеристика арматуры марки А1

Изготавливается из конструкционной стали обыкновенного качества или низколегированной марок Ст3пс, Ст3сп, Ст3кп, ВСт3сп, ВСт3пс, 10ГТ. Низколегированная отличается от обычной незначительным количеством добавок, улучшающих ее параметры. А240 классифицируют как прут монтажный. Основное отличие — гладкий профиль, без насечек, с двумя продольными ребрами. Чаще их используют как вспомогательные при армировании бетона обычными рифлеными стержнями.

Диаметр прутьев А240 составляет от 6 до 40 мм. Сферы применения изделий разного диаметра:

Преимущества:

За счет своих качеств этот вид проката пригоден для использования в районах добычи нефти и газа.

Описание характеристик арматуры марки А3

А3 изготавливается из конструкционной среднеуглеродистой низколегированной стали марок 25Г2С, 35ГС,32Г2р и т. п. Увеличение содержания углерода способствует повышению предела текучести, прочности. Так как прокат А240 изготавливают из низкоуглеродистых марок, то по этим показателям А400 или А500 его превосходят. Стержни этого типа классифицируют как прут рабочий. Их отличие — рифленый профиль с выступами «елочками». Наиболее часто их применяют при армировании ленточного, свайного, плитного фундаментов. Диаметр изделий А3 составляет от 6 до 80 мм. Используют при строительстве жилых, промышленных зданий, мостов, других конструкций. Существенного различия между характеристиками А400 и А500 нет, второй вид немного прочнее.

Преимущества:

Недостатки А400 или А500:

Стоимость

Металлопрокат диаметром до 10 мм имеет вид проволоки, купить его можно бухтами (мотками). Более толстый производят только стержнями (длиной не менее 2 метров), продают пачками. При расчете необходимое количество выражают в погонных метрах. Цена зависит от диаметра.

Минимальная стоимость одного погонного метра А240 и А400:

Марка/диаметр, мм 6 8 10 12 14 16 18 20 22 25 28 32
А1(240), рубли 9 14 21 28 38 50 65 81 96 120 118
А3(400), рубли 8 14 17 24 34 43 55 66 84 108 134 180

Сравнение арматурного проката А1 и А3:

Характеристика А1 А3
класс монтажный прут рабочий
современная маркировка А240 А400, А500
поверхность гладкая рифленая
диаметр, в миллиметрах 6 — 40 6 — 80
длина, в метрах от 6 до 11,7 11,7
применение стяжки, балки, фундаменты малоэтажных строений (до 80 т), плиты перекрытия, арки любые фундаменты, мосты, опоры, плотины, дорожное полотно
сталь конструкционная обыкновенного качества или низколегированная конструкционная среднеуглеродистая низколегированная

Металлопрокат А240 является более универсальным, отличие А400 или А500 — повышенная прочность. Купить для монтажа каркаса обе марки прутьев можно, но заменять одну на другую нельзя.

Отличия арматуры А1 и АЗ

В статье пойдет речь об отличиях арматуры А1 и АЗ. Арматура классов А1 и А3 является наиболее распространённой и часто применяемой. Эти два класса имеют различия:

Внешние отличия

Самое главное отличие этих классов именно в поверхности. Арматура класса А1 – гладкая, в то время как А3 имеет периодический профиль. При этом к поперечным ребрам и продольным выступам применяются определенные требования по углу расположения относительно друг друга. Наличие этих ребер увеличивает сцепные свойства арматуры с бетоном, позволяя использовать арматуру А3 в преднапряженных конструкциях.

Рисунок 1. Арматура А1

Назначение

Класс А1 имеет меньшую прочность, что ограничивает сферы ее применения. Однако именно арматура класса А1 имеет большую стойкость к воздействию агрессивной среды и экстремальным температурам. Эти свойства позволяет использовать ее:

  1. При строительстве нефтедобывающих предприятий объектов транспортировки нефти в условиях Крайнего Севера.
  2. При добыче полезных ископаемых для укрепления оборудования.
  3. При строительстве для армирования железобетонных конструкций во время возведения различных объектов.

Еще одним преимуществом этого класса является возможность использования сварных соединений при монтаже конструкций. Это намного ускоряет монтаж, что приносит положительный экономический эффект.

Арматура А3 применяется при возведении ответственных железобетонных конструкциях, где требуется особая прочность. Это несущие стены жилых домов, мостовые конструкции, тоннелестроение Использование ее во второстепенных конструкциях экономически невыгодно.

А3 или А500С

Во многих интернет-изданиях публикуется информация и том, что это один и тот же вид арматуры. Фактически эти виды металлопроката изготавливаются из разных металлов и имеют визуальные различия.

Арматура класса А3 производится по ГОСТ 5781-82. Материал – низколегированная сталь марок 35ГС, 25Г2С или 32Г2Рпс. Зачастую ее маркируют как А400 из-за ее предела текучести, равного 400 Н/мм2.

Рисунок 2. Арматура А3

Арматура класса А500С производится по СТО-АСЧМ 7-93 и ГОСТ Р 52544-2006 из низкоуглеродистой стали с обязательным добавлением:

Количество этих элементов регламентируется ГОСТом.

Из-за того, что арматуры этих классов изготавливаются из разных сталей, имеются существенные различия их применения. Арматуру А400 запрещено сваривать, соединение производится только с помощью вязальной проволоки. А вот литера С в маркировке А500С означает, что допускается в крестообразных соединениях использовать сварочный шов. Этого удалось добиться благодаря снижению количества легирующих добавок в стали.

Внешне эти два вида арматуры тоже отличаются. А400 имеет обязательно имеет продольные ребра, а поперечные выступы расположены по винтовым линиям, имеющим с одной стороны правый, а с другой – левый заходы. Поперечные выступы соединяются с продольными ребрами.

Продольные ребра в периодическом профиле А500 не являются обязательным элементом и имеются в горячекатном и термомеханически упрочненном варианте. Холоднодеформированный прокат может быть трехсторонним серповидным или четырехсторонним сегментным. В этом случае продольные ребра отсутствуют. В случае наличия продольных ребер поперечные выступы располагаются реже, чем у А3, и не соединяются с ними.

Рисунок 3. Арматура А500С

Взаимозаменяемость

Арматура класса А1 не сможет заменить А3, как и наоборот, другое дело, когда речь идет о классах А400 и А500. Благодаря тому, что последняя обладает пределом текучести в 500 Н/мм2 она сможет заменить А400. При этом не придется выполнять дополнительных расчетов элементов конструкции, так как характеристики заменителя выше. А вот обратная замена без перерасчета прочности невозможна.

А500 производится из низкоуглеродистой стали, из-за чего стоимость погонного метра такой арматуры меньше и ее использование экономически выгодно. Она является более универсальной в использовании, так как может использоваться как в нагруженных участках, наравне с А3, так и в ненагруженных сооружениях.

Арматура А1 и А3 – различия

Есть огромное множество видов арматуры, в которых потребитель может запутаться. 

Самые распространенные, употребляемые и применяемые — это арматура А1 и арматура А3. 

Задачи у них разные, состав разные, внешний вид разный — так что мы пройдемся по всем отличиям подробнее.

Поверхность

Если арматура А1 и А3 различия имеет — то это самое главное и принципиальное

А1 — это гладкая арматура. 

Связано это с задачами, которые стоят перед данным видом армированной стали — они используются как составные части железобетонных каркасов и сеток.

Это свойство связано с тем, что их достаточно легко соединять электросваркой. 

Соответственно, гладкая поверхность имеет и свои недостатки — к примеру, не самое лучшее сцепление с бетоном.

А3 (она же армированная сталь А400) в первую очередь от А1 (А240) отличается профилем. 

Он у данного вида арматуры рифленый. 

Имеются поперечные выступы и продольные ребра. 

Они расположены под строго определенным углом по отношению друг к другу и равномерно по всей длине стержня. 

Именно эти ребра и выступы помогают намертво сцепить арматуру и бетон. 

Это позволяет делать более прочные железобетонные конструкции.

Поэтому в отличие от своего гладкого собрата, А3 можно использовать в качестве основного армирующего материала. 

Собственно говоря, и из-за этого арматура А3 является самым используемым видом арматуры.

Прочность

Арматура А3 намного прочнее А1. 

Все дело в том, что при изготовлении А3 используется высоколегированная сталь, содержащая примеси таких металлов, как хром, марганец, титан, кремний.

Поэтому подобная арматура используются там, где требуется большая прочность — изготовление полов, потолков, а также высотные конструкции и такая серьезная инфраструктура, как мосты и эстакады.

Арматура А1 тоже достаточно прочна. 

Но у неё есть определенные ограничения характеристик в силу её гладкого профиля, из-за которых строители отдают предпочтение арматуре А3.

Универсальность

А вот здесь уже выигрывает А1.

Суть в том, что данный вид арматуры, во-первых, сохраняет свои свойства и надежность в любых, даже экстремальных условия. 

А во-вторых, он устойчив к воздействию агрессивных химических сред — например, хлор либо природный газ.

Именно поэтому арматура А1 будет хороша для строительства нефтедобывающих предприятий где-нибудь на Крайнем Севере. 

Арматура А3 в подобных условиях может просто потрескаться.

Компания ООО «Металл-Групп» поможет Вам выбрать самую подходящую арматурную сталь для конкретно Вашей стройки. 

Наши специалисты имеют достаточный опыт и смогут посоветовать Вам самую подходящую сталь по самым оптимальным ценам и приятным условиям. 

Чтобы получить нужную информацию либо сделать заказ — позвоните по телефону (499) 490-84-73

Beyond DQN / A3C: исследование углубленного обучения с подкреплением | Джойс Сюй

Одна из моих любимых вещей в глубоком обучении с подкреплением заключается в том, что, в отличие от обучения с учителем, на самом деле на самом деле не хочет работать. Использование нейронной сети в проблеме компьютерного зрения может помочь вам на 80%. Использование нейронной сети в задаче RL, вероятно, взорвёт что-то прямо перед вашим лицом - и при каждой попытке взорваться будет по-разному.

Многие самые большие проблемы в RL вращаются вокруг двух вопросов: как мы эффективно взаимодействуем со средой (например.грамм. разведка по сравнению с эксплуатацией, эффективность выборки ), а также то, как мы учимся на опыте , эффективно (например, , долгосрочные присвоения кредита, редкие сигналы вознаграждения ). В этом посте я хочу изучить несколько недавних направлений глубоких исследований RL, которые пытаются решить эти проблемы и делают это с особенно элегантными параллелями с человеческим познанием. В частности, я хочу поговорить о:

Этот пост начнется с быстрого обзора двух канонических алгоритмов глубокого RL - DQN и A3C - чтобы дать нам некоторую интуицию, к которой можно вернуться, а затем перейти к глубокому погружению в несколько недавних статей и прорывов в описанных категориях над.

Отказ от ответственности: я предполагаю некоторое базовое знакомство с RL (и, таким образом, не буду предоставлять подробное руководство по любому из этих алгоритмов), но даже если вы не на 100% уверены в том, как они работают, остальные сообщение по-прежнему должно быть доступно.

DeepMind DQN (deep Q-network) был одним из первых прорывных достижений в применении глубокого обучения к RL. Он использовал нейронную сеть для изучения Q-функций для классических игр Atari, таких как Pong и Breakout, позволяя модели переходить прямо от ввода сырых пикселей к действию.

Алгоритмически DQN напрямую опирается на классические методы Q-Learning . В Q-обучении Q-значение или «качество» пары состояние-действие оценивается посредством итеративных обновлений на основе опыта.По сути, с каждым действием, которое мы предпринимаем в состоянии, мы можем использовать немедленное вознаграждение, которое мы получаем, и оценку значения нашего нового состояния , чтобы обновить оценку значения нашей исходной пары состояние-действие:

Training DQN состоит из минимизации MSE (среднеквадратичная ошибка) ошибки временной разницы или TD-ошибки, которая показана выше. Двумя ключевыми стратегиями, используемыми DQN для адаптации Q-обучения для глубоких нейронных сетей, которые с тех пор были успешно приняты многими последующими усилиями глубокого RL, были:

Впоследствии, A3C (Asynchronous Advantage Actor Critic) DeepMind и синхронный вариант A2C OpenAI популяризировали очень успешный подход, основанный на глубоком обучении, к методам «актер-критик» .

Методы «критик-исполнитель» объединяют методов градиента политики с функцией усвоенной ценности . С DQN у нас была только функция усвоенного значения - Q-функция - и «политика», которой мы следовали, заключалась в простом выполнении действия, которое максимизировало Q-значение на каждом шаге.С помощью A3C, как и с остальными методами «субъект-критик», мы изучаем две разные функции: политику (или «субъект») и ценность («критик»). Политика корректирует вероятности действий на основе текущего предполагаемого преимущества выполнения этого действия, а функция значения обновляет это преимущество на основе опыта и вознаграждений, полученных в результате следования политике:

Как видно из обновлений выше, значение сеть изучает базовое значение , значение состояния V (s_i; θ_v) , с которым мы можем сравнить нашу текущую оценку вознаграждения R, чтобы получить «преимущество», и сеть политик корректирует логические вероятности действий на основе этого преимущества с помощью классический алгоритм REINFORCE.

Реальный вклад A3C заключается в его распараллеленной и асинхронной архитектуре: несколько участвующих субъектов направляются в отдельные экземпляры среды; все они взаимодействуют с окружающей средой и собирают опыт, а также асинхронно отправляют свои обновления градиента в центральную «целевую сеть» (идея, заимствованная из DQN). Позже OpenAI показал с помощью A2C, что асинхронность на самом деле не влияет на производительность и фактически снижает эффективность выборки. К сожалению, подробности этих архитектур выходят за рамки этой статьи, но если распределенные агенты волнуют вас так, как волнуют меня, обязательно ознакомьтесь с IMPALA DeepMind - очень полезной парадигмой проектирования для расширения обучения.

И DQN, и A3C / A2C могут быть мощными базовыми агентами, но они, как правило, страдают, когда сталкиваются с более сложными задачами, серьезной частичной наблюдаемостью и / или длительными задержками между действиями и соответствующими сигналами вознаграждения. В результате возникли целые области исследований RL для решения этих проблем. Давайте поговорим о хорошем :).

Иерархический RL - это класс методов обучения с подкреплением, которые обучаются на нескольких уровнях политики , каждый из которых отвечает за управление на разных уровнях временной и поведенческой абстракции.Самый низкий уровень политики отвечает за вывод действий среды, оставляя более высокие уровни политики свободными для работы над более абстрактными целями и более длительными временными рамками.

Почему это так привлекательно? Прежде всего, что касается когнитивного фронта, исследования уже давно показали, что поведение человека и животных подкрепляется иерархической структурой. В повседневной жизни это интуитивно понятно: когда я решаю приготовить еду (что, кстати, в принципе никогда не бывает, но для аргументации предположим, что я ответственный человек), я могу разделить эту задачу на более простые подзадачи: измельчение овощей, варка макарон и т. д.не упуская из виду мою главную цель - приготовить еду; Я даже могу поменять подзадачи, например приготовление риса вместо макаронных изделий для достижения той же цели. Это предполагает присущую иерархию и композиционность в реальных задачах, в которых простые атомарные действия могут быть объединены, повторены и составлены для выполнения сложных заданий. В последние годы исследования даже выявили прямые параллели между компонентами HRL и конкретными нейронными структурами в префронтальной коре.

На техническом фронте RL HRL особенно привлекателен, потому что он помогает решить две из самых больших проблем, которые я упомянул в нашем втором вопросе, а именно: как эффективно учиться на опыте: долгосрочных кредитов и сигналов редкого вознаграждения . В HRL, поскольку низкоуровневые политики учатся на внутренних вознаграждениях на основе задач, назначенных высокоуровневыми политиками, атомарные задачи все еще могут быть изучены, несмотря на скудные вознаграждения. Кроме того, временная абстракция, разработанная высокоуровневыми политиками, позволяет нашей модели обрабатывать присвоение кредитов в рамках расширенного во времени опыта.

Так как это работает? Есть несколько разных способов реализовать HRL. В одной недавней статье Google Brain используется особенно чистый и простой подход и вводятся некоторые приятные внеполитические исправления для обучения эффективному использованию данных. Их модель называется HIRO.

μ_hi - это политика верхнего уровня, которая выводит «состояния целей» для политики нижнего уровня. μ_lo, политика низкого уровня, выводит действия среды в попытке достичь этой цели наблюдения за состоянием.

Вот идея: у нас есть 2 уровня политики.Политика высокого уровня обучается максимизировать вознаграждение среды R. Каждые c временных шагов политика высокого уровня делает выборку нового действия, которое является «целевым состоянием» для политики низкого уровня. Политика низкого уровня обучена выполнять действия среды, которые производят наблюдение за состоянием, подобное заданному целевому состоянию .

Рассмотрим простой пример: допустим, мы обучаем робота складывать цветные кубики в определенном порядке. В конце мы получаем только одну награду +1, если задача выполнена успешно, и награду 0 на всех остальных временных шагах.Интуитивно понятно, что политика высокого уровня отвечает за разработку необходимых подцелей для достижения: возможно, первое целевое состояние, которое она выдает, будет «наблюдать красный куб перед собой»; следующий может быть «наблюдать за синим кубом рядом с красным кубом»; а затем «наблюдайте за синим кубом поверх красного куба». Политика низкого уровня возится с окружающей средой, пока не выработает последовательность действий, необходимых для проведения этих наблюдений, например подняв синий куб и переместив его поверх красного.

HIRO использует вариант учебной цели DDPG (Deep Deterministic Policy Gradient) для обучения политики низкого уровня, внутреннее вознаграждение которой параметризуется как расстояние между текущим наблюдением и наблюдением цели:

DDPG - еще одно основополагающее значение. алгоритм глубокого RL, который расширил идеи от DQN до пространства непрерывного действия. Это еще один метод «субъект-критик», который использует градиенты политики для оптимизации политики, но вместо того, чтобы оптимизировать ее в отношении преимущества, как в A3C, он оптимизирует ее в отношении значений Q.Таким образом, в HIRO ошибка, примыкающая к DDPG, которую необходимо минимизировать, принимает следующий вид:

Между тем, чтобы использовать внеполитический опыт, политика высокого уровня обучается с поправками вне политики . Идея в том, чтобы быть эффективным сэмплом, мы хотим использовать какую-то форму буфера воспроизведения, например DQN. Однако старый опыт нельзя использовать напрямую для обучения политиков высокого уровня. Это связано с тем, что политика низкого уровня постоянно учится и изменяется, поэтому, даже если мы ставим те же цели, что и в прошлом опыте, наша политика низкого уровня теперь может демонстрировать другие действия / переходы.Поправка вне политики, предложенная в HIRO, состоит в том, чтобы задним числом изменить цель, видимую вне политики, чтобы максимизировать вероятность наблюдаемой последовательности действий. Другими словами, если опыт воспроизведения говорит, что старый агент предпринял действия ( x, y, z ) для достижения цели g , мы найдем цель g ~ , при которой текущий агент , скорее всего, предпримет эти действия. те же действия ( x, y, z ), то есть тот, который максимизирует эту логическую вероятность последовательности действий:

Политика высокого уровня затем обучается с вариантом DDPG для этих действий, новой цели и среды награда R .

HIRO, безусловно, не единственный подход к HRL. Сети FeUdal были более ранней связанной работой, в которой использовалось выученное представление «цели» вместо необработанного наблюдения за состоянием. В самом деле, множество вариаций в исследованиях проистекает из разных способов изучения полезных суб-политик низкого уровня; во многих работах использовались вспомогательные или «прокси» вознаграждения, а в других экспериментировали с предварительным обучением или многозадачным обучением. В отличие от HIRO, многие из этих подходов требуют некоторой степени ручной разработки или знания предметной области, что по своей сути ограничивает возможность обобщения.Еще один недавно изученный вариант - использовать популяционное обучение (PBT), еще один алгоритм, который я лично фанат. По сути, внутренние награды рассматриваются как дополнительные гиперпараметры, и PBT изучает оптимальную эволюцию этих гиперпараметров среди «эволюционирующих» популяций во время обучения.

HRL - очень популярная область исследований прямо сейчас, и ее очень легко интерполировать с другими методами (ознакомьтесь с этой статьей, объединяющей HRL с имитационным обучением). Однако по своей сути это всего лишь действительно интуитивная идея .Он расширяемый, имеет нейроанатомические параллели и решает ряд фундаментальных проблем RL. Однако, как и остальную часть хорошего RL, тренироваться может быть довольно сложно.

Теперь давайте поговорим о некоторых других способах решения проблем, связанных с присвоением долгосрочного кредита и редкими сигналами вознаграждения. В частности, давайте поговорим о самом очевидном способе: сделать агента действительно хорошо запоминающим .

Память в глубоком обучении всегда доставляет удовольствие, потому что, как бы ни старались исследователи (а они действительно стараются), немногие архитектуры могут превзойти хорошо настроенный LSTM.Однако человеческая память не работает как LSTM; Когда мы занимаемся задачами в повседневной жизни, мы вспоминаем и обращаем внимание на конкретные контекстно-зависимых воспоминаний и мало что еще. Когда я возвращаюсь домой и еду в местный продуктовый магазин, я использую воспоминания из последних ста раз, когда я ехал по этому маршруту, а не воспоминания о том, как добраться из Кэмден-Тауна до площади Пикадилли в Лондоне - даже если эти воспоминания свежий в недавнем опыте. В этом смысле наша память кажется почти запрашиваемой контекстом : в зависимости от того, где я нахожусь и что делаю, мой мозг знает, какие воспоминания будут мне полезны.

В глубоком обучении это главный тезис, лежащий в основе внешней памяти на основе ключей и значений. Эта идея не нова; «Нейронные машины Тьюринга», одна из первых и любимых статей, которые я когда-либо читал, дополнила нейронные сети дифференцируемым хранилищем внешней памяти, доступным через векторнозначные головки «чтения» и «записи» в определенные места. Мы можем легко представить, что это будет расширено до RL, где на любом заданном временном шаге агенту предоставляются как , так и памяти для наблюдения за окружающей средой, соответствующие его текущему состоянию.Именно на этом основана недавняя архитектура MERLIN.

MERLIN состоит из 2 компонентов: предсказателя на основе памяти (MBP) и сети политик. MBP отвечает за сжатие наблюдений в полезные низкоразмерные «переменные состояния» для сохранения непосредственно в матрице памяти «ключ-значение». Он также отвечает за передачу соответствующих воспоминаний в политику, которая использует эти воспоминания и текущее состояние для вывода действий.

Эта архитектура может показаться немного сложной, но помните, что политика - это просто повторяющиеся действия вывода сети, а MBP на самом деле выполняет только 3 вещи:

Конвейер выглядит примерно так: входное наблюдение сначала кодируется, а затем передается через MLP, выходные данные которого добавляются к предыдущему распределению по следующей переменной состояния для получения апостериорного распределения . Это апостериорное распределение, которое обусловлено всеми предыдущими действиями / наблюдениями, а также этим новым наблюдением, затем дискретизируется для создания переменной состояния z_t. Затем z_t загружается в LSTM MBP, вывод которой используется для обновления предыдущего и для чтения / записи из памяти с помощью векторных «ключей чтения» и «ключей записи» - оба из которых создаются как линейная функция от скрытое состояние LSTM.Наконец, ниже по потоку, сеть политик использует как z_t, так и считанные данные из памяти для выполнения действия.

Ключевой деталью является то, что для обеспечения того, чтобы представления состояний были полезными , MBP также обучен предсказывать награду из текущего состояния z_t, поэтому изученные представления имеют отношение к поставленной задаче.

Обучение MERLIN немного сложно; поскольку MBP предназначен для использования в качестве полезной «модели мира», трудноразрешимой цели, вместо этого он обучен оптимизации потерь вариационной нижней границы (VLB).(Если вы не знакомы с VLB, я нашел этот пост весьма полезным, но он вам не нужен, чтобы понимать MERLIN). У этой потери VLB есть два компонента:

  1. KL-дивергенция между априорным и апостериорным распределениями вероятностей по этой следующей переменной состояния, где апостериорное дополнительно обусловлено новым наблюдением. Минимизация этого KL гарантирует, что эта новая переменная состояния согласуется с предыдущими наблюдениями / действиями.
  2. Потеря восстановления переменной состояния, в которой мы пытаемся воспроизвести входное наблюдение (например,грамм. изображение, предыдущее действие и т. д.) и спрогнозируйте вознаграждение на основе переменной состояния . Если эта потеря небольшая, мы нашли переменную состояния, которая является точным представлением наблюдения и полезна для выполнения действий, дающих высокую награду.

Вот наши окончательные потери VLB, первый член - реконструкция, а второй - дивергенция KL:

Потеря сети полиса - это немного более причудливая версия потери градиента политики, которую мы обсуждали выше с A3C; он использует алгоритм под названием Generalized Advantage Estimation Algorithm, подробности которого выходят за рамки этой публикации (но могут быть найдены в разделе 4.4 приложения к документу MERLIN), но он похож на стандартное обновление градиента политики, показанное ниже:

После обучения MERLIN должен иметь возможность прогнозировать моделирование мира с помощью представлений состояний и памяти, а его политика должна иметь возможность использовать эти прогнозы для совершения полезных действий.

MERLIN - не единственная работа с глубоким RL, в которой используются хранилища внешней памяти - еще в 2016 году исследователи уже применяли эту идею в MQN, или Q-сети памяти, для решения лабиринтов в Minecraft - но эта концепция использования Память как предсказательная модель мира имеет уникальную нейробиологическую привлекательность.Другой пост на Medium проделал большую работу по изучению этой идеи, поэтому я не буду повторять все это здесь, но ключевой аргумент заключается в том, что наш мозг, вероятно, не функционирует как машина «ввода-вывода», как интерпретируются большинство нейронных сетей. . Вместо этого он функционирует как механизм прогнозирования, и наше восприятие мира на самом деле является лишь лучшими догадками мозга о причинах наших сенсорных сигналов. Нейробиолог Амил Сет красиво резюмирует теорию XIX века Германа фон Гельмгольца:

Мозг заперт внутри костного черепа.Все, что он получает, - это неоднозначные и шумные сенсорные сигналы, которые лишь косвенно связаны с объектами в мире. Следовательно, восприятие должно быть процессом вывода, в котором неопределенные сенсорные сигналы объединяются с предшествующими ожиданиями или «убеждениями» о том, как устроен мир, чтобы сформировать оптимальные гипотезы мозга о причинах этих сенсорных сигналов.

Предиктор MERLIN на основе памяти предназначен для выполнения этой самой цели прогнозирующего вывода . Он кодирует наблюдения и объединяет их с внутренними априорными значениями для создания «переменной состояния», которая фиксирует некоторое представление - или причину - входных данных и сохраняет эти состояния в долговременной памяти, чтобы агент мог действовать в соответствии с ними позже.

Интересно, что концепция мозга как механизма прогнозирования фактически возвращает нас к первому вопросу RL, который мы хотим изучить: как мы можем эффективно учиться у окружающей среды? В конце концов, если мы не переходим прямо от наблюдений к действиям, как нам лучше всего взаимодействовать с окружающим миром и учиться у него?

Традиционно в RL мы можем проводить обучение без модели или обучение на основе модели . В безмодельном RL мы учимся напрямую отображать необработанные наблюдения за окружающей средой на значения или действия.В RL на основе моделей мы сначала изучаем переходную модель среды на основе необработанных наблюдений, а затем используем эту модель для выбора действий.

Внешний круг обозначает RL на основе модели; цикл «прямой RL» описывает RL

без модели. Возможность планировать на основе модели намного эффективнее, чем необходимость работать на основе чистого метода проб и ошибок, как при обучении без модели. Однако изучение хорошей модели часто бывает очень трудным, а объединение ошибок из-за несовершенства модели обычно приводит к плохой работе агента.По этой причине многие ранние успехи в глубоком RL (например, DQN и A3C) были безмодельными.

Тем не менее, границы между безмодельным RL и основанным на моделях RL были размыты еще в алгоритме Dyna в 1990 году, в котором изученная модель используется для создания симулированного опыта, чтобы помочь обучить безмодельную политику. Теперь, в 2018 году, был представлен новый алгоритм «Агенты с расширенным воображением», который напрямую сочетает в себе два подхода.

В Imagination-Augmented Agents (I2A) окончательная политика является функцией как компонента без модели, так и компонента на основе модели.Компонент, основанный на модели, называется «воображением» мира агентом и состоит из воображаемых траекторий , развернутых внутренней выученной моделью агента. Ключевым моментом, однако, является то, что компонент, основанный на модели, также имеет на конце кодировщик, который агрегирует воображаемые траектории, и интерпретирует их, позволяя агенту научиться игнорировать свое воображение, когда это необходимо . В этом смысле, если агент обнаруживает, что его внутренняя модель проецирует бесполезные и неточные траектории, он может научиться игнорировать модель и продолжить свою свободную от модели руку.

На рисунке выше показано, как работает I2A. Наблюдение сначала передается как компонентам, не связанным с моделью, так и компонентам на основе модели. В компоненте, основанном на модели, n различных траекторий «воображаются» на основе n возможных действий, которые могут быть предприняты в текущем состоянии. Эти траектории получаются путем ввода действия и состояния в модель внутренней среды, перехода к новому воображаемому состоянию, выполнения максимального следующего действия в этом и т. Д.Политика дистиллированного воображения (которая сохраняется аналогично окончательной политике посредством потери кросс-энтропии) выбирает следующие действия. После некоторых фиксированных k шагов эти траектории кодируются и агрегируются вместе и передаются в сеть политик вместе с выходными данными безмодельного компонента. Важно отметить, что кодирование позволяет политике интерпретировать воображаемые траектории наиболее полезным способом - игнорировать их, если это необходимо, извлекать информацию, не связанную с вознаграждением, когда она доступна, и так далее.

Политика обучается с помощью стандартной политики градиентной потери с преимуществом, аналогично A3C и MERLIN, так что теперь это должно быть вам знакомо:

Кроме того, между фактической политикой и воображаемой политикой внутренней модели добавляется потеря дистилляции политики, для обеспечения того, чтобы воображаемая политика выбирала действия, аналогичные тем, что сделал бы текущий агент:

I2A превосходит ряд базовых показателей, включая алгоритм планирования MCTS (поиск по дереву Монте-Карло). Он также может хорошо работать в экспериментах, где его компонент, основанный на модели, намеренно ограничен, чтобы делать плохие прогнозы, демонстрируя, что он может при необходимости пойти на компромисс от использования модели в пользу безмодельных методов.Интересно, что I2A с плохой внутренней моделью на самом деле немного превзошел I2A с хорошей моделью в конечном итоге - авторы списали это либо на случайную инициализацию, либо на шумную внутреннюю модель, обеспечивающую некоторую форму регуляризации в конце, но это определенно область для дальнейшего исследования.

Тем не менее, I2A завораживает, потому что в некотором смысле это именно то, как мы действуем в этом мире. Мы всегда планируем и прогнозируем будущее на основе некоторой ментальной модели окружающей среды, в которой мы находимся, но мы также склонны осознавать, что наши ментальные модели могут быть совершенно неточными, особенно когда мы находимся в новой среде. или ситуаций, которых мы никогда не видели.В этом случае мы действуем методом проб и ошибок, как и методы без моделей, но мы также используем этот новый опыт для обновления нашей внутренней ментальной модели.

В настоящее время ведется большая работа по объединению методов, основанных на моделях, и методов без моделей. Berkeley AI разработал модель временной разницы (TDM), которая также имеет очень интересную предпосылку. Идея состоит в том, чтобы позволить агенту устанавливать более абстрактные во времени цели, то есть «находиться в состоянии X за k временных шагов», и изучать эти долгосрочные переходы модели, одновременно максимизируя вознаграждение, полученное за каждые k шагов.Это дает нам плавный переход между исследованием действий без использования моделей и планированием на основе моделей над высокоуровневыми целями, что, если задуматься, как бы возвращает нас к интуиции в иерархическом RL.

Все эти исследовательские работы направлены на достижение одной и той же цели: достижение той же (или более высокой) производительности, что и безмодельные методы, с такой же эффективностью выборки, которую могут обеспечить основанные на моделях методы.

Модели Deep RL действительно сложно обучить, точка .Но из-за этой трудности мы были вынуждены разработать невероятный набор стратегий, подходов и алгоритмов, чтобы использовать возможности глубокого обучения для классических (и некоторых неклассических) задач управления.

Этот пост был очень, очень неполным обзором глубокого RL - есть много исследований, которые я не охватил, и еще больше, о которых я даже не подозреваю. Тем не менее, мы надеемся, что этот разброс направлений исследований в области памяти, иерархии и воображения дает представление о том, как мы можем начать решать некоторые повторяющиеся проблемы и узкие места в этой области.Если вы думаете, что я упускаю что-то важное, вероятно, я пропускаю - дайте мне знать, что это такое, в комментариях. :) А пока счастливого взлома RL!

.

Введение в различные алгоритмы обучения с подкреплением. Часть I (Q-Learning, SARSA, DQN, DDPG) | Автор: Kung-Hsiang, Huang (Steeve)

Как правило, RL-установка состоит из двух компонентов: агента и среды.

Иллюстрация обучения с подкреплением (https://i.stack.imgur.com/eoeSq.png)

Затем среда относится к объекту, над которым действует агент (например, к самой игре в игре Atari), а агент представляет Алгоритм RL. Среда начинается с отправки состояния агенту, который затем на основе своих знаний предпринимает действие в ответ на это состояние.После этого среда отправляет пару следующих состояний и вознаграждение обратно агенту. Агент обновит свои знания с помощью награды, возвращаемой средой, чтобы оценить свое последнее действие. Цикл продолжается до тех пор, пока среда не отправит терминальное состояние, которое заканчивается эпизодом.

Большинство алгоритмов RL следуют этому шаблону. В следующих параграфах я кратко расскажу о некоторых терминах, используемых в RL, чтобы облегчить наше обсуждение в следующем разделе.

Определение

  1. Действие (A): все возможные действия, которые может предпринять агент.
  2. Состояние (S): текущая ситуация, возвращаемая средой.
  3. Награда (R): немедленный возврат из среды для оценки последнего действия.
  4. Политика (π): Стратегия, которую агент использует для определения следующего действия на основе текущего состояния.
  5. Стоимость (V): ожидаемая долгосрочная доходность с учетом скидки, в отличие от краткосрочного вознаграждения R. Vπ (s) определяется как ожидаемая долгосрочная доходность π политики раскола текущего состояния.
  6. Q-значение или значение действия (Q): Q-значение аналогично значению Value, за исключением того, что оно принимает дополнительный параметр, текущее действие a . Qπ (s, a) относится к долгосрочному возврату текущего состояния s , предпринимая действия a в соответствии с политикой π.

Без модели по сравнению с На основе модели

Модель предназначена для моделирования динамики окружающей среды. То есть модель изучает вероятность перехода T (s1 | (s0, a)) из пары текущего состояния s 0 и действия a в следующее состояние s 1 . Если вероятность перехода успешно изучена, агент будет знать, насколько вероятно войти в определенное состояние с учетом текущего состояния и действия.Однако алгоритмы, основанные на моделях, становятся непрактичными по мере роста пространства состояний и пространства действий (S * S * A для табличной настройки).

С другой стороны, алгоритмы без моделей полагаются на метод проб и ошибок для обновления своих знаний. В результате ему не требуется место для хранения всей комбинации состояний и действий. Все алгоритмы, обсуждаемые в следующем разделе, попадают в эту категорию.

Соответствие политике и политике Вне политики

Агент, подключенный к политике, изучает значение на основе своего текущего действия, производного от текущей политики, тогда как его часть, не связанная с политикой, узнает его на основе действия a *, полученного из другой политики.В Q-обучении такой политикой является жадная политика. (Мы поговорим об этом подробнее в Q-Learning и SARSA)

2.1 Q-Learning

Q-Learning - это внеполитический алгоритм RL без моделей, основанный на хорошо известном уравнении Беллмана:

Уравнение Беллмана (https : //zhuanlan.zhihu.com/p/21378532? refer = intelligentunit)

E в приведенном выше уравнении относится к математическому ожиданию, а ƛ - к коэффициенту дисконтирования. Мы можем переписать его в виде Q-значения:

Уравнение Беллмана в форме Q-значения (https: // zhuanlan.zhihu.com/p/21378532?refer=intelligentunit)

Оптимальное значение Q, обозначенное как Q *, может быть выражено как:

Оптимальное значение Q (https://zhuanlan.zhihu.com/p/21378532?refer= Intelligentunit)

Цель состоит в том, чтобы максимизировать Q-значение. Прежде чем погрузиться в метод оптимизации Q-value, я хотел бы обсудить два метода обновления значений, которые тесно связаны с Q-обучением.

Итерация политики

Итерация политики запускает цикл между оценкой политики и ее улучшением.

Итерация политики (http://blog.csdn.net/songrotek/article/details/51378582)

Оценка политики оценивает функцию ценности V с помощью жадной политики, полученной в результате последнего улучшения политики. С другой стороны, улучшение политики обновляет политику действием, которое максимизирует V для каждого состояния. Уравнения обновления основаны на уравнении Беллмана. Он продолжает повторяться до схождения.

Псевдокод для изменения политики (http://blog.csdn.net/songrotek/article/details/51378582)

Итерация значения

Итерация значения содержит только один компонент.Он обновляет функцию ценности V на основе оптимального уравнения Беллмана.

Оптимальное уравнение Беллмана (http://blog.csdn.net/songrotek/article/details/51378582) Псевдокод для изменения значений (http://blog.csdn.net/songrotek/article/details/51378582)

После итерация сходится, оптимальная политика напрямую получается путем применения функции максимального аргумента для всех состояний.

Обратите внимание, что эти два метода требуют знания вероятности перехода p , что указывает на то, что это алгоритм на основе модели.Однако, как я упоминал ранее, алгоритм на основе модели страдает проблемой масштабируемости. Так как же Q-Learning решает эту проблему?

Q-Learning Update Equation (https://www.quora.com/What-is-the-difference-between-Q-learning-and-SARSA-learning)

α относится к скорости обучения (т.е. насколько быстро мы приближается к цели). Идея Q-Learning во многом основана на итерациях значений. Однако уравнение обновления заменяется приведенной выше формулой. В результате нам больше не нужно беспокоиться о вероятности перехода.

Псевдокод Q-обучения (https://martin-thoma.com/images/2016/07/q-learning.png)

Обратите внимание, что следующее действие a ' выбрано для максимизации Q-значения следующего состояния. следования текущей политике. В результате Q-обучение относится к категории вне политики.

2.2 Состояние-действие-награда-государство-действие (SARSA)

SARSA очень напоминает Q-обучение. Ключевое различие между SARSA и Q-Learning заключается в том, что SARSA - это алгоритм, соответствующий политике. Это означает, что SARSA изучает значение Q на основе действия, выполняемого текущей политикой, а не жадной политикой.

SARSA Update Equation (https://www.quora.com/What-is-the-difference-between-Q-learning-and-SARSA-learning)

Действие a_ (t + 1) - это действие, выполняемое в следующее состояние s_ (t + 1) согласно текущей политике.

Псевдокод SARSA (https://martin-thoma.com/images/2016/07/sarsa-lambda.png)

Из псевдокода выше вы можете заметить, что выполняются два выбора действий, которые всегда соответствуют текущей политике. Напротив, Q-обучение не имеет ограничений для следующего действия, пока оно максимизирует значение Q для следующего состояния.Следовательно, SARSA - это алгоритм, основанный на политике.

2.3 Deep Q Network (DQN)

Хотя Q-обучение - очень мощный алгоритм, его основной недостаток - отсутствие универсальности. Если вы рассматриваете Q-обучение как обновление чисел в двумерном массиве (пространство действий * пространство состояний), оно, по сути, напоминает динамическое программирование. Это указывает на то, что для состояний, которые агент Q-Learning не видел раньше, он не знает, какое действие предпринять. Другими словами, агент Q-Learning не имеет возможности оценивать значение для невидимых состояний.Чтобы справиться с этой проблемой, DQN избавляется от двумерного массива, введя нейронную сеть.

DQN использует нейронную сеть для оценки функции Q-value. Входом для сети является ток, а выходом - соответствующее значение Q для каждого действия.

DQN Пример Atari (https://zhuanlan.zhihu.com/p/25239682)

В 2013 году DeepMind применил DQN к игре Atari, как показано на рисунке выше. Входными данными является необработанное изображение текущей игровой ситуации. Он прошел через несколько слоев, включая сверточный слой, а также полностью связанный слой.Результатом является Q-значение для каждого действия, которое может предпринять агент.

Вопрос сводится к следующему: Как мы обучаем сеть?

Ответ заключается в том, что мы обучаем сеть на основе уравнения обновления Q-обучения. Напомним, что целевое значение Q для Q-обучения:

Целевое значение Q (https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf)

ϕ эквивалентно состоянию

.

What is, Algorithms, Applications, Example