Главное меню

Схема армирования фундамента


схема, чертеж и пошаговая инструкция по укладке арматуры своими руками, как правильно уложить каркас, какое должно быть расстояние

Чтобы выстроить малый дом в 1-2 этажа, хоз. постройку, придорожный магазинчик или гараж устраивается ленточный фундамент.

Это недорогой и надежный вариант при возведении строений малой этажности.

На его заливку расходуется минимум материалов и времени.

Бетон сам по себе довольно хрупкий и подвержен разрушению. Для его упрочнения используется арматурный каркас.

Строительные работы до начала процесса

Перед началом армирования необходимо сделать чертеж фундамента. Он должен подпирать внешние стены и несущие внутренние перегородки. После производится расчет арматурного каркаса.

Перед непосредственным началом строительных работ по вязке скелета необходимо:

  1. Выкопать траншею – согласно расположению и размерам чертежа.
  2. Собрать опалубку внутри траншеи из подходящих материалов.
  3. Организовать песчаную подушку в качестве подложки для равномерности распределения бетона.

Главные элементы для обустройства арматурного каркаса

От правильно собранной конструкции зависит ее надежность и долговечность.

Любой каркас ленточного фундамента включает такие арматурные элементы:

Правильный остов повышает несущую способность строения. Он также препятствует воздействию деформационных сил извне.

Какие схемы существуют?

Существует две установленные схемы продольной установке арматуры:

Если принять ширину основания для фундамента более чем 500 мм, то используется вторая схема. Это зависит от норм, которые предписывают рядом расположенные стержни укладывать с интервалом 400 мм друг от друга.


Боковая продольная арматура должна отходить от бетонных стенок на 50-70 мм. Это способствует сохранению защитного слоя бетона на каркасе.

При возведении фундамента любой высоты применяется два пояса армирования:

Типовые схемы по устройству углов и Т-образных примыканий применяются хомуты:

На рисунке изображен чертеж схемы армирования ленточного фундамента с применением Г и П элементов:

Гнутые элементы должны быть продолжением основных продольных прутьев и «наслаиваться» на них на 600-700 мм, но не короче 50 диаметров арматуры. Шаг арматуры в местах расположения углов вычисляется по соотношению: 0,75 х высоты фундамента.

Детальная информация по армированию содержится в СНиП 2.03.01-84 и СНиП 2.02.01-83.

Выбор и расчет

При армировании необходимо использовать арматуру класса АIII. Она отличается рифленой поверхностью. Ее применяют для продольных и поперечных хлыстов, а также в упрочнении углов.

Такой тип, по сравнению с гладкой, имеет лучшую сцепляющую способность с бетоном. Гладкие класса АI применяют для вертикальных элементов.

Допустимо применять только горячекатаную сталь марок:

В настоящее время помимо стандартных металлических прутков применяют арматуру из стеклопластика. Ее прочность выше, чем у стальной. Но такой тип чаще используется в крупногабаритном строительстве для уменьшения нагрузки.

Упрощенный план расчета:

  1. Чтобы рассчитать сечение рабочих прутьев необходимо взять 0,1% площади сечения фундамента, а именно, для фундамента длиной:
    • менее 3м применимо сечение в 10мм;
    • более 3м — сечение необходимо применять не менее 12 мм, но не более 40 мм.
  2. Горизонтальная арматура составляет более 25% толщины рабочего прутка (минимальное значение 6 мм).
  3. Вертикальные стержни рассчитываются согласно высоты фундамента:
    • менее 0,8м принимается сечение в 6мм;
    • более 0,8м принимается сечение в 8мм и более.

Данные формулы применимы только при возведении небольших построек. Габаритные строения в соответствие со СНиП требуют учитывать запас арматуры для обеспечения достаточной прочности.

При планировании постройки в три этажа и выше, либо при наличии подвижных грунтов, предпочтительнее заказать расчет и схему в специализированной строительной фирме.

Еще больше информации о расчете арматуры в видео:

Необходимые инструменты и материалы

Прежде чем приступить к строительно-монтажным работам нужно заранее собрать необходимые инструменты и приспособления:

Обустройство опалубки и подушки

Для устройства опалубки используются ОСБ-плиты, деревянные конструкции, фанера или ДВП. Материал должен удерживать бетон и не сгибаться под его давлением. Чем выше фундамент, тем прочнее требуется материал.

Сборка опалубки поэтапно:

Следом устраивается песчаная подушка. Ее толщина варьируется в пределах 200 мм. При этом песок следует предварительно утрамбовать. Для быстрой трамбовки достаточно намочить песок водой.

Как правильно армировать — пошаговая инструкция

Связывание арматуры для остова делается либо сразу в опалубке, либо за ее пределами с последующей установкой в местах использования.

Этапы вязки «скелета» фундамента:

Независимо от того, где происходит вязка: непосредственно в опалубке или же отдельно с последующей установкой в опалубку – последовательность шагов неизменна. Если части каркаса собираются отдельно, то их необходимо хорошо связать между собой непосредственно в опалубке.

Все пересечения арматуры должны вязаться проволокой. Иногда допустимо применять хомуты из пластика. Использование сварочного аппарата для соединения элементов запрещается строительными нормами.

Как правильно гнуть арматуру?

Правильность работы с инструментами, которые способны согнуть металлические основы для дальнейшего использования в процессе армирования, позволяет создавать правильные и надежные гнутые элементы костяка.

Чтобы согнуть металлический прут существует два способа:

Горячий метод делает место сгиба хрупким. Для дальнейшей работы необходимо остудить готовое изделие на открытом воздухе.

Раскрой

Если диаметр прутьев не превышает 12 мм, для резки применимы ножовка по металлу, либо ленточная пила. Если диаметр штырей больше 12 мм, лучше применять «болгарку» со специальной насадкой, предназначенной для «мягкой» стали.

Автоматический инструмент способствует ускорению строительно-монтажных работ, но требует аккуратной работы, чтобы избежать травматизма.

Расположение

Арматура должна отступать от края фундамента вовнутрь на 50-60 мм. Это предотвратит коррозию металла внутри фундамента и создаст защитный слой из бетона. Глубже делать не рекомендуется, так как остов перестанет выполнять свои функции и противостоять внешним воздействиям среды на бетон.

Для создания цельносвязанного каркаса необходимо соединять вертикальные и поперечные стержни одним хомутом.

Для создания защитного бетонного слоя внизу фундамента под каркас на расстоянии около 0,5 метров необходимо подкладывать кирпичи. При этом не следует допускать прогибов скелета.

Как правильно уложить продольную арматуру?

Продольная арматура должна обеспечивать равномерность распределение деформационных сил по всему фундаменту.

То есть она делает бетон работоспособным. В п. 7.3.6 СНиП 52-01-2003 указывается, что шаг между продольными армирующими прутами нужно рассчитывать исходя из их типа (стены, плиты перекрытия, балки, колонны), а также высоты и ширины поперечного сечения.

Но при этом расстояние между продольными прутками не должно быть более 400-500 мм. При укладке следует использовать целые хлысты без соединений, удлиненные на 1,5-2 метра для того, чтобы сделать загибы по углам. Это повысит их прочность.

Укладка поперечной

Правила поперечного армирования рассмотрены в п. 7.3.7 СНиП 52-01-2003. Вертикальная и поперечная арматура размещается с отступом до 300 мм друг от друга.

Но при этом это расстояние не должно быть меньше половины высоты основания. Она забирает на себя часть поперечной нагрузки, которая воздействует на бетон и предупреждает формирование наклонных трещин.

Процесс вязки

Для вязки существует специализированная «вязальная» проволока. Чтобы правильно выбрать необходимый материал, нужно обратить внимание на его состав.

В состав вязальной проволоки входит низкоуглеродистая сталь. Отличается она белым цветом.

В процессе связывания достаточно приобрести проволоку диаметром от 1,0 до 1,4 мм. Если использовать минимальную толщину, то материал легко рвется. При использовании более толстой продукции в процессе монтажа будет сложно ее скручивать.

Для вязки двух элементов остова необходимо подготовить отрезы длиной 250-500мм, для соединения трех штырей нужны отрезы не менее 500мм. Отрезаемая длина зависит от диаметра связываемых материалов. При связывании нескольких элементов, вязальную проволоку следует складывать пополам.

Длину скрутки не следует делать слишком большой. Достаточно 3-5 витков для создания прочного соединения.

Углы основания

Чтобы обеспечить гармоничный переход двух векторов разной нагрузки, нужно правильно произвести армирование углов. В этом случае применимы гнутые элементы.

При достаточной длине продольных стержней лучше будет завести хлысты за угол на 600-700мм. Цельные элементы значительно повысят прочность отдельных хомутов.

При этом шаг пояса из вертикальной и поперечной арматуры должен составлять ½ шага прямых участков ленточного фундамента.

Возможные ошибки и как исправить

Малый напуск арматуры или его отсутствие в каркасе недопустим, так как в процессе бетонирования костяк может двигаться.

Это может привести к нарушению готового изделия. Лучше оставлять припуски по 200 мм.

Сварка элементов или связывание неподходящим материалом, например, веревкой недопустимы.

Сварка делает узел крепления хрупким, а веревка не обеспечивает достаточной прочности соединения.

Армирование углов без напусков. Армирование углов внахлест хлыстом может привести к быстрому разрушению и неравномерному переходу нагрузок между двумя частями фундаментной конструкции. Для решения проблемы включаются добавочные гнутые элементы.

Заключение

В технологическом плане армирование ленточного фундамента – процесс запутанный и трудоемкий. Но его вполне реально осуществить самостоятельно с использованием инструкций. Достаточно использовать силу двух-трех рабочих и подготовить несколько простых расчетов. Такой фундамент станет хорошим началом для будущего негабаритного строения.

Вконтакте

Facebook

Twitter

Одноклассники

Мой мир

схемы, расчет диаметра арматуры, расположение по углам и в подошве

Ленточный фундамент имеет нестандартную геометрию: его длинна в десятки раз больше глубины и ширины. Из-за такой конструкции почти все нагрузки распределяются вдоль ленты. Самостоятельно бетонный камень не может компенсировать эти нагрузки: его прочности на изгиб недостаточно. Для придания конструкции повышенной прочности используют не просто бетон, а железобетон — это бетонный камень с расположенными внутри стальными элементами — стальной арматурой. Процесс закладки металла называется армированием ленточного фундамента. Своими руками его сделать несложно, расчет элементарный, схемы известны. 

Количество, расположение, диаметры и сорт арматуры — все это должно быть прописано в проекте. Эти параметры зависят от многих факторов: как от геологической обстановки на участке, так и от массы возводимого здания. Если вы хотите иметь гарантированно прочный фундамент — требуется проект. С другой стороны, если вы строите небольшое здание, можно попробовать на основании общих рекомендаций все сделать своими руками, в том числе и спроектировать схему армирования.

Содержание статьи

Схема армирования

Расположение арматуры в ленточном фундаменте в поперечном сечении представляет собой прямоугольник. И этому есть простое объяснение: такая схема работает лучше всего.

Армирование ленточного фундамента при высоте ленты не более 60-70 см

На ленточный фундамент действуют две основные силы: снизу при морозе давят силы пучения, сверху — нагрузка от дома. Середина ленты при этом почти не нагружается. Чтобы компенсировать действие этих двух сил обычно делают два пояса рабочей арматуры: сверху и снизу. Для мелко- и средне- заглубленных фундаментов (глубиной до 100 см) этого достаточно. Для лент глубокого заложения требуется уже 3 пояса: слишком большая высота требует усиления.

О глубине заложения фундамента прочесть можно тут.

Для большинства ленточных фундаментов армирование выглядит именно так

Чтобы рабочая арматура находилась в нужном месте, ее определенным образом закрепляют. И делают это при помощи более тонких стальных прутьев. Они в работе не участвуют, только удерживают рабочую арматуру в определенном положении — создают конструкцию, потому и называется этот тип арматуры конструкционным.

Для ускорения работы при вязке арматурного пояса используют хомуты

Как видно на схеме армирования ленточного фундамента, продольные прутки арматуры (рабочие) перевязываются горизонтальными и вертикальными подпорками. Часто их делают в виде замкнутого контура — хомута. С ними работать проще и быстрее, а конструкция получается более надежной.

Какая арматура нужна

Для ленточного фундамента используют два типа прутка. Для продольных, которые несут основную нагрузку, требуется класс АII или AIII. Причем профиль — обязательно ребристый: он лучше сцепляется с бетоном и нормально передает нагрузку. Для конструкционных перемычек берут более дешевую арматуру: гладкую первого класса АI, толщиной 6-8 мм.

В последнее время появилась на рынке стеклопластиковая арматура. По заверениям производителей она имеет лучшие прочностные характеристики и более долговечна. Но использовать ее в фундаментах жилых зданий многие проектировщики не рекомендуют. По нормативам это должен быть железобетон. Характеристики этого материала давно известны и просчитаны, разработаны специальные профили арматуры, которые способствуют тому, что металл и бетон соединяются в единую монолитную конструкцию.

Классы арматуры и ее диаметры

Как поведет себя бетон в паре со стеклопластиком, насколько прочно такая арматура будет сцепляться с бетоном, насколько успешно эта пара будет сопротивляться нагрузкам — все это неизвестно и не изучено. Если хотите экспериментировать — пожалуйста, используйте стекловолокно. Нет — берите железную арматуру.

Расчет армирования ленточного фундамента своими руками

Любые строительные работы нормируются ГОСТами или СНиПами. Армирование — не исключение. Оно регламентируется СНиП 52-01-2003 «Бетонные и железобетонные конструкции». В этом документе указывается минимальное количество требуемой арматуры: оно должно быть не менее 0,1% от площади поперечного сечения фундамента.

Определение толщины арматуры

Так как ленточный фундамент в разрезе имеет форму прямоугольника, то площадь сечения находится перемножением длин его сторон. Если лента имеет глубину 80 см и ширину 30 см, то площадь будет 80 см*30 см = 2400 см2.

Теперь нужно найти общую площадь арматуры. По СНиПу она должна быть не менее 0,1%. Для данного примера это 2,8 см2. Теперь методом подбора определим, диаметр прутков и их количество.

Цитаты из СНиПа, которые относятся к армированию (чтобы увеличить картинку щелкните по ней правой клавишей мышки)

Например, планируем использовать арматуру диаметром 12 мм. Площадь ее поперечного сечения 1.13 см2 (вычисляется по формуле площади окружности). Получается, чтобы обеспечить рекомендации (2,8 см2)  нам понадобится три прутка (или говорят еще «нитки»), так как двух явно мало: 1,13 * 3 = 3,39 см2, а это больше чем 2,8 см2, которые рекомендует СНиП. Но три нитки на два пояса разделить не получится, а нагрузка будет и с той и с другой стороны значительной. Потому укладывают четыре, закладывая солидный запас прочности.

Чтобы не закапывать лишние деньги в землю, можно попробовать уменьшить диаметр арматуры: рассчитать под 10 мм. Площадь этого прутка 0,79 см2. Если умножить на 4 (минимальное количество прутков рабочей арматуры для ленточного каркаса), получим 3,16 см2, чего тоже хватает с запасом. Так что для данного варианта ленточного фундамента можно использовать ребристую арматуру II класса диаметром 10 мм.

Армирование ленточного фундамента под коттедж проводят с использованием прутков с разным типом профиля

Как рассчитать толщину продольной арматуры для ленточного фундамента разобрались, нужно определить, с каким шагом устанавливать вертикальные и горизонтальные перемычки.

Шаг установки

Для всех этих параметров тоже есть методики и формулы. Но для небольших строений поступают проще. По рекомендациям стандарта расстояние между горизонтальными ветками не должно быть больше 40 см. На этот параметр и ориентируются.

Как определить на каком расстоянии укладывать арматуру? Чтобы сталь не подвергалась коррозии, она должна находится в толще бетона. Минимальное расстояние от края — 5 см. Исходя из этого, и рассчитывают расстояние между прутками: и по вертикали и по горизонтали оно на 10 см меньше габаритов ленты. Если ширина фундамента 45 см, получается, что между двумя нитками будет расстояние 35 см (45 см — 10 см = 35 см), что соответствует нормативу (меньше 40 см).

Шаг армирования ленточного фундамента — это расстояние между двумя продольными прутками

Если лента у нас 80*30 см, то продольная арматура находится одна от другой на расстоянии 20 см (30 см — 10 см). Так как для фундаментов среднего заложения (высотой до 80 см) требуется два пояса армирования, то один пояс от другого располагается на высоте 70 см (80 см — 10 см).

Теперь о том, как часто ставить перемычки. Этот норматив тоже есть в СНиПе: шаг установки вертикальных и горизонтальных перевязок должен быть не более 300 мм.

Все. Армирование ленточного фундамента своими руками рассчитали. Но учтите, что ни масса дома, ни геологические условия не учитывались.  Мы основывались на том, что на этих параметрах основывались при определении размеров ленты.

Армирование углов

В конструкции ленточного фундамента самое слабое место — углы и примыкание простенков. В этих местах соединяются нагрузки от разных стен. Чтобы они успешно перераспределялись, необходимо арматуру грамотно перевязать. Просто соединить ее неправильно: такой способ не обеспечит передачу нагрузки. В результате через какое-то время в ленточном фундаменте появятся трещины.

Правильная схема армирования углов: используются или сгоны — Г-образные хомуты, или продольные нитки делают длиннее на 60-70 см и загибают за угол

Чтобы избежать такой ситуации, при армировании углов используют специальные схемы: пруток с одной стороны загибают на другую. Этот «захлест» должен быть не менее 60-70 см. Если длины продольного прутка на загиб не хватает, используют Г-образные хомуты со сторонами тоже не менее 60-70 см. Схемы их расположения и крепления арматуры приведены на фото ниже.

По такому же принципу армируются примыкания простенков. Также желательно арматуру брать с запасом и загибать. Также возможно использование Г-образных хомутов.

Схема армирования примыкания стен в ленточном фундаменте (чтобы увеличить картинку щелкните по ней правой клавишей мышки)

Обратите внимание: в обоих случаях, в углах шаг установки поперечных перемычек уменьшен в два раза. В этих местах они уже становятся рабочими — участвуют в перераспределении нагрузки.

Армирование подошвы ленточного фундамента

На грунтах с не очень высокой несущей способностью, на пучнистых почвах или под тяжелые дома, часто ленточные фундаменты делают с подошвой. Она передает нагрузку на большую площадь, что придает большую стабильность фундаменту и уменьшает величину просадок.

Чтобы подошва от давления не развалилась, ее также необходимо армировать. На рисунке представлены два варианта: один и два пояса продольной арматуры. Если грунты сложные, с сильной склонностью к зимнему печению, то можно укладывать два пояса. При нормальных и среднепучнистых грунтах — достаточно одного.

Уложенные в длину пруты арматуры являются рабочими. Их, как и для ленты, берут второго или третьего класса. Располагаются друг от друга они на расстоянии 200-300 мм. Соединяются  при помощи коротких отрезков прутка.

Два способа армирования подошвы ленточного фундамента: слева для оснований с нормальной несущей способностью, справа — для не очень надежных грунтов

Если подошва неширокая (жесткая схема), то поперечные отрезки — конструктивные, в распределении нагрузки не участвуют. Тогда их делают диаметром 6-8 мм, загибают на концах так, чтобы они охватывали крайние прутки. Привязывают ко всем при помощи вязальной проволоки.

Ели подошва широкая (гибкая схема), поперечная арматура в подошве тоже является рабочей. Она сопротивляется попыткам грунта «схлопнуть» ее. Потому в этом варианте подошвы используют ребристую арматуру того же диаметра и класса, что и продольную.

Сколько нужно прутка

Разработав схему армирования ленточного фундамента, вы знаете, сколько продольных элементов вам необходимо. Они укладываются по всему периметру и под стенами. Длинна ленты будет длиной одного прутка для армирования. Умножив ее на количество ниток, получите необходимую длину рабочей арматуры. Затем к полученной цифре добавляете 20%  — запас на стыки и «перехлесты». Вот столько в метрах вам и нужно будет рабочей арматуры.

Считаете по схеме сколько продольных ниток, потом высчитываете сколько необходимо конструктивного прутка

Теперь нужно посчитать количество конструктивной арматуры. Считаете, сколько поперечных перемычек должно быть: длину ленты делите на шаг установки (300 мм или 0,3 м, если следовать рекомендациям СНиПа). Затем подсчитываете, сколько уходит на изготовление одной перемычки (ширину арматурного каркаса складываете с высотой и удваиваете). Полученную цифру умножаете на количество перемычек. К результату добавляете тоже 20% (на соединения). Это будет количество конструктивной арматуры для армирования ленточного фундамента.

По похожему принципу считаете количество, которое необходимо для армирования подошвы. Сложив все вместе, вы узнаете, сколько арматуры нужно на фундамент.

О выборе марки бетона для фундамента прочесть можно тут. 

Технологии сборки арматуры для ленточного фундамента

Армирование ленточного фундамента своими руками начинается после установки опалубки. Есть два варианта:

Оба вариант неидеальны и каждый решает, как ему будет легче. При работе непосредственно в траншее, нужно знать порядок действий:

Есть еще одна технология армирования ленточного фундамента. Каркас получается жесткий, но идет большой расход прутка на вертикальные стойки: их забивают в грунт.

Вторая технология армирования ленточного фундамента — сначала вбивают вертикальные стойки, к ним привязывают продольные нитки, а потом все соединяют поперечными

Удобнее и быстрее  всего делать армирующий пояс с использованием сформованных заранее контуров. Прут сгибают, формируя прямоугольник с заданными параметрами. Вся проблема в том, что их необходимо делать одинаковыми, с минимальными отклонениями. И требуется их большое количество. Но потом работа в траншее движется быстрее.

Армирующий пояс можно вязать отдельно, а потом установить в опалубку и связать в единое целое уже на месте

Как видите, армирование ленточного фундамента — длительный и не самый простой процесс. Но справиться можно даже одному, без помощников. Потребуется, правда, много времени. Вдвоем или втроем работать сподручнее: и прутки переносить, и выставлять их.

Армирование ленточного фундамента: схема, расчеты

Все строители знают, что армирование ленточного фундамента – необходимый этап возведения зданий, благодаря которому удается добиться нужных характеристик прочности, надежности, стойкости ко внешним воздействиям, существенно продлить срок службы. Тандем бетона и металла гарантирует наилучшие свойства, которые не может обеспечить ни один из этих материалов по отдельности.

Ленточный фундамент наиболее популярен в индивидуальном строительстве жилых зданий, так как обходится сравнительно недорого, предполагает небольшой расход материалов, быстрое и простое строительство. Но без усиления фундамента конструкция данного типа не будет обладать нужными свойствами и не прослужит долго. Поэтому упрочнение нужно делать обязательно, все работы можно осуществить своими руками.

Требования к бетону

Правильная армировка должна выполняться с использованием наиболее качественных материалов. Марка и класс бетона подбираются в соответствии с нужными показателями. Основные свойства прочности бетонных конструкций – это растяжение (Rbt,n), поперечный излом и осевое сжатие (Rb,n). Могут браться в расчет поправочные коэффициенты надежности в пределах от 1.0 до 1.5.

Требования к арматуре

Чтобы понять, какая арматура нужна для ленточного фундамента, необходимо выполнить расчеты и рассмотреть основные виды материала. Для выполнения работ используется механически упрочненная, горячекатанная строительная термически обработанная арматура. Класс выбирают по максимальным нагрузкам, учитывая характеристики на растяжение, пластичность, свариваемость, стойкость к коррозии, способность выдерживать температурные перепады и т.д.

Основные марки прутьев: стержневая горячекатанная (А), проволочная холоднодеформированная (Вр), канатная очень прочная (К). Для каркасов фундамента выбирают прутья класса по пределу текучести А400 (АIII) с серповидным рисунком по типу «елочки».

Правильное армирование предполагает использование таких видов стержней:

Чтобы понять, какую арматуру лучше использовать, нужно помнить о некоторых правилах. Для усиления основания одно-, двухэтажных зданий и легких строений подойдут прутья диаметром 10-24 миллиметра. Прочностные характеристики более толстой (и намного более дорогой) арматуры задействованы вряд ли будут.

Стержни должны быть рифлеными, так как они обеспечивают прекрасную адгезию с бетонным раствором, их толщина должна четко соответствовать указанным в документах значениям. Гладкие прутья стоят дешевле, но они не позволят создать надежный и прочный армокаркас. Использовать их можно лишь в поперечных соединениях, где отмечена не очень большая нагрузка.

При создании каркаса ленточного фундамента на однородной почве можно выбрать материал диаметром 10-14 миллиметров, на неоднородной – лучше 16-24. Если сторона здания составляет больше 3 метров, рабочее армирование монолитного фундамента делают из стержней минимум 12 миллиметров, но не более 40.

Технология требует, чтобы горизонтальные хомуты по диаметру не были меньше, чем четверть рабочих прутьев – обычно берут 6 миллиметров. Вертикальные стержни для малозагубленных фундаментов в 80 сантиметров и меньше должны составлять минимум 6 миллиметров в сечении. Все продумав, можно определить, какой диаметр прутьев нужен для разных видов работ.

Требования к армированию

До того, как армировать, нужно определиться с тем, каких размеров будет каркас, выполнить чертеж, нарисовать схему всех работ и конструкций. Геометрические размеры фундамента должны быть такими, чтобы расположение арматуры было свободным. Бетонный слой полностью покрывает каркас, защищая его от внешних воздействий, коррозии.

Минимальные расстояния между прутьями должны быть достаточными для эффективной стыковки и соблюдения всех правил технологии. В работах используется исключительно качественная арматура, в соответствии со СНиП 3.03.01. Гибка прутьев выполняется с использованием специальных приспособлений. Радиус изгиба соответствует диаметру и физическим параметрам стержней.

Видео ручной станок для гибки арматуры

И еще одно полезное видео:

Видео как гнуть арматуру работа на самодельном станке

Расчет размера, количества и диаметра арматуры

Важно сразу знать, сколько нужно арматуры, чтобы сделать арматурный каркас надежным и прочным. Зная размеры постройки, можно все тщательно просчитать.

Стандартная конфигурация каркаса для небольших домов:

Так, если нужно возвести строение площадью 150 квадратных метров, периметр внешних стен составляет 50 метров. Чтобы высчитать количество арматуры, нужно учесть все: 2 пояса продольного ряда по 3 прута это 6 прутов, умножить на 50 метров, выходит 300 метров основных прутьев. Если укладка перемычек осуществляется с шагом 30 сантиметров, получается 167 штук на 50 метров. Длина перемычек поперечных 30 сантиметров (167х0.3=100.2 метра), вертикальных – 60 (167х0.6=200.4 метра).

Получается, что на вопрос о том, сколько арматуры нужно для упрочнения дома площадью 150 квадратных метров с периметром стен 50 метров, ответ таков: 300 метров толстых рифленых прутьев и 300.6 более тонких стержней. Плюс 10-15% на запас и стыковку.

Правила армирования ленточного фундамента

Как вязать арматурную сетку самостоятельно

Нижеследующая пошаговая инструкция даст возможность узнать, как правильно сделать каркас и обеспечить фундаменту нужные свойства. Проще всего готовая арматура для ленточного фундамента вяжется на земле. Вне конструкции создаются прямолинейные участки сетки, а вот вязка углов осуществляется после опускания каркаса в траншею.

  1. Сначала нужно нарезать куски прутьев. Начинать вязку лучше с наиболее короткого участка фундамента, чтобы получить немного опыта. Резать нужно по минимуму, стараясь использовать всю длину рабочих прутов. Если в качестве примера взять ленточный фундамент шириной 40 сантиметров и высотой 120 сантиметров, то показатели получаются следующие.
  2. Со всех сторон металл заливается слоем бетона толщиной минимум 5 сантиметров. Чистые размеры каркаса по высоте – максимум 110 сантиметров, ширине – 30. Прибавляем для вязки по 2 сантиметра по обеим сторонам на нахлест. Получается, что заготовки для горизонтальных перемычек должны быть длиной около 34 сантиметров, вертикальных – около 144 сантиметров. Это для высоких фундаментов, но обычно используют основание высотой около 80 сантиметров.
  3. На ровную площадку кладут 2 прута, на расстоянии 20 см от торцов по обеим крайним сторонам вяжут горизонтальные распорки: складывают вдвое проволоку, просовывают под местом крепления и затягивают прокручиванием крючка.
  4. На расстоянии около 50 сантиметров по очереди крепят все горизонтальные распорки, конструкцию откладывают в сторону, делают еще одну такую же – это нижний и верхний каркасы, которые нужно связать вместе: приспособить упоры для обеих сеток между прутками и по вертикали по торцам по 2 распорки, прикрепить остальные куски. Аналогично нужно сделать со всеми прямыми участками конструкции.
  5. Потом на дно траншеи укладывают подкладки высотой минимум 5 сантиметров, устанавливают правильно боковые подпорки, сетку. Теперь нужно провязать каждый угол и стык, создав единый каркас. Нахлест торцов стержней должен быть равен минимум 50 диаметрам прутков.
  6. Дальше привязывают нижний поворот, крепят вертикальные стойки, к ним – верхний каркас. Потом по всем поверхностям опалубки нужно проверить расстояния, отступы, нахлесты в местах соединений, чтобы все было сделано правильно и четко.
  7. Соединение стержней по длине проблем обычно не вызывает, а вот крепление частей каркаса в углах нужно делать в соответствии с установленными нормами. Способов существует два: между двумя перпендикулярными конструкциями либо в точке примыкания стены к другой.

Технологии вязки углов:

1) Жесткое лапкой – в конце каждого прута под прямым углом вяжут лапку длиной минимум 35 диаметров стержня, соединяют загнутую часть к перпендикулярному участку. Так крепят внешние стержни каркаса стены с внешними прутами другой, в то время, как внутренние привариваются также ко внешним.

2) Г-хомуты – вместо лапки берут хомут длиной минимум 50 диаметров арматуры, одной стороной крепят к каркасу одной стены, вторую крепят с перпендикулярной. Внешние прутья соединяются с внутренними, шаг хомутов составляет ¾ высоты стены.

3) П-хомуты – для одного угла нужна установка двух П-образных хомутов длиной минимум 50 диаметров арматуры, каждый приваривают к одному перпендикулярному стержню и двум параллельным.

Примыкания создаются с использованием аналогичных способов крепежа.

Вязание арматуры при помощи специального приспособления – вязального станка

Чтобы создать этот инструмент, нужно взять несколько досок толщиной 20 миллиметров, отрезать 4 доски по длине арматуры, соединить по две на расстоянии, равном шагу вертикальных стоек, создав 2 одинаковых шаблона. Далее выполняют две вертикальные подпорки высотой, равной высоте сетки арматуры. Подпорки сооружаются с боковыми угловыми упорами, для работы лучше выбрать ровную площадку.

Приспособление используется так: на две сбитые доски устанавливаются ноги упоров, две верхние доски ставятся на верхнюю полку упоров, фиксируются. Все, макет арматурной сетки готов, теперь можно быстро вязать. Достаточно поставить на размеченные места вертикальные распорки арматуры, зафиксировав их гвоздями, прутки установить на каждую стальную перемычку, сделав так по всем сторонам каркаса. Далее берем крючок и проволоку – все, можно вязать. Такое устройство актуально там, где планируется создавать много однотипных секций сетки.

Видео как вязать арматуру при помощи приспособления

Как вязать армированную сетку в траншее

Работа в траншее сложнее, поэтому планировать все нужно загодя. На дно траншеи укладывают специальные приспособления или обычные камни на высоте минимум 5 сантиметров с шагом в ширину сетки. Камни выкладывают продольными стержнями, привязываются горизонтальные распорки. Пока прутки не станут в нужном положении, второй человек держит их за концы.

Осуществляется вязка арматуры с шагом между распорками шириной 50 см. Устанавливаем колышки и начинаем вязать монолитную конструкцию. Так делают на всех прямолинейных участках. Части каркаса к опалубке прикасаться не должны, должны находиться на расстоянии в несколько сантиметров от опалубки.

Потом вяжутся углы одним из нескольких существующих способов. Обязательно соблюдение длины нахлестов, с установкой вертикальных прутков. Часто стержни используют тут большего диаметра, повышая прочность материала. По завершении вязки заливается бетонный раствор в один заход, накрывается полиэтиленом, в процессе высыхания периодически поливается водой методом разбрызгивания.

Сваривание арматуры для армирования

В большинстве мест соединений лучше использовать вязку вместо сварки – готовая конструкция будет более прочной. Сварка возможна лишь при наличии аппарата и большого опыта, исключительно на прямолинейных участках.

Чтобы фундамент был действительно надежным, необходимо также позаботиться о правильности выполнения земельных работ под ленту, обустроив несколько слоев материалов (не только для основания и верха фундамента, но и заполняющие).

Практические советы

В местах, где нет большой нагрузки, можно осуществлять выбор арматуры в пользу прутков меньшего диаметра. Если от этого не страдает прочность, но удается понизить стоимость работ, такой вариант допускается. Решать, арматуру какого диаметра использовать в работе, стоит с учетом двух параметров: обеспечение достаточной прочности и стоимость работ, выбирая оптимальное соотношение цены и качества. В некоторых местах использование толстой арматуры просто не актуально, но покупка более дорогого материала существенно удорожит все строительство.

Раскладка каркаса в опалубке должна быть ровной. До того, как уложить конструкцию, необходимо тщательно проверить все размеры, исключить перекосы, деформации, несоблюдение параметров.

Видео армирование монолитных ленточных фундаментов неглубокого заложения

И еще одно видео:

Как правильно армировать ленточный фундамент своими руками

Правильный подбор арматуры и выполнение всех нормативных требований к организации процесса сделают армирование ленточного фундамента оправданным и эффективным этапом работы. Благодаря каркасу усиления удастся существенно улучшить прочностные характеристики здания, сделать его стойким к разным воздействиям и нагрузкам, надежным и долговечным.

🔨 подробное, пошаговое описание процесса

В процессе эксплуатации бетонный фундамент подвергается не только давлению веса строения, но и разнонаправленным нагрузкам, вызванным множеством причин. Например:

Решение простое — это значительно усилить фундамент внедрением металлического каркаса.

Что даёт внедрение металлического каркаса

Тонкости при армировании фундаментного основания

Силовой металлический каркас собирается из гладкой и ребристой арматуры Ø7÷32 мм. Как и в любой работе, при армировании фундамента есть ряд секретов и тонкостей, которые не только усилят его прочность, но и помогут сэкономить:

О расстоянии между элементами каркаса

Вычисление необходимого расстояния между элементами каркаса проводится согласно СНиП 52-01-2003:

1. Минимальный шаг между прутами арматуры зависит от ее сечения и диаметра наполнителя в бетоне (например, щебня или бутового камня), расположения и направления силовых элементов, способа уплотнения бетона. Он должен быть не менее сечения прутка, но и не более 25 мм.

2. Перед определением расстояние между арматурой в продольном направлении, определяем, назначение и геометрические размеры будущей бетонной отливки, но оно не должно быть меньше двойного сечения самой арматуры, но и не более 400 мм.

Армирующий каркас

3. Для поперечных элементов, фиксирующих горизонтальные слои, расстояние друг от друга должно быть больше половины высоты элемента, но и не более 300 мм.

4. Схемы армирования ленточного или монолитного плиточного фундамента должны предусматривать, чтобы арматура не касалась опалубки и не доходила до верхней и нижней поверхности отливки не менее 50 мм.

Крепление армирующего пояса

Фиксацию прутов армирующего пояса выполняют:

Схема армирования различных узлов

На представленных ниже рисунках показаны схемы вязки углов и примыканий, где:
• d — диаметр армирующего прута;
• L — длина прута.

Важно! В углах и примыканиях пруты должны не просто пересекаться, а их надо загибать, заводя друг на друга с нахлестом. Тогда каркас станет единой пространственной конструкцией, обеспечивающей необходимую жесткость фундамента, защищая его от разрушения при разнонаправленных нагрузках.

Заказать забивку свай под строительство фундаментов

Мы занимаемся забивкой свай для строительства фундамента и готовы провести работы по погружению Ж/Б свай

Армирование ленточного фундамента. Правила, схемы, инструкции и расчеты

Возведение фундаментного основания зданий это важнейший этап строительства, который определяет дальнейшую надежность и долговечность постройки. Поэтому при выполнении этой работы не допустима непродуманная экономия на расходах материалов и самовольные изменения проектных решений принятых специалистами.

Ленточные фундаменты пользуются заслуженной популярности при строительстве объектов индивидуальной застройки. Это объясняется возможностью универсального применения для самых различных зданий на большинстве распространенных типов грунтов.

Они отличаются высоким уровнем надежности и возможностью выполнения монтажа своими руками. Ленточные фундаменты нельзя применять для строительства зданий на неустойчивых грунтах, в заболоченной местности и на вечной мерзлоте.

Описание конструкции ленточного фундамента

Несущее основание этого типа представляет собой заглубленную в землю железобетонную монолитную ленту. Она монтируется под все несущие стены и тяжелые перегородки. Глубина заложения фундамента определяется в зависимости от следующих исходных параметров:

В результате фундамент небольших легких зданий домов быть мелкозаглубленным и иметь нижнюю опору на глубине 500-800 мм. Для тяжелых больших зданий и при наличии подвала подошва монолитной конструкции должна находиться ниже точки промерзания грунта более чем на 400 мм.

Ширина фундаментной ленты в ее верхней части зависит от толщины возводимых стен и должна превышать ее более чем на 100 мм, но в любом случае не мене 300 мм. В нижней части может быть предусмотрено наличие более широкой опорной подошвы, которая устраивается при большом весе строительных конструкций или слабых грунтах. Однако правильный расчет такой опоры довольно сложная инженерная задача. Данные о поперечном сечении фундаментной ленты и об общей массе строительных конструкций позволяют правильно рассчитать конструкцию армирующего каркаса.

Расчет фундамента должен быть выполнен на профессиональном уровне

Наличие армирующего каркаса повышает прочность фундаментного монолита и позволяет более равномерно распределить весовую нагрузку на грунт. При проектировании элементов здания всегда учитываются реальные данные, на основании которых получают результат способный обеспечить долговечность и надежность постройки.

На основании этого можно сделать вывод, что для разработки проекта необходимы специальные знания и опыт подобных работ. Поэтому выполнение расчетов и определение проектных схем рекомендуется поручить специалисту, а вот монтажные работы можно выполнять самостоятельно. Если только вы не собираетесь построить небольшой сарай, баньку, хозяйственные постройки или легкий гараж.

Расчет необходимого количества материалов

При определении нужного количества арматуры следует учитывать, что продольные струны и поперечные прутки имеют разный диаметр и цену. Имея проект подсчитать количество необходимого для армирования материала не сложно. Только следует предусмотреть запас 7-10% на остатки в виде коротких обрезков и на нахлесты при соединении прутов на длинных участках.

Если вы производите расчеты самостоятельно, то рекомендуется принять:

Кроме этого не забудьте приобрести вязальную проволоку (сварка прута для железобетона запрещена), а так же фиксаторы «звездочка» и «опора», которые устанавливаются на каждый крайний прут через каждые 3 метра.

Общее количество продольных армирующих струн определяется по суммарному сечению. Согласно СНиП общая площадь сечения арматуры должна быть не менее 0,1% от поперечного сечения фундаментной ленты. Если в результате вы определите, что для армирования достаточно всего 2-х прутов, то эту количество необходимо увеличить до 4-х. При этом принимая минимальное сечение прутов в 10 мм. Поперечные прутки никаких нагрузок не несут и считаются фиксирующими элементами.

Шаг поперечных прутков (хомутов) должен быть не более трех четвертей высоты фундаментной ленты и меньше 500 мм. В местах примыкания двух прямых конструкций и на углах шаг должен уменьшаться вдвое. Существует много специально разработанных схем вязки углов элементов и примыкающих участков. Перед началом работы рекомендуем с ними ознакомиться.

Что нужно знать про арматуру

Для ленточных фундаментов обычно применяют горячекатаную арматуру классов A-II и A-III с диаметром от 10 мм с периодическим профилем (рифленую), который обеспечивает надежное сцепление металла с бетоном. Пруты класса A-I с гладкой поверхностью и сечением 8-10 мм применяют для изготовления связующих хомутов и перемычек.

Армирование ленточного фундамента: схемы армирования, ошибки

Ленточный фундамент можно назвать одним из самых распространенных типов оснований под возведение малоэтажных зданий и сооружений: частных и дачных домов, бань, беседок, заборов, складских помещений, гаражей, сараев, мастерских и времянок.

СодержаниеСвернуть

Учитывая высокие механические нагрузки на бетонную конструкцию фундамента зданий и сооружений, зачастую очень важно выполнять правильное армирование ленточного фундамента, которое эффективно защищает основание сооружения от воздействия разрушающих продольных и изгибающих механических напряжений.

Армирование под ленточный фундамент

Ленточный фундамент представляет собой замкнутую бетонную конструкцию, заливаемую в предварительно подготовленную траншею. В общем случае, на строительном участке, при помощи колышков и бечевки, в соответствии с имеющимся проектом, размечаются наружные и внутренние «обводы» будущего сооружения.

При этом имеющийся рабочий проект здания регламентирует ширину, глубину заделки и схему армирования ленточного фундамента конкретного здания или сооружения. Если здание возводится без проекта, правильное армирование ленточного фундамента будет рассмотрено дальше по тексту публикации.

Итак, габариты будущего фундамента и глубина его заделки известны по проекту либо по сведениям, полученным от заказчика. Далее следует операция рытья траншеи под конструкцию фундамента, и если по условиям строительства, фундамент возвышается над «нулевым уровнем» необходима установка опалубки. В том случае, если планируемая высота фундамента не выходит за габариты «нулевой» точки (уровня почвы), функцию опалубки выполняют стенки траншеи.

Стоит отметить, что практика возведения одноэтажных жилых домов позволяет использовать прямую заливку ленточного фундамента тяжелым бетоном марки М200-М250, без дополнительных затрат на армирование. В этом варианте дополнительное армирование ленточного фундамента арматурой можно назвать полезной, но не жизненно необходимой и более того – весьма затратной операцией.

схема армирования ленточного фундамента

Несмотря на многочисленные публикации в интернете рекомендующие производить арматурное усиление основание основы здания, одноэтажные частные дома, возведенные из кирпича, самана, пеноблока, массива древесины, тяжелого бетона и СИП панелей строятся на ленточных фундаментах без необходимости обустройства арматурного пояса в толще фундамента.

Правильное армирование углов ленточного фундамента

Частные здания выше одного этажа характеризуются значительной массой, давящей на основание сооружения. Многоэтажные частные дома и сооружения нуждаются в усиленном фундаменте. Под понятием «усиленный фундамент» имеется ввиду фундамент усиленный поясом стального армирования.

Пояс армирования фундамента частного дома проектируется и монтируется в соответствии с конкретными условиями эксплуатации и этажностью конструкции. При этом существуют эмпирические зависимости проверенные годами эксплуатации частных зданий.

В общем случае, в углах строящегося фундамента двух-трех этажного здания, количество вертикальных армирующих стержней увеличивается в два или три раза. К примеру, если «трассовое» армирование ленточного фундамента шириной 500 миллиметров предусматривает количество вертикальных стержней 2 единицы на 70-80 см протяженности фундамента в продольном направлении, то в углах конструкции должно быть не менее 6-ти равномерно расположенных вертикальных стержней, к которым привязываются четыре продольных стержня.

Дело в том, что углы здания воспринимают значительные разнонаправленные механические нагрузки. Поэтому их усиливают не только армированием фундамента, но и в том числе специальной усиленной кладкой основных строительных материалов.

Если не сделать усиленное армирование углов ленточного фундамента, можно получить просадку углов дома, которую невозможно исправить. Указанная выше схема армирования углов ленточного фундамента перекрывает 90% конструкций возводимых малоэтажных зданий высотой два-три этажа.

Армирование ленточного фундамента своими руками

Вне всякого сомнения, частные застройщики, привыкшие все, что только возможно делать своими руками, задают вопрос: «Как сделать армирование ленточного фундамента без привлечения наемных работников?».

Чтобы не ошибиться, в расчете, необходимо взять листок бумаги и сделать нехитрый чертеж схемы армирования ленточного фундамента используя конкретные габариты конструкции.

На листке бумаги следует обозначить наружные и внутренние обводы будущего сооружения.

Далее, реперными точками обозначают вертикальные стержни армирования в углах и «трассе» стен в соответствии со стандартными расстояниями: два перпендикулярно расположенных стержня на трассе 80 см между стержнями, и не менее 6-ти равномерно расположенных арматуры в каждом углу возводимого здания.

Как показывает практика возведения малоэтажных зданий, оптимальный вариант арматуры, для усиления фундамента, являются стальные горячекатаные стержни диаметром 8 мм по ГОСТ 5781-82.

При наличии у застройщика стальных стержней общепромышленного направления указанного диаметра, допускается использование любого металла способного придать бетонному фундаменту прочность соответствующую нагрузке о т стен, кровли и других конструкций.

В общем, случае традиционная схема армирования заглубленного ленточного фундамента выполненная собственными силами, предусматривает забивку вертикальных стрежней в грунт. Отступив от наружной стенки траншеи фундамента на расстояние 70-80 мм, с помощью кувалды забивается первый вертикальный стержень армпояса.

Второй стержень забивается напротив первого стержня, отступив 70-80 мм от внутренней стенки траншеи фундамента. Забивка стержней ведется на глубину до 400 мм.

Последующие вертикальные стержни забиваются с шагом 80-100 мм периметру будущего фундамента. Как уже было сказано, в углах будущей конструкции количество вертикально-забитых стержней увеличивают до 6 на каждый угол. Только так можно гарантировать прочный поперечный и продольный результат.

Итак, вертикальные армирующие стержни забиты в грунт на определенную надежную глубину. Следующая операция, это перевязка вертикальных стержней продольной арматурой диаметром 6-8 мм. Суть технологии заключается в следующем.

Отступив от дна траншеи фундамента на 150-200 вверх, к стержням забитым в землю, по всему периметру траншеи фундамента, с помощью отожженной проволоки привязываются продольные арматурные стержни диметром 8-12 мм.

Второй пояс продольной арматуры привязывается, отступив от нулевой точки фундамента на расстояние 400-450 мм. Монтаж продольной арматуры второго пояса также ведется с помощью отожженной стальной вязальной проволоки.

Заключение

Армирование фундамента малоэтажного здания можно назвать «желательной» но не жизненно необходимой операцией. Тяжелый бетон, используемый в качестве основного строительного материала для возведения фундаментов способен выдерживать значительные статические и динамические нагрузки без дополнительного армирования.

Поэтому в каждом конкретном случае возведения здания и сооружения следует руководствоваться инженерными расчетами армирования и других фактор возведения сооружения.

Обучение с подкреплением: Введение в концепции, приложения и код | Райан Вонг

Часть 1: Введение в обучение с подкреплением, объяснение общих терминов, концепций и приложений.

В этой серии сообщений блога об обучении с подкреплением я попытаюсь создать упрощенное объяснение концепций, необходимых для понимания обучения с подкреплением и их приложений. В этом начальном посте я выделю некоторые из основных концепций и терминологии обучения с подкреплением.Эти концепции будут дополнительно объяснены в будущих сообщениях блога с приложениями и реализациями в реальных проблемах.

Часть: 1 ・ 2 ・ 3 ・ 4 ・…

Обучение с подкреплением (RL) можно рассматривать как подход, который находится между контролируемым и неконтролируемым обучением. Он не контролируется строго, поскольку он не полагается только на набор помеченных данных обучения, но и не является обучением без учителя, потому что у нас есть награда, которую мы хотим, чтобы наш агент максимизировал. Агенту необходимо найти «правильные» действия в различных ситуациях для достижения своей общей цели.

Обучение с подкреплением - это наука о принятии решений.

В обучении с подкреплением не используется супервизор, и агент использует только вознаграждение , чтобы определить, хорошо ли он справляется. Время - ключевой компонент в RL, где процесс последовательный с отложенной обратной связью . Каждое действие агента влияет на следующие данные, которые он получает.

Обучение с подкреплением в применении к играм Atari компанией DeepMind

В чем заключается проблема обучения с подкреплением?

До сих пор мы говорили, что агент должен найти «правильное» действие. Правильное действие зависит от награды .

Вознаграждение: Вознаграждение Rₜ - это скалярный сигнал обратной связи, который показывает, насколько хорошо агент работает на этапе t .

В обучении с подкреплением нам нужно определить нашу проблему так, чтобы ее можно было применить для удовлетворения нашей гипотезы вознаграждения .Примером может служить игра в шахматы, в которой агент получает положительное вознаграждение за победу и отрицательное вознаграждение за проигрыш.

Гипотеза вознаграждения : Все цели можно описать максимизацией ожидаемого совокупного вознаграждения.

Поскольку наш процесс включает в себя последовательных решений, задач, наши действия, которые мы предпринимаем на раннем этапе, могут иметь долгосрочные последствия для нашей общей цели .Иногда может быть лучше пожертвовать немедленной наградой (награда на временном шаге рупий), чтобы получить больше долгосрочной награды. Пример, применимый к шахматам, - это жертва пешки для взятия ладьи на более позднем этапе.

Цель : Цель состоит в том, чтобы выбрать действия для максимизации общей будущей награды.

.

Прогнозирование без моделей: обучение с подкреплением | Райан Вонг

Часть 4: Прогнозы без моделей с обучением по методу Монте-Карло, обучением по временной разнице и TD ( λ)

Ранее мы рассмотрели планирование с помощью динамического программирования для решения известного MDP . В этом посте мы будем использовать прогнозирование без модели для оценки функции ценности неизвестного MDP. т.е. мы посмотрим на оценку политики неизвестного MDP. Эта серия сообщений в блоге содержит краткое изложение концепций, объясненных в книге Дэвида Сильвера «Введение в обучение с подкреплением».

Часть: 1 ・ 2 ・ 3 ・ 4 ・…

Три основных метода, которые будут объяснены для предсказаний без модели :

  • Обучение Монте-Карло
  • Обучение разнице во времени
  • TD (λ)

В этом посте в основном рассматривается оценка данной политики в неизвестном MDP, а не поиск оптимальной политики.

Монте-Карло методы - это без моделей , которые учатся непосредственно из эпизодов опыта.Монте-Карло учится на полных эпизодах с без начальной загрузки. Один из недостатков MC состоит в том, что он может применяться только к эпизодическим Марковским процессам принятия решений, когда все эпизоды должны завершаться.

Без модели: Нет сведений о переходах / вознаграждениях MDP
Начальная загрузка : обновление предполагает оценку

Оценка политики Монте-Карло

Цель Политика π, узнать v_π (значение для политики) из эпизодов опыта.

Данная политика π с каждым состоянием, действием и связанным вознаграждением за выполнение этого действия Напомним: возврат - это общая дисконтированная награда; Функция повторного вызова: значение - это ожидаемая доходность. ожидаемой прибыли. Два подхода к оценке функции ценности политики в государстве: использование Оценка политики Монте-Карло при первом посещении или Оценка политики Монте-Карло при каждом посещении.

Оценка политики Монте-Карло при первом посещении

  1. Оценить значение состояния с данной политики
  2. первый временной шаг ( т) ​​ это состояние ( с) посещается в эпизоде ​​
  3. Счетчик приращения: Н (с) ← Н (с) + 1
  4. Общий доход приращения: С (с) ← S (с) + Gₜ
  5. Значение оценивается по средней доходности: В (с) = S (с) / Н (с)
  6. В (с) → v_π (с) при Н (с) → ∞

Каждые- Посетите оценку политики Монте-Карло

  1. Оцените значение состояния с данной политики
  2. Каждые временных интервалов ( t) это состояние ( с) посещается в эпизоде
  3. Счетчик приращения: Н (с) ← Н (с) + 1
  4. Общий доход приращения: С (с) ← S (s) + Gₜ
  5. Значение оценивается по средней доходности: В (с) = S (с) / Н (с)
  6. В (с) → v_π (с) как Н ( s) → ∞

В обоих вышеупомянутых подходах к оценке мы должны были отслеживать статистику нашего алгоритма.то есть мы можем вычислить значение только после того, как мы завершили все эпизоды. Чтобы решить эту проблему, мы можем использовать уравнение Incremental Mean для постепенного обновления значения.

Среднее значение приращения
Среднее значение µ₁, µ₂,… последовательности x₁, x₂,… может быть вычислено постепенно.

Среднее инкрементное

Инкрементальные обновления Монте-Карло
Обновление В (с) постепенно после эпизода S₁, A₁, R₂,…, Sₜ. Для каждого состояния Sₜ с возвратом Gₜ:

Замените шаги 3–5 указанным выше. (G - V (S )) можно рассматривать как ошибку между возвратом и средним значением на временном шаге t

В нестационарных задачах (когда все меняется, а вы этого не делаете) нет необходимости вспоминать то, что произошло давным-давно), мы можем использовать метод среднего, т.е. забыть старые эпизоды.

Инкрементальные обновления Монте-Карло

Temporal-Difference - это без модели. Методы Temporal Difference учатся непосредственно на опыте / взаимодействии с окружающей средой. Temporal Difference изучает неполные эпизоды, самонастройка (обновление предположения функции значения) .

Как в MC, так и в TD цель состоит в том, чтобы изучить v_π онлайн на опыте в соответствии с политикой π .
Если бы мы применили при каждом посещении Монте-Карло , мы обновим значение В (Sₜ) до фактического дохода Gₜ

Простейший алгоритм обучения временной разности, TD (0) отличается, поскольку мы обновляем значение V (Sₜ) до оценочной доходности Rₜ₊₁ + γV (Sₜ₊₁)

Rₜ₊₁ + γV (Sₜ ₊₁) - это TD target и δₜ = Rₜ₊₁ + γV (Sₜ₊₁) -V (Sₜ) - это TD error .

Обучение TD немедленно обновляет функцию значения , что позволяет ему выучить до того, как узнает окончательный результат после каждого шага, в отличие от MC, который должен ждать до конца эпизода, прежде чем станет известно возвращение. TD работает в непрерывных (не завершающихся) средах , в то время как MC работает только для эпизодических (завершающих) сред / полных последовательностей.

Пример, иллюстрирующий разницу между TD и MC, - это попытаться предсказать, сколько времени потребуется, чтобы ехать домой в каждом штате по пути.
В MC мы назначаем каждому состоянию значение, которое мы получаем в конце пути (фактический результат).
В TD мы обновляли бы значение по пути в каждом состоянии, используя влияние, которое следующее состояние оказывает на текущее состояние (предполагаемый результат).

Существует компромисс между смещением и дисперсией. MC имеет с высокой дисперсией и смещением нуля , поскольку он использует возврат Gₜ , который зависит от множества случайных действий , переходов и вознаграждений .Поэтому он имеет хорошие свойства сходимости даже с приближением функции и не чувствителен к начальному значению.

TD имеет низкую дисперсию и некоторое смещение, так как цель TD зависит от одно случайное действие, переход и награда . Обычно он эффективнее MC. TD (0) сходится к v_π (s) , но не всегда с приближением функции. В отличие от MC он более чувствителен к начальному значению.

Batch MC и TD

Итак, мы видели, что MC и TD сходятся: V (s) → v_π (s) по опыту → ∞
Но на практике мы не можем продолжать бесконечно, поэтому как эти алгоритмы сходятся для пакетного решения для конечного опыта?

Предположим, у нас есть два состояния A, B с без скидки и 8 эпизодов опыта.

AB Пример

Какое значение в состоянии A . В (А) ?
MC сходится к решению, которое наилучшим образом соответствует наблюдаемой доходности с минимальной среднеквадратичной ошибкой.

Следовательно, В (А) = 0. Поскольку состояние A появляется в эпизоде ​​только тогда, когда доходность равна 0.

TD (0) сходится к решению модели Маркова максимального правдоподобия . Это решение MDP, которое наилучшим образом соответствует данным.

Следовательно, В (А) = 0,75 . Так мы получили в награду 6 серий из 8. В отличие от MC, TD использует марковскую собственность.

Сравнение методов резервного копирования

Резервное копирование Монте-Карло:
Значение состояния Sₜ может быть вычислено только после достижения состояния терминала

Временная разница TD (0) Резервное копирование:
Значение состояния Sₜ вычисляется с использованием только одного шага вперед.

Резервное копирование динамического программирования:
Значение Sₜ вычисляется с одностадийным просмотром каждого возможного состояния и вычисляется ожидаемое значение.

n-Step Return
Подход между TD (0) и MC, где у нас есть n-шаговое обучение с временной разницей. Следовательно, значение будет вычислено путем просмотра вперед на n шагов и применения метода обучения временной разности.

Вместо того, чтобы смотреть на каждый n-шаговый доход Gₜ⁽ⁿ⁾ , мы можем использовать убывающую взвешенную сумму для объединения всех n-шаговых доходностей, называемую λ-доходностью .

Перспективный TD (λ)

Значение в состоянии теперь может быть вычислено с использованием TD прямого просмотра (λ)

Перспективный взгляд смотрит в будущее для вычисления λ-return и обновляет функцию значения по отношению к нему и может быть вычислен только из полных эпизодов.

Обратный просмотр TD (λ)

Обратный просмотр предоставляет механизм для обновления значения онлайн на каждом шаге из неполных последовательностей. Мы ведем трассу соответствия для каждого состояния s и обновляем В (с) для каждого состояния с пропорционально TD-error δₜ и кривой соответствия Eₜ (s) .

Traceibility Trace
Eligibility Trace объединяет как частотную эвристику , так и эвристику давности .
- Эвристика частоты : присвоить кредит наиболее частым состояниям
- Эвристика недавнего времени : присвоить кредит самым последним состояниям

Уравнения трассировки соответствия

Мы рассмотрели различные методы прогнозирования без использования моделей , такие как Монте -Карло обучение, обучение временной разнице и TD (λ).Эти методы позволили нам найти значение состояния при заданной политике. В следующем посте мы рассмотрим поиск оптимальных политик с использованием безмодельных методов.

.

Введение в различные алгоритмы обучения с подкреплением. Часть I (Q-Learning, SARSA, DQN, DDPG) | Автор: Kung-Hsiang, Huang (Steeve)

Обычно установка RL состоит из двух компонентов: агента и среды.

Иллюстрация обучения с подкреплением (https://i.stack.imgur.com/eoeSq.png)

Затем среда относится к объекту, над которым действует агент (например, к самой игре в игре Atari), а агент представляет Алгоритм RL. Среда начинается с отправки состояния агенту, который затем на основе своих знаний предпринимает действие в ответ на это состояние.После этого среда отправляет пару следующих состояний и вознаграждение обратно агенту. Агент обновит свои знания с помощью награды, возвращаемой средой, чтобы оценить свое последнее действие. Цикл продолжается до тех пор, пока среда не отправит терминальное состояние, которое заканчивается эпизодом.

Большинство алгоритмов RL следуют этому шаблону. В следующих параграфах я кратко расскажу о некоторых терминах, используемых в RL, чтобы облегчить наше обсуждение в следующем разделе.

Определение

  1. Действие (A): все возможные действия, которые может предпринять агент.
  2. Состояние (S): текущая ситуация, возвращаемая средой.
  3. Награда (R): немедленный возврат из среды для оценки последнего действия.
  4. Политика (π): Стратегия, которую агент использует для определения следующего действия на основе текущего состояния.
  5. Стоимость (V): ожидаемая долгосрочная доходность с учетом скидки, в отличие от краткосрочного вознаграждения R. Vπ (s) определяется как ожидаемая долгосрочная доходность π политики раскола текущего состояния.
  6. Q-value или action-value (Q): Q-value аналогичен Value, за исключением того, что он принимает дополнительный параметр, текущее действие a . Qπ (s, a) относится к долгосрочному возврату текущего состояния s , предпринимая действия a в соответствии с политикой π.

Без модели по сравнению с На основе модели

Модель предназначена для моделирования динамики окружающей среды. То есть модель изучает вероятность перехода T (s1 | (s0, a)) из пары текущего состояния s 0 и действия a в следующее состояние s 1 . Если вероятность перехода успешно изучена, агент будет знать, насколько вероятно войти в определенное состояние с учетом текущего состояния и действия.Однако алгоритмы, основанные на моделях, становятся непрактичными по мере роста пространства состояний и пространства действий (S * S * A для табличной настройки).

С другой стороны, алгоритмы без моделей полагаются на метод проб и ошибок для обновления своих знаний. В результате ему не требуется место для хранения всей комбинации состояний и действий. Все алгоритмы, обсуждаемые в следующем разделе, попадают в эту категорию.

Соответствие политике и политике Вне политики

Агент, подключенный к политике, изучает значение на основе своего текущего действия, производного от текущей политики, тогда как его часть, не связанная с политикой, изучает его на основе действия a *, полученного из другой политики.В Q-обучении такой политикой является жадная политика. (Мы поговорим об этом подробнее в Q-Learning и SARSA)

2.1 Q-Learning

Q-Learning - это внеполитический, не модельный алгоритм RL, основанный на хорошо известном уравнении Беллмана:

Уравнение Беллмана (https : //zhuanlan.zhihu.com/p/21378532? refer = intelligentunit)

E в приведенном выше уравнении относится к математическому ожиданию, а ƛ - к коэффициенту дисконтирования. Мы можем переписать его в виде Q-значения:

Уравнение Беллмана в форме Q-значения (https: // zhuanlan.zhihu.com/p/21378532?refer=intelligentunit)

Оптимальное значение Q, обозначенное как Q *, может быть выражено как:

Оптимальное значение Q (https://zhuanlan.zhihu.com/p/21378532?refer= Intelligentunit)

Цель состоит в том, чтобы максимизировать Q-значение. Прежде чем погрузиться в метод оптимизации Q-value, я хотел бы обсудить два метода обновления значений, которые тесно связаны с Q-обучением.

Итерация политики

Итерация политики запускает цикл между оценкой политики и ее улучшением.

Итерация политики (http://blog.csdn.net/songrotek/article/details/51378582)

Оценка политики оценивает функцию ценности V с помощью жадной политики, полученной в результате последнего улучшения политики. С другой стороны, улучшение политики обновляет политику действием, которое максимизирует V для каждого состояния. Уравнения обновления основаны на уравнении Беллмана. Он продолжает повторяться до схождения.

Псевдокод для изменения политики (http://blog.csdn.net/songrotek/article/details/51378582)

Итерация значения

Итерация значения содержит только один компонент.Он обновляет функцию ценности V на основе оптимального уравнения Беллмана.

Оптимальное уравнение Беллмана (http://blog.csdn.net/songrotek/article/details/51378582) Псевдокод для изменения значений (http://blog.csdn.net/songrotek/article/details/51378582)

После итерация сходится, оптимальная политика напрямую получается путем применения функции максимального аргумента для всех состояний.

Обратите внимание, что эти два метода требуют знания вероятности перехода p , что указывает на то, что это алгоритм на основе модели.Однако, как я упоминал ранее, алгоритм на основе модели страдает проблемой масштабируемости. Так как же Q-Learning решает эту проблему?

Q-Learning Update Equation (https://www.quora.com/What-is-the-difference-between-Q-learning-and-SARSA-learning)

α относится к скорости обучения (т.е. насколько быстро мы приближается к цели). Идея Q-Learning во многом основана на итерациях значений. Однако уравнение обновления заменяется приведенной выше формулой. В результате нам больше не нужно беспокоиться о вероятности перехода.

Псевдокод Q-обучения (https://martin-thoma.com/images/2016/07/q-learning.png)

Обратите внимание, что следующее действие a ' выбрано для максимизации Q-значения следующего состояния. следования текущей политике. В результате Q-обучение относится к категории вне политики.

2.2 Состояние-действие-награда-государство-действие (SARSA)

SARSA очень напоминает Q-обучение. Ключевое различие между SARSA и Q-Learning заключается в том, что SARSA - это алгоритм, соответствующий политике. Это означает, что SARSA изучает значение Q на основе действия, выполняемого текущей политикой, а не жадной политикой.

SARSA Update Equation (https://www.quora.com/What-is-the-difference-between-Q-learning-and-SARSA-learning)

Действие a_ (t + 1) - это действие, выполняемое в следующее состояние s_ (t + 1) согласно текущей политике.

Псевдокод SARSA (https://martin-thoma.com/images/2016/07/sarsa-lambda.png)

Из псевдокода выше вы можете заметить, что выполняются два выбора действий, которые всегда соответствуют текущей политике. Напротив, Q-обучение не имеет ограничений для следующего действия, пока оно максимизирует Q-значение для следующего состояния.Следовательно, SARSA - это алгоритм, основанный на политике.

2.3 Deep Q Network (DQN)

Хотя Q-обучение - очень мощный алгоритм, его основной недостаток - отсутствие общности. Если вы рассматриваете Q-обучение как обновление чисел в двумерном массиве (пространство действий * пространство состояний), оно, по сути, напоминает динамическое программирование. Это указывает на то, что для состояний, которые агент Q-Learning не видел раньше, он не знает, какое действие предпринять. Другими словами, агент Q-Learning не имеет возможности оценивать значение для невидимых состояний.Чтобы справиться с этой проблемой, DQN избавляется от двумерного массива, введя нейронную сеть.

DQN использует нейронную сеть для оценки функции Q-значения. Входом для сети является ток, а выходом - соответствующее значение Q для каждого действия.

Пример DQN для Atari (https://zhuanlan.zhihu.com/p/25239682)

В 2013 году DeepMind применил DQN к игре Atari, как показано на рисунке выше. Входными данными является необработанное изображение текущей игровой ситуации. Он прошел через несколько слоев, включая сверточный слой, а также полностью связанный слой.Результатом является Q-значение для каждого действия, которое может предпринять агент.

Вопрос сводится к следующему: Как мы обучаем сеть?

Ответ заключается в том, что мы обучаем сеть на основе уравнения обновления Q-обучения. Напомним, что целевое Q-значение для Q-обучения:

Целевое Q-значение (https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf)

ϕ эквивалентно состоянию s, в то время как обозначает параметры в нейронной сети, которые не входят в область нашего обсуждения.Таким образом, функция потерь для сети определяется как квадрат ошибки между целевым значением Q и выходным значением Q из сети.

Псевдокод DQN (https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf)

Еще два метода также важны для обучения DQN:

  1. Experience Replay : Так как обучающие образцы в типичном RL настройки сильно коррелированы и менее эффективны для данных, это приведет к более сложной конвергенции для сети. Одним из способов решения проблемы распространения образцов является воспроизведение опыта.По сути, образцы переходов сохраняются, которые затем случайным образом выбираются из «пула переходов» для обновления знаний.
  2. Отдельная целевая сеть : Целевая Q-сеть имеет ту же структуру, что и сеть, которая оценивает значение. Каждые C шагов, согласно приведенному выше псевдокоду, целевая сеть сбрасывается на другую. Таким образом, колебания становятся менее сильными, что приводит к более стабильным тренировкам.

2.4 Глубокий детерминированный градиент политики (DDPG)

Хотя DQN добилась огромного успеха в задачах более высокого измерения, таких как игра Atari, пространство действия все еще остается дискретным.Однако для многих задач, представляющих интерес, особенно для задач физического контроля, пространство действий является непрерывным. Если вы слишком точно распределите пространство действия, вы получите слишком большое пространство действия. Например, предположим, что степень свободной случайной системы равна 10. Для каждой степени вы делите пространство на 4 части. У вас будет 4¹⁰ = 1048576 действий. Также чрезвычайно сложно сходиться в таком большом пространстве действий.

DDPG опирается на архитектуру «актер-критик» с двумя одноименными элементами: актер и критик.Актер используется для настройки параметра 𝜽 для функции политики, то есть для определения наилучшего действия для определенного состояния.

Функция политики (https://zhuanlan.zhihu.com/p/25239682)

Критик используется для оценки функции политики, оцененной субъектом в соответствии с ошибкой временной разницы (TD).

Ошибка разницы во времени (http://proceedings.mlr.press/v32/silver14.pdf)

Здесь строчные буквы v обозначают политику, выбранную субъектом. Знакомо? Да! Это похоже на уравнение обновления Q-обучения! TD-обучение - это способ научиться предсказывать значение в зависимости от будущих значений данного состояния.Q-обучение - это особый тип TD-обучения для изучения Q-ценности.

Архитектура актера-критика (https://arxiv.org/pdf/1509.02971.pdf)

DDPG также заимствует идеи воспроизведения опыта и отдельной целевой сети от DQN . Другой проблемой для DDPG является то, что он редко выполняет исследование действий. Решением для этого является добавление шума в пространство параметров или пространство действий.

Action Noise (слева), Parameter Noise (справа) (https: //blog.openai.com / better-exploration-with-parameter-noise /)

Согласно этой статье, написанной OpenAI, утверждается, что добавление в пространство параметров лучше, чем в пространство действий. Один из часто используемых шумов - это случайный процесс Орнштейна-Уленбека.

Псевдокод DDPG (https://arxiv.org/pdf/1509.02971.pdf).

применений обучения с подкреплением в реальном мире | автор: garychl

II. Приложения

Эта часть написана для обычных читателей. В то же время он будет более ценным для читателей, знакомых с RL.

Управление ресурсами в компьютерных кластерах

Разработка алгоритмов распределения ограниченных ресурсов для различных задач является сложной задачей и требует эвристики, созданной человеком. В документе «Управление ресурсами с глубоким обучением с подкреплением» [2] показано, как использовать RL для автоматического обучения распределению и планированию ресурсов компьютера для ожидающих заданий с целью минимизировать среднее замедление выполнения задания.

Пространство состояний было сформулировано как текущее распределение ресурсов и профиль ресурсов заданий. Для области действия они использовали уловку, позволяющую агенту выбирать более одного действия на каждом временном шаге. Вознаграждение представляло собой сумму (-1 / продолжительность задания) по всем заданиям в системе. Затем они объединили алгоритм REINFORCE и базовое значение, чтобы вычислить градиенты политики и найти лучшие параметры политики, которые дают распределение вероятностей действий для минимизации цели.Щелкните здесь, чтобы просмотреть код на Github.

Управление светофором

В статье «Многоагентная система на основе обучения с подкреплением для управления сигналами сетевого трафика» [3] исследователи попытались разработать контроллер светофора для решения проблемы перегрузки. Однако, протестированные только в смоделированной среде, их методы показали лучшие результаты, чем традиционные методы, и пролили свет на потенциальное использование многоагентного RL при проектировании системы трафика.

Транспортная сеть с пятью перекрестками.Источник.

Пять агентов были помещены в транспортную сеть с пятью перекрестками, с агентом RL на центральном перекрестке для управления сигнализацией трафика. Состояние было определено как восьмимерный вектор, каждый элемент которого представляет относительный транспортный поток на каждой полосе движения. Агенту было доступно восемь вариантов выбора, каждый из которых представляет комбинацию фаз, а функция вознаграждения была определена как уменьшение задержки по сравнению с предыдущим временным шагом. Авторы использовали DQN, чтобы узнать значение Q пар {состояние, действие}.

Робототехника

Существует огромная работа по применению RL в робототехнике. Читателям предлагается обратиться к [10] для обзора RL в робототехнике. В частности, [11] обучил робота изучать правила сопоставления необработанных видеоизображений с действиями робота. Изображения RGB подавались на CNN, а выходными данными были крутящий момент двигателя. Компонент RL представлял собой управляемый поиск политик для генерации обучающих данных, полученных из его собственного распределения состояний.

Демо статьи.

Конфигурация веб-системы

В веб-системе имеется более 100 настраиваемых параметров, и процесс настройки параметров требует наличия опытного оператора и многочисленных проверок на наличие ошибок.В статье «Подход с подкреплением к автоконфигурации онлайн-веб-системы» [5] была показана первая попытка автономной реконфигурации параметров в многоуровневых веб-системах в динамических средах на основе виртуальных машин.

Процесс реконфигурации можно сформулировать как конечный MDP. Пространство состояний представляло собой конфигурацию системы, пространство действий - {увеличение, уменьшение, сохранение} для каждого параметра, а вознаграждение определялось как разница между заданным целевым временем отклика и измеренным временем отклика.Авторы использовали безмодельный алгоритм Q-обучения для выполнения задачи.

Хотя авторы использовали некоторые другие методы, такие как инициализация политики, чтобы исправить большое пространство состояний и вычислительную сложность проблемы вместо потенциальных комбинаций RL и нейронной сети, считается, что новаторская работа проложила путь для будущих исследований в эта зона.

Химия

RL также может применяться для оптимизации химических реакций. [4] показали, что их модель превосходит современные алгоритмы, и обобщены на несходные базовые механизмы в статье «Оптимизация химических реакций с помощью глубокого обучения с подкреплением».

В сочетании с LSTM для моделирования функции политики агент RL оптимизировал химическую реакцию с помощью марковского процесса принятия решений (MDP), характеризуемого {S, A, P, R}, где S - набор экспериментальных условий (например, температура, pH и т. д.), A - набор всех возможных действий, которые могут изменить условия эксперимента, P - вероятность перехода от текущего условия эксперимента к следующему условию, а R - вознаграждение, которое является функцией состояния.

Приложение отлично подходит для демонстрации того, как RL может сократить трудоемкую работу, выполняемую методом проб и ошибок, в относительно стабильной среде.

Персонализированные рекомендации

Предыдущая работа над новостными рекомендациями столкнулась с рядом проблем, включая быстро меняющуюся динамику новостей, пользователям быстро надоедает, а показатель CTR не может отражать уровень удержания пользователей. Guanjie et al. применили RL в системе рекомендаций новостей в документе, озаглавленном «DRN: концепция глубокого обучения с подкреплением для рекомендаций новостей» для борьбы с проблемами [1].

На практике они создали четыре категории функций, а именно: A) функции пользователя и B) функции контекста как характеристики состояния среды и C) функции новостей пользователя и D) функции новостей как функции действий.Четыре характеристики были введены в Deep Q-Network (DQN) для расчета Q-значения. Список новостей был выбран для рекомендации на основе Q-значения, и нажатие пользователем на новости было частью вознаграждения, полученного агентом RL.

Авторы также использовали другие методы для решения других сложных проблем, включая воспроизведение памяти, модели выживания, Dueling Bandit Gradient Descent и так далее. Пожалуйста, обратитесь к бумаге для получения подробной информации.

Торги и реклама

Исследователи из Alibaba Group опубликовали статью «Назначение ставок в реальном времени с многоагентным подкрепляющим обучением в медийной рекламе» [6] и заявили, что их распределенное кластерное решение для мультиагентных торгов (DCMAB) достигло многообещающие результаты, и поэтому они планируют провести живое тестирование на платформе Taobao.

Подробности реализации оставлены на усмотрение пользователей. Вообще говоря, рекламная платформа Taobao - это место, где продавцы могут делать ставки, чтобы показывать рекламу покупателям. Это может быть проблема с несколькими агентами, потому что продавцы делают ставки друг против друга, и их действия взаимосвязаны. В документе продавцы и покупатели были сгруппированы в разные группы, чтобы уменьшить вычислительную сложность. Пространство состояний агентов показывало статус затрат-доходов агентов, пространство действий было заявкой (непрерывно), а вознаграждение - доходом, вызванным кластером клиентов.

Алгоритм DCMAB. Источник: https://arxiv.org/pdf/1802.09756.pdf

В статье также изучались другие вопросы, в том числе влияние различных настроек вознаграждения (корыстные или согласованные) на доходы агентов.

Games

RL так хорошо известен в наши дни, потому что это основной алгоритм, используемый для решения различных игр и иногда для достижения сверхчеловеческой производительности.

RL против линейной модели против человека. Щелкните здесь, чтобы найти источник.

Самыми известными должны быть AlphaGo [12] и AlphaGo Zero [13].AlphaGo, обученная бесчисленным человеческим играм, уже достигла сверхчеловеческих качеств, используя сеть создания ценности и поиск по дереву Монте-Карло (MCTS) в своей политической сети. Тем не менее, позже исследователи подумали и попробовали более чистый подход RL - обучить его с нуля. Исследователи позволили новому агенту AlphaGo Zero поиграть с самим собой и наконец победить AlphaGo 100–0.

Deep Learning

В последнее время можно увидеть все больше и больше попыток объединить RL и другую архитектуру глубокого обучения, и они показали впечатляющие результаты.

Одна из самых влиятельных работ в RL - новаторская работа Deepmind по объединению CNN с RL [7]. Поступая таким образом, агент получает возможность «видеть» окружающую среду через сенсорное восприятие высокого измерения, а затем учиться взаимодействовать с ней.

RL и RNN - еще одна комбинация, которую люди использовали для опробования новой идеи. RNN - это тип нейронной сети, у которой есть «воспоминания». В сочетании с RL, RNN дает агентам возможность запоминать вещи. Например, [8] объединил LSTM с RL для создания Deep Recurrent Q-Network (DRQN) для игр Atari 2600.[4] также использовали RNN и RL для решения задачи оптимизации химических реакций.

Deepmind показал [9], как использовать генеративные модели и RL для создания программ. В модели агент, обученный противником, использовал сигнал в качестве вознаграждения для улучшения действий, вместо того, чтобы распространять градиенты во входное пространство, как при обучении GAN.

Ввод и созданный результат. См. Источник. .

Введение в обучение с подкреплением (DDPG и TD3) для рекомендаций новостей | Майк Уоттс

Когда я впервые начал копаться в материале, он понял, что не существует полного руководства даже по основным методам рекомендаций. Недавно я узнал об ограниченных машинах Больцмана. Этот раздел призван исправить это. Я попытаюсь сделать обзор некоторых из самых популярных и провести быстрое сравнение. Для получения дополнительных аналитических результатов посмотрите мемы ниже.

Поиск по сходству

SS - это наиболее простая для понимания концепция.Просто поищите похожие фильмы, которые понравились или не понравились пользователям. Состояние (являющееся рейтингом фильмов) часто представляется в виде метрического пространства. Есть несколько способов кодировать его из необработанных индексов фильмов. Первый - использовать уровень внедрения, что часто имеет место в современных приложениях DL. Затем для их правильного ранжирования используется показатель подобия, такой как косинус или евклидово расстояние. Однако, если вернуться к более классическому подходу к машинному обучению, у нас есть хеширование с учетом местоположения. LSH - это алгоритмический метод, который с высокой вероятностью помещает аналогичные входные элементы в одни и те же «корзины».В любом случае, мы получаем кучу ранжированных состояний, аналогичных тому, которое мы прогнозируем. Затем мы смотрим фильмы, которые понравились / не понравились пользователям, и рекомендуем их. Если вы хотите использовать этот метод, я предлагаю вам проверить библиотеку Facebook Faiss: ссылка на GitHub.

Факторизация матрицы

Идея факторизации матриц, т. Е. Разбиение большой матрицы на произведение более мелких, еще больше расширяет поиск сходства. Большую матрицу можно представить в виде таблицы, в которой строки - это фильмы, столбцы - пользователи, а значения - рейтинги.Мы расширяем эту идею, предполагая, что большую матрицу можно выразить как скалярное произведение двух меньших матриц. Они представляют собой скрытое (встраиваемое) представление. Этот процесс легко реализовать с помощью PyTorch:

 user_matrix = user_embedding (users) 
film_matrix = film_embedding (movies)
rating = (user_matrix * film_matrix) .sum (1) loss = MeanSquares (rating, target_ratings)
loss.backward ( )

«Пользователи» - это целочисленный вектор идентификатора пользователя. «Фильмы» - это целочисленный вектор film_id.Матрицы User и Film - это 2D-вложения для соответствующих индексов. Мы вычисляем скалярное произведение, потому что хотим знать рейтинг. Как вы могли заметить, метод довольно ограничен из-за использования встраиваний. Вы не можете добавлять новые фильмы / пользователей к существующим, если не используете что-то вроде Incremental SGNS или Reservoir Computing. Просто хорошая обзорная статья описанных выше методов: ссылка. Кроме того, если вы хотите получить более глубокое представление о MF, я очень рекомендую это видео Луиса Серрано.

Машины Больцмана с ограничениями

RBS - это ранний вариант автокодировщика. Подпадает под энергетические методы. В качестве автоэнкодера он используется для уменьшения размерности. Ограниченная часть наименования означает отсутствие межслойного распространения. Архитектура выглядит как обычная двухуровневая линейная сеть. Прямой проход выглядит точно так же, как и сеть прямой связи.

Важнейшее отличие состоит в том, что RBM являются вероятностными. Они используют байесовский метод для работы.Всякий раз, когда вы пытаетесь вычислить состояние сети, то есть выборку из этих распределений весов и смещений, вы встречаетесь с уравнением Больцмана. Это уравнение из физики элементарных частиц. Обучение такой модели состоит из двух основных шагов: выборка Гиббса и контрастное расхождение.

Я узнал об этих машинах из интервью Эндрю Нг с Джеффри Хинтоном. Когда его спросили о его величайшем достижении, последний признал свой вклад в алгоритмы обучения УКР.Напоминаем: Г.Х. человек, стоящий за обратным распространением. Действительно, RBM достигают самых высоких результатов в соревновании Netflix. Если вы хотите узнать больше о моделях, основанных на энергии, вот примечания Яна ЛеКуна.

Структура RBM

Машины факторизации (не персонализированные)

Машины факторизации оказались очень полезными для прогнозирования рейтинга кликов. Их скорость позволяет им быть хорошо масштабируемыми, но они применимы только к данным с категориальными функциями. Тем не менее, они заслуживают внимания.Нам нужно как-то включить данные функций в наш процесс факторизации. Конечно, мы можем считать одну функцию достаточно находчивой:

 оценок = линейная (features.size (1), 1) loss = MeanSquares (rating, target_ratings) 
loss.backward ()

Как видите , их нельзя использовать для персональной рекомендации!

Однако было бы неплохо принять во внимание взаимную корреляцию метки-метки функции. Мы только что узнали о концепции порядка .Порядок - это количество функций, для которых рассчитывается взаимная корреляция. Предполагая, что порядок равен 2, нам нужно рассчитать CC для двух функций. Тем не менее, эта характеристика является категориальной переменной, так как же вычислить скалярное произведение для двух кошек? Больше скрытых переменных богу скрытых переменных! Метки функций можно описать с помощью векторов, и эти векторы можно регрессировать, используя ту же идею встраиваний, которую мы использовали для факторизации матрицы.

 оценок = линейный (features.size (1), 1) (features) # factorization machine 
latent = latent_embeddings (features)
latent_gram = latent * latent.T
features_gram = features * features.T
рейтинги + = (latent_gram * features_gram) .sum (1) loss = MeanSquares (рейтинги, target_ratings)
loss.backward ()

Вот статья, которая помогла мне лучше понять эту концепцию: ссылка.

Обучение с подкреплением

Основными преимуществами использования RL для рекомендации новостей являются марковская собственность и государственное представительство.Поскольку мы не полагаемся на какие-либо встраивания, мы можем рекомендовать любые фильмы любому пользователю. Вложения фильмов, созданные для этого приложения, не зависят от слоя внедрения. Я использовал простую статистику, такую ​​как средний рейтинг, доход, TF-IDF для текстов, жанров и т.д.… + PCA. Таким образом, вы можете добавить новый фильм по рекомендации без повторного обучения сети. В качестве альтернативы вы можете использовать эти новые вложения для представления состояния. Свойство Маркова гарантирует, что мы можем использовать временные ряды статической длины. Подробнее об этом позже.

предупреждение: сатира

Обучение с подкреплением Ограниченные машины Больцмана Факторизация матрицы

Подводя итог: RL позволяет обучаться на мини-пакетах любого размера, ввод временных рядов статической длины, не зависит от статических встраиваний, работает на стороне клиента, может использоваться для трансферного обучения, имеет регулируемую скорость противников (в TD3), поддерживает ансамбль, работает намного быстрее, чем MF, и сохраняет свойство Маркова. Самый важный компромисс - это точность: крупные корпорации, такие как Netflix / Amazon, по-прежнему полагаются на MF / RBM.

.

Обучение с подкреплением 101. Изучите основы подкрепления… | by Shweta Bhatt

Обучение с подкреплением (RL) - одна из самых актуальных тем исследований в области современного искусственного интеллекта, и ее популярность только растет. Давайте рассмотрим 5 полезных вещей, которые нужно знать, чтобы начать работу с RL.

Обучение с подкреплением (RL) - это метод машинного обучения, который позволяет агенту учиться в интерактивной среде методом проб и ошибок, используя обратную связь от его собственных действий и опыта.

Хотя как контролируемое обучение, так и обучение с подкреплением используют сопоставление между вводом и выводом, в отличие от контролируемого обучения, где обратная связь, предоставляемая агенту, представляет собой правильный набор действий для выполнения задачи, обучение с подкреплением использует вознаграждений и наказаний в качестве сигналов для положительного и отрицательное поведение.

По сравнению с обучением без учителя, обучение с подкреплением отличается с точки зрения целей. В то время как цель обучения без учителя состоит в том, чтобы найти сходства и различия между точками данных, в случае обучения с подкреплением цель состоит в том, чтобы найти подходящую модель действий, которая максимизирует общего совокупного вознаграждения агента.На рисунке ниже показан цикл обратной связи «действие-вознаграждение» типовой модели RL.

Вот некоторые ключевые термины, которые описывают основные элементы проблемы RL:

  1. Среда - Физический мир, в котором работает агент
  2. Состояние - Текущая ситуация агента
  3. Вознаграждение - Обратная связь от среда
  4. Политика - Метод сопоставления состояния агента действиям
  5. Значение - Будущее вознаграждение, которое агент получит, выполняя действие в определенном состоянии

Проблема RL может быть лучше всего объяснена с помощью игр.Давайте возьмем игру PacMan , где цель агента (PacMan) состоит в том, чтобы съесть еду в сетке, избегая при этом призраков на своем пути. В этом случае сеточный мир - это интерактивная среда для агента, в которой он действует. Агент получает награду за поедание еды и наказание, если его убивает призрак (проигрывает игру). Состояния - это местоположение агента в мире сетки, а общая совокупная награда - это агент, выигравший игру.

Чтобы построить оптимальную политику, агент сталкивается с дилеммой исследования новых состояний, одновременно максимизируя свое общее вознаграждение.Это называется компромиссом между и эксплуатацией . Чтобы сбалансировать и то, и другое, лучшая общая стратегия может включать краткосрочные жертвы. Следовательно, агент должен собрать достаточно информации, чтобы принять наилучшее общее решение в будущем.

Марковские процессы принятия решений (MDP) - это математические основы для описания среды в RL, и почти все задачи RL могут быть сформулированы с использованием MDP. MDP состоит из набора конечных состояний S среды, набора возможных действий A (s) в каждом состоянии, действительной функции вознаграждения R (s) и модели перехода P (s ’, s | a).Однако в реальных условиях окружающей среды, скорее всего, не хватает каких-либо предварительных знаний о динамике окружающей среды. В таких случаях пригодятся безмодельные методы RL.

Q-Learning - это широко используемый подход без моделей, который можно использовать для создания самовоспроизводящегося агента PacMan. Он вращается вокруг понятия обновления значений Q, которое обозначает значение выполнения действия a в состоянии s . Следующее правило обновления значения является ядром алгоритма Q-обучения.

Вот видео-демонстрация агента PacMan, который использует глубокое обучение с подкреплением.

Q-Learning и SARSA (State-Action-Reward-State-Action) - два широко используемых алгоритма RL без моделей. Они различаются своими стратегиями разведки, в то время как их стратегии эксплуатации схожи. В то время как Q-обучение - это метод вне политики, в котором агент изучает значение на основе действия a *, полученного из другой политики, SARSA - это метод на основе политики, при котором он изучает значение на основе своего текущего действия a , полученного из его текущая политика.Эти два метода просты в реализации, но им не хватает универсальности, поскольку они не позволяют оценивать значения для невидимых состояний.

Это можно преодолеть с помощью более продвинутых алгоритмов, таких как Deep Q-Networks (DQNs) , которые используют нейронные сети для оценки Q-значений. Но DQN могут обрабатывать только дискретные низкоразмерные пространства действий.

Глубокий детерминированный градиент политик (DDPG) - это не связанный с политикой алгоритм, не связанный с политикой, критикующий субъект, который решает эту проблему путем изучения политик в многомерных пространствах непрерывных действий.На рисунке ниже представлена ​​архитектура "актер-критик" .

Поскольку RL требует большого количества данных, поэтому он наиболее применим в областях, где смоделированные данные легко доступны, например, игровой процесс, робототехника.

  1. RL довольно широко используется при создании ИИ для компьютерных игр. AlphaGo Zero - первая компьютерная программа, победившая чемпиона мира в древней китайской игре го. Другие включают игры ATARI, нарды и т. Д.
  2. В робототехнике и промышленной автоматизации RL используется, чтобы позволить роботу создать для себя эффективную адаптивную систему управления, которая учится на собственном опыте и поведении.Работа DeepMind над Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Policy updates является хорошим примером того же. Посмотрите это интересное демонстрационное видео.

Другие приложения RL включают механизмы резюмирования абстрактного текста, диалоговые агенты (текст, речь), которые могут учиться на взаимодействии с пользователем и улучшаться со временем, изучая оптимальные стратегии лечения в здравоохранении, и основанные на RL агенты для онлайн-торговли акциями.

Для понимания основных концепций RL можно обратиться к следующим ресурсам.

  1. Обучение с подкреплением - Введение , книга отца обучения с подкреплением - Ричарда Саттона и его научного руководителя Эндрю Барто . Онлайн-черновик книги доступен здесь.
  2. Учебные материалы из Дэвид Сильвер , включая видеолекции, - отличный вводный курс по RL.
  3. Вот еще один технический учебник по RL от Pieter Abbeel и John Schulman (Open AI / Berkeley AI Research Lab).

Чтобы приступить к созданию и тестированию агентов RL, могут быть полезны следующие ресурсы.

  1. Этот блог о том, как обучить агент нейронной сети ATARI Pong с градиентами политики из необработанных пикселей, автор Андрей Карпати поможет вам запустить и запустить свой первый агент глубокого обучения с подкреплением всего лишь с 130 строками кода Python.
  2. DeepMind Lab - это платформа с открытым исходным кодом, похожая на трехмерную игру, созданную для агентных исследований искусственного интеллекта в богатой моделируемой среде.
  3. Project Malmo - еще одна платформа для экспериментов с ИИ для поддержки фундаментальных исследований в области ИИ.
  4. OpenAI gym - это набор инструментов для создания и сравнения алгоритмов обучения с подкреплением.
.

Смотрите также