Нація інновацій: Енциклопедія нових технологій

Розділ 1.7: Навчання з підкріпленням і прийняття рішень

Навчання з підкріпленням (Reinforcement Learning, RL) — це підполе машинного навчання, яке зосереджується на створенні алгоритмів, які можуть навчатися на основі взаємодії з навколишнім середовищем для прийняття рішень. Розвиток RL можна простежити на початку 1950-х років, коли дослідники почали вивчати поведінку та навчання тварин.

У 1960-х роках дослідники почали досліджувати концепцію використання методу проб і помилок для навчання комп’ютерів приймати рішення. Однак розроблені на той час алгоритми були обмежені складністю задач, які вони могли вирішити.

У 1970-х роках Річард Саттон і Ендрю Барто розробили новий алгоритм під назвою Q-навчання, який дозволив комп’ютерам навчитися приймати рішення на основі винагород і покарань. Алгоритм був використаний, щоб навчити комп’ютер грати в нарди на світовому рівні.

У 1980-х і 1990-х роках дослідження RL були в основному зосереджені на розробці алгоритмів, які могли б навчатися з моделювання. Однак поява потужніших комп’ютерів і доступність даних із реальних додатків призвели до значного прогресу в RL за останні два десятиліття.

Один із найзначніших проривів у RL стався у 2013 році, коли дослідники з DeepMind розробили новий алгоритм під назвою Deep Q-Network (DQN). DQN поєднав RL із глибокими нейронними мережами, що дозволило комп’ютерам навчитися грати у відеоігри Atari на надлюдському рівні.

З тих пір RL застосовувався в широкому діапазоні програм, включаючи робототехніку, ігри та автономні транспортні засоби. В останні роки зростає інтерес до використання RL для вирішення складних проблем у таких сферах, як охорона здоров’я, фінанси та енергоменеджмент.

Розробка RL була зумовлена поєднанням прогресу в алгоритмах машинного навчання, обчислювальної потужності та доступності даних. Оскільки ці технології продовжують удосконалюватися, цілком імовірно, що RL відіграватиме все більшу роль у вирішенні деяких із найскладніших проблем, з якими стикається сьогодні суспільство.




Поскаржитись




Використання файлів Cookie
З метою забезпечення кращого досвіду користувача, ми збираємо та використовуємо файли cookie. Продовжуючи переглядати наш сайт, ви погоджуєтеся на збір і використання файлів cookie.
Детальніше