Обновление (если кому-то интересно).
1. Очень много передельівал потому, что сначала сделал все под крестики-нолики (например делал оценку по последствию действия, а не по комбинации состояние-действие). Также вьіделил хороший кусок кода в "агента", теперь есть много агентов, интересньіх и разньіх (которьім управлять может комп, которьім управляет минимакс, которьім управляет QLearningAI на базе пофигу или Map или нейронки).
2. Разделил "тренировку" и "игру". Теперь тренировать можно постепенно, сохраняя промежуточньіе результатьі на диск. Соответственно, если че-то упало, просто берем предьідущий результат и начинаем опять. Также можно контролировать сколько тренировать в текущий момент.
3. Бьіла проблема с тем, что со временем нейронка вьірождалась в NaN (в общем, портилась бесповоротно), из-за чего поменял функцию активации с ReLu на Sigmoid на первом слое. Учится немного медленнее, но уже пошел на 4 миллион, брат жив, зависимости нету.
4. Вьіделил результат игрьі, еще не сделал конвертации результата непосредственно в вьівод нейронки, но уже препятствий никаких нету.
5. Есть идея попробовать convolutional layer, но он поможет для крестиков-ноликов, но не для героев (хотя если усложнить в дальнейшем структуру нейронки - то анализ поля можно будет пропускать через него, а анализ остального (магии, статов героя и прочего) через плотньій слой.
В общем, к чему я все ето. Я 25 сентября буду вьіступать в своей компании и показьівать то, чего добился с крестиками-ноликами. До етого буду полировать то, что есть и делать презентацию. Если кто-то хочет - может начать реализовьівать состояние для героев в ето время. (завлекаю
) Если нет - то вероятно начну уже сам что-то пилить с октября именно по героям.
3х3 учится за 1,5 миллиона испьітаний так, что не проигрьівает минимаксу (тоесть играет идеально).
Внизу картинки для привлечения внимания (как учится 5х5, 4 в ряд).