強化学習

強化学習による在庫最適化問題へのアプローチ

今回は、近年注目を集めている強化学習を用いた「サプライチェーン全体の在庫管理最適化」に応用します。在庫管理の簡単なモデルケースを置いて、強化学習による在庫管理最適化がどんな強みや特徴を持っているのか、図を用いながら説明します。 こんにちは。…

RLHFを利用して用途に応じたLLMを生成できるツールの紹介

このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。 今回は、ChatGPTなどで好ましい応答を得られるように、人間からAIモデ…

ざっくりわかるRLHF(人間からのフィードバックを用いた強化学習)

概要

BrainPad エンジニアトーク #4 -データマネジメント- を開催しました!

2022年12月8日(木)に開催された、当社のプロダクト開発エンジニアによるMeetUpイベント「BrainPadエンジニアトーク#4」。 当日は、「DAMA DMBOK を用いたデータマネジメント」という興味深いテーマに対して参加者からの質問が飛び交い、大いに盛り上がった…

BrainPad エンジニアトーク #4 -データマネジメント- 開催します!

2022年12月8日(木)に、当社のプロダクト開発エンジニアによるMeetUpイベント「BrainPadエンジニアトーク#4」を開催します! 参加者の方に好評のMeetUPも4回目を迎えます。今回は、「DAMA DMBOK」を用いたデータマネジメントについてご紹介します。こんにち…

BrainPad エンジニアトーク #3 -機械学習とプロダクト開発- を開催しました!

2022年9月29日(水)に、当社のプロダクト開発エンジニアによるMeetUpイベント「BrainPadエンジニアトーク#3」が開催されましたので、その模様や当日の資料などをレポートブログにしました。次回は、2022年12月頃に開催しますので、参加いただいた方もそうで…

多腕バンディット問題に触れてみる

当社自社開発プロダクト「Rtoaster」のAI機能「conomi-optimize」にも考え方を利用したアルゴリズムが使われている、多腕バンディッド問題。今回のブログでは、多腕バンディッド問題の内容と基本的な解法についてご紹介します! "> ">こんにちは、アナリティ…

強化学習入門 Part3 - AlphaGoZeroでも重要な技術要素! モンテカルロ木探索の入門 -

強化学習入門の第3弾。「モンテカルロ木探索(Monte Carlo Tree Search, MCTS)」を解説するとともに、実際にAI同士で五目並べを戦わせてみました!

強化学習入門 Part2 - TensorflowとKerasとOpenAI GymでPolicy Gradientを実装してみよう!

「強化学習入門」の第2弾。今回は、強化学習の手法の一つ「Policy Gradient」について解説しています。加えて、「Policy Gradient」でTensorflow, Keras, OpenAI Gymを使ったCart Poleの実装内容もご紹介しています!

強化学習入門 ~これから強化学習を学びたい人のための基礎知識~

こんにちは。アナリティクスサービス本部の仲田です。本日は、「強化学習」について、その基礎的なアルゴリズムと、簡単なデモをご紹介します。 強化学習とは機械学習の手法のひとつ (画像はhttps://www.engadget.com/2016/03/12/watch-alphago-vs-lee-sedol…