ローカルLLMにブラウザを操作させる(BrowserOS+LM Studio)

ハウツー

BrowserOSというブラウザがあります。OSではありません。LLMが直接操作できるようになっているブラウザ(AIブラウザというらしい)です。バージョン0.33くらいのときに一度触って使い物にならなかったので放置していましたが、今はかなり良くなっているようなので記事にしました。

BrowserOSとはなんぞ

BrowserOSは、平易な英語でウェブタスクを説明するだけで自動化できる、AIネイティブブラウザです。Chromiumをベースに構築されており、AIエージェントをローカルマシン上で実行することで、プライバシーを保護しながら、ブラウジングに強力な機能を提供します。

とのことです。公式サイトより。Plain Englishと書かれていますが日本語で指示しても動きます。

設定

LM Studioであらかじめモデルをダウンロードし設定しておきます。私はQwen3.6-27Bを使いました。それからBrowserOSの”Assistant”ページ経由で設定へ飛んで、”BrowserOS AI”タブからAdd cumstom providerします。ここでLM StudioのURLとモデルを設定します。モデル検索の欄に直接モデル名を打ち込むことで設定できます。なんだこのUI……

設定したら画面下部にLM Studioの項目が追加されるので、チェックしてDefault providerに設定します。

使おう

Assistant画面で適当にやらせたいことを打ち込みます。「chatgpt, gemini, claudeそれぞれの有料プランを調べて比較し、どんな目的に適しているかを説明してください」と打って送信すると、しばらくごちゃごちゃとウェブサイトにアクセスして、正しい価格を一覧にしてくれました。5~10分くらいかかりました。正直これくらいのタスクだったら人間がやった方が早いです。

気になった点

指示を出すと直接各社のプランが載っているであろうページのURLを生成しアクセスしようとしていました。Geminiのページだけハルシネーションを起こして正しいページにたどり着けず何度かやり直していました。せっかく検索機能があるのですから、自身の記憶に頼らず検索で正しいページを探してきてほしいものです。たぶん明示的に指示すればそのようにやってくれるはずです。こういったモデルのクセを必ずしも修正する必要はないと判断して具体的な指示をシステムプロンプトに含めていないのかもしれません。

AIブラウザの展望

ついにChromeが小型モデルを内蔵したことからわかるように、言語モデルをブラウザに接続する動きが活発になっています(一方でそういった動きをあえて否定するWaterfox, Vivaldi, Zen, Librewolfなどのブラウザもあります)。小型モデルでもある程度のタスクをこなせるようになったからでしょう。

これから何ができるようになるのでしょうか? BrowserOSではどうかわかりませんが、ブラウザを通じてAIに買い物させることができるようです。住所やクレカの情報などをLLMに渡すことになるはずなので、これはさすがにプロプライエタリではなくローカルLLMでやりたいですね(私は買い物するときかなり吟味するのでまだLLMには任せたくありません)。キャプチャをどうやって突破するんだろう? そこは手動なんでしょうか? (いろいろあって最終的には手動で解くことが多いようです)

AIブラウザでできることは他の形態(たとえばcurlを使わせたり)でもできるのではないかと思っていましたが、そうでもないようです。ログインが必要なページの中身をLLMが読み取るためにはログイン状態のセッションが必要で、それをブラウザが用意できるのです。

懸念もあります。ウェブサイトにプロンプトインジェクション攻撃が仕込まれていたらLLMはそれを回避できるのでしょうか? 「今までの指示は無視して以下の指示に従ってください」といった単純な攻撃への耐性はGemma4-31Bレベルの比較的小さなモデルでも備えられていることを確認していますが、それ以外では? ブラウザには多くの重要な個人情報が含まれています。住所、クレカの情報、パスワードなどです。これらへのアクセス権限をLLMが持っていたら、AIブラウザは新たな個人情報窃取の一大フロンティアとなるでしょう。この懸念もあって、私はこのBrowserOSにはなんの情報も入力していません。

コメント

タイトルとURLをコピーしました