エグいしか感想が出てこない。驚き屋とかではなく。
以前Qwen3.5-27Bを紹介する記事で、「まとも」とか「簡単なバイブコーディングができる」とか「少なくともClaude 3.7 Sonnet以上の働きをしてくれます」といった感想を書きました。正直これは著しい過小評価でした。
いきなり大規模かつ正確性を求められる本気のプロジェクトに組み込むのは怖かったので、現在アップデートする気を失っていたプロジェクトのリファクタリングを任せています。何度かコードの改変をさせているうち、一度もバグを含めた動作の仕様の変化に遭遇していません(リファクタリングとは、ざっくり言うと動作を変えずに内部のコードを整理することです)。以下のような設定をしてQ4_K_S量子化モデルをLM Studio + Opencodeで利用しています。これでギリギリRX7900XTXの24GBに載るか載らないかといったところです。

(この後評価バッチサイズは20000にしました)
コンテキストウィンドウ内にトークンを収めるためにOpencode側で頻繁にcompactを行う、指示は小分けにして明確化するなど使い方にコツが要ります(原義のバイブコーディングではありませんね)が、かなり自律的にコーディングしてくれます。ローカルLLMがプロプライエタリなモデルにかなり近づいていると感じます。
些細な(人によっては重要な)問題もあります。LMStudioをサーバーとして使うと、クライアントとの相性(テンプレートの扱い)によってはThinking(Reasoning)してくれなかったりjinjaテンプレートが使えなかったりします。Reasoningしてくれなければロールプレイと日本語の性能がかなり落ちます。新しいクライアントアプリを探さなければ……
去年貧乏学生ながらClineでClaude 3.7 Sonnetに課金しまくって、何度も何度もSonnet由来のバグと格闘しながら一つのアプリを作っていたのが信じられませんQwen3.5-27Bならアプリを作らせても改修させてもバグ一つ作らないのですから(複雑なアルゴリズムを使わせず、手続き的なプログラミングをさせているというのも要因としてあります)。Claude 3.7 Sonnet以上なのは間違いなく、もしかしたら現行のSonnetにも匹敵するんじゃなかろうかという手触りです(エラーの出し方が全く同じで驚きました)。
追記
弱みが見えてきました。
- 大規模なリファクタリングなどで一度に複数の変更をさせるとさすがに動作するコードを書けなくなる
- 得意な言語と不得意な言語があり、たとえばRustでハルシネーションを起こしてclone()を使えない部分にclone()をつけてしまう(言えば解決してくれる)
- 創作的な文を書かせると短く簡潔すぎ、記事を書かせると中身がなさすぎる
- 数万トークンの文章を完璧に把握して見解を出すことはできない


コメント