全てのコンテンツはAIによって生成されており、誤りが含まれる可能性があります。ご自身でご確認ください。

AI & Machine Learning2026年3月20日2 分で読める

MiMi miclaw デバイス制御ベンチマーク：ツールの信頼性、拒否された操作、多言語コマンドの正確性

「デバイスを制御するエージェント」を、XiaomiのMiMo miclawとOpenAI／Claude／Geminiのツール基盤で比較するための実務者向け評価指標。実行可能な評価ケース付き。

出典

AI & Machine Learning2026年3月20日2 分で読める

MiMi miclaw デバイス制御ベンチマーク：ツールの信頼性、拒否された操作、多言語コマンドの正確性

スマートフォンで「アシスタント」と「デバイスコントローラー」の違いが初めて鮮明になるのは、最初に「電気をつけて」と言ったときです。それが正しく実行されるか、途中で止まるのか、誤って実行するのか、あるいはブロックされるのか——その瞬間に品質が判定されます。

2026年3月6日、Xiaomiは限定テストとして Xiaomi miclaw を開始し、これを「ユーザーが許可を与えた後に、デバイスやスマートホームのアクションを実行できる、スマートフォンのシステムレベルAIアシスタント」と説明しました。
（gizmochina.com

この「アクション実行」への重心移動は重要です。成功は、もはや“聞こえの良い応答”で測れません。問いは工学的なものになります。すなわち、システムは「正しいアクション」を、「正しい権限のもとで」、許容できるレイテンシーとコストの範囲内において実行したのか——そしてそれは、XiaomiのMi Home上のスマートデバイス層を介して行われたのか。
（news.cgtn.com

miclawの賭け：チャットではなくデバイス操作

Xiaomiの MiMo v2 系列は、この振る舞いの“モデル層”として位置づけられています。 MiMo-V2-Flash のリポジトリと技術解説は、Mixture-of-Experts（MoE） アーキテクチャ（1トークンごとに「expert」の一部サブモデルだけが動作する、という意味）を述べています。総パラメータ309B、稼働（active）パラメータ15B。さらに、最大256K までの長文コンテキストをうたいます。
（github.com

加えて、複数の将来トークンを予測することでデコードを加速するための「Multi-Token Prediction（MTP）」も文書化されています。
（github.com

ただし、miclawの本質は“システム”です。高速なモデル、デバイスに接続するツール・インターフェース、そして権限／ガードレール層。その三点をまとめて評価しなければなりません。モデルIQだけを見ていては不十分です。

実行のためのエンジニアリング・ルーブリックを作る

「エージェント的なツール運用」は、能力のスローガンを信じなくても比較できます。必要なのは、実行特性を5つ計測することです。これは、miclawがテストされているデバイス制御ワークフローに直接対応しています。
（これらのテストは、権限で制御されたハーネスを用いてステージング環境で実行できます。）

ルーブリック項目1：ツール呼び出しの信頼性

ツール呼び出しの信頼性とは、問いが2段階で成り立つものです。モデルがツールを使うと判断したとき、（1）スキーマに正しい形式の呼び出しを生成しているか。（2）オーケストレーション層がそれを決定論的に実行できているか。

ツール呼び出しの失敗は、“知能”とは無関係な理由で起きます。ツールAPIは特定の構造化出力を要求します。OpenAIのドキュメントでは、strict: true が有効なときにStructured Outputs がJSONスキーマへの整合を強制できると説明しています。
（help.openai.com

Anthropicのツール利用ドキュメントも同様に、「tool_use ids… found without tool_result blocks」のような、フォーマットの不一致が問題になり得ることを警告しています。
（docs.anthropic.com

miclawについては特に、公に利用できる情報は限られています。しかし報道では、miclawはユーザーの許可がある場合に限って、Mi Homeおよびシステムレベルの機能を通じて対応するスマートホームデバイスを制御できるとされています。
（gizmochina.com

したがって信頼性テストには、「ハッピーパス」のツール呼び出しだけでなく、スキーマ境界を揺さぶるプロンプトも含めるべきです。曖昧なデバイス名、時刻の指定が不完全なケース、そして複数の取り得るアクションが競合する状況などです。

ツール呼び出しが1〜3％の確率で失敗するだけでも、長期のデバイス自動化は急激に劣化します。リトライがレイテンシーを膨らませ、さらに許可プロンプトの往復を増やすからです。深い“推論”を試す前に、ツールスキーマの正しさをゲート指標に据えるべきです。

ルーブリック項目2：多段分解（マルチステップ分解）

多段タスク分解では、エージェントが依頼を適切な順序のツール呼び出しとバリデーションに分解できているかを検証します。典型的には「状態の読み取り → アクションの選択 → 結果の検証 → 継続するか停止するか」です。

LLMコアが似ていても、エージェントスタックは異なり得ます。プロダクションのオーケストレーションでは、ツールによる検証を伴う明示的な計画ステップを求めるチームが多いのが実情です。Anthropicのツール利用ドキュメントは、モデルがツール呼び出しを行うかどうかを判断し、ツール結果が継続のためにどうフィードバックされるかを含むモードを説明しています。
（docs.anthropic.com

OpenAI型のスタックは、分解を現実に根づかせるために、スキーマ強制やツール実行のトレースを用いることが一般的です。

中国のデバイス制御エージェントでは、分解は言語表現をデバイス単位の意味へ翻訳する作業でもあります。例えば「心地よい暖かさになるようにランプの明かりを落として」を、明るさに加えて色温度レンジへ写像する、といった具合です。XiaomiのMi Home自動化の挙動は、プラットフォームレベルのXiaomi公式のプライバシーおよびIoT資料で、デバイススキャンや操作に必要な許可を含めて説明されています。
（trust.mi.com

ベンダー間で分解テストを比較可能にするには、「複数ステップが起きたか」を確認するだけでは足りません。検証ループが、正しい理由で発生したかどうかを測る必要があります。分解スコアを、測定可能な3要素で設計します。

状態読み取りカバレッジ：タスクが必要とする場合、エージェントは状態を変えるアクションの前に「デバイス状態を取得する／照会する」ツールを呼び出していますか。
（例：「明るさを20％に設定」するなら、システムが相対変更を前提としている場合に限り、現在の明るさの事前読み取りを要求する）
停止条件の整合性：検証ステップの後、目標に到達したら停止できていますか。それとも、状態を“追いかける”ように続行してしまっていますか。終状態を変えない余計なツール呼び出しにはペナルティを課します。
エラー回復の形：あえて不一致を注入したとき（検証の直前にランプを50％へ設定するなど）、エージェントは残りの最小ステップだけを組み直しますか。それともチェーン全体を作り直してしまいますか。

具体的には、期待されるツールシーケンスが決定論的になる固定タスク群を用意してください。各タスクについてツール呼び出しと状態スナップショットを記録し、次を算出します。

分解成功率：最終的なデバイス状態が許容誤差内で目標に一致する割合（例：±5％の明るさ、±100Kの色温度）。
検証効率：成功した実行1回あたりのツール呼び出し数の中央値（冪等な読み取りは除外）。
追跡（chase）率：検証が試みられたのに、確認の後もさらに状態変更を行ってしまった割合。

ルーブリック項目3：オーケストレーション下でのレイテンシーとコスト

レイテンシーは単にモデルの速さだけではありません。オーケストレートされたエージェントは、計画のためのオーバーヘッド、複数ツール呼び出し、場合によっては再ランキングや自己チェックの追加負担を生みます。

MiMo-V2-Flashの技術レポートはMTPによるデコード加速を説明し、受理長（acceptance-length）やデコード速度の改善も報告しています（論文の結果セクションで最大2.6xのデコード速度向上として記載）。
（arxiv.org

ただし解釈は慎重に行うべきです。エンドツーエンドのレイテンシーは、提供（serving）スタックとツール呼び出し回数に依存します。トークン毎秒だけで判断できません。

OpenAI側では、ツール呼び出しのパターンがモデル生成とツール実行を分離することが多く、レイテンシーバジェットは次のように分解されます。
（LLM計画時間）＋（ツール実行時間）＋（2回目のLLM継続時間）

OpenAIの関数呼び出しドキュメントは、構造化出力を強調しており、これは結果として、形式不備な呼び出しによる無駄なサイクルを間接的に減らします。
（help.openai.com

したがって、レイテンシーはオーケストレーション層で測定してください。p50とp95で、（1）単一ツール操作と（2）3〜6ステップのデバイスシーケンスをそれぞれ評価します。「速い」モデルでも、ツール呼び出しエラーによってリトライが増えるなら、遅いモデルに負けます。

ルーブリック項目4：拒否された操作と権限失敗

運用上もっとも痛い失敗は、権限の拒否です。デバイスエージェントがブロックされたとき（ユーザーが拒否、OSが拒否、APIが拒否）、正しいふるまいは「延々と試し続ける」ことではありません。安全に失敗し、実行可能な説明を返すべきです。そして可能なら、代替の“許可されている操作”へ切り替えるのが望ましい。

Claudeの開発ドキュメントは、明示的なユーザー入力の扱い方を説明しています。Claudeはツール利用に許可が必要な場合、ユーザー入力を要求し、許可されていない場合は拒否結果を返し得る、とされています。
（platform.claude.com

また、ツール利用ドキュメントは、ツールシーケンスが正しくフォーマットされていないとエラーが起きることも示しており、ログ上は「拒否下での失敗」のように見える場合があります。
（docs.anthropic.com

Xiaomi miclawについては、公表ベースの報道として「ユーザーが許可すれば」デバイスやシステムツールを操作できること、さらに機微情報は「エッジ・クラウド・プライバシー・コンピューティング」という説明に基づいてローカルで扱われることが述べられています。
（gizmochina.com

これは「権限ゲート設計」を示唆しており、まさにハードテストすべき挙動そのものです。

並行して示されるのが、より広いOpenClawの流行です。セキュリティ報道では、中国がOpenClawの導入リスクに関して警告を出したとされます。具体的には、不適切な導入や、高いシステム権限でのエージェントの自律運用が、悪用時の影響を増やし得る、という点が挙げられています。
（techradar.com

これはmiclaw固有の証拠ではありませんが、「権限＋自律操作が失敗する」という一般的なモデルを、テスト計画で必ず扱うべき前提として補強します。

権限失敗には形があります。だからこそ、ハーネスで採点してください。拒否マトリクスを作ります。

拒否のタイミング：ツールの要求時に拒否する（実行前）か、ツール結果の時点に拒否する（実行されるはずだった後）か。
拒否の粒度：「デバイス制御」は拒否するが「状態の読み取り」は許可する。あるいは「システムへの書き込み」は拒否するが「カレンダーの読み取り」は許可する、など。
ユーザー意図の不一致：ユーザーが求めた具体的操作（例：「システム通知音をオフ」）だけを拒否し、近い代替（例：「通知をミュート」）は許可する——といったケース。

そして各実行について、3つの結果をスコア化します。

安全停止の正確さ：禁止される状態変更が一切起きない割合（デバイス状態の差分で検証）。
拒否の透明性：ユーザー向けメッセージが、曖昧な失敗ではなく制約を非一般化された形で名指しする割合（例：「システムサウンド設定に対する許可が拒否されました」）。
フォールバック品質：エージェントが許可された代替案を提示、または実行しつつ、それでもユーザー意図を満たす割合。タスクごとに許される代替をテスト仕様で定義します。

最後に、「権限リトライループ」のパターンに注意してください。拒否された同一エンドポイントへ、パラメータを変えずに同じツールを何度も呼んでしまう形です。拒否イベントごとのツール呼び出し試行回数をログに残し、上限（例：最大1回のリトライ）を明示的に設定します。

ルーブリック項目5：多言語の基盤化とコマンド精度

多言語の基盤化とは、エージェントが異なる言語でのコマンドを、適切な対象（エンティティ）とアクションパラメータへ正しく対応づけられるかどうかを測る指標です。

評価には、ローカライズされた表現の揺れ（同義語、スラング、音訳）と、デバイス命名の不一致を含める必要があります。MiMo-V2-Flashは長文コンテキストをうたい、推論やコーディング、さらにXiaomi側資料で「エージェント的基盤（agentic foundation）」用途に位置づけられています。
（github.com

しかし、多言語コマンド精度は、長文対応だけでは保証されません。必要なのは、コマンドレベルのテストです。たとえば「日本語で、リビングのランプを30％にして」「英語で“warm mode”を設定して」を実行し、そのうえで、エージェントが正しいデバイスを呼び出し、正しい数値レンジを使ったかを検証します。

専門家でないユーザーにとって、多言語の基盤化とは、モデルが“言葉”を現実のデバイス操作（デバイスID、明るさ、温度）へ結びつけることです。単に曖昧に説明することではありません。

同一のアクション集合を、少なくともターゲットユーザーが使う2言語で実行し、パラメータの正確さとデバイス選択の妥当性で採点します。

miclaw型ベンチマークで最初に試すべきこと

MiMo-V2-Flashはチャット専用モデルとして提示されているわけではありません。リポジトリでは、推論／コーディング／エージェント的用途のための効率的な基盤として位置づけられており、ドキュメントにMTPモジュールが記述されています。
（github.com

またarXivの技術レポートは、MTPを用いたスペキュラティブ・デコード（speculative decoding）を論じ、報告されたデコード速度向上の数値も示しています。
（arxiv.org

Xiaomi miclawは、50以上の機能を含むクローズドβとして、システムレベルのアプリと報じられています。テキストメッセージやファイルの読み書きに加え、許可がある場合にMi Homeを通じてスマートホームデバイスを制御することが含まれます。
（news.cgtn.com

実装の詳細が完全に公開されていない以上、テスト計画はブラックボックス挙動に焦点を当てるべきです。ツール呼び出しの出力、アクション結果、そして許可プロンプトです。

実運用に落とし込める定量アンカー

エンジニアリング予算とスコープを正当化するために、次の数値アンカーを使えます。

256Kコンテキスト：MiMo-V2-Flashのモデル資料と技術レポートで主張されています。
（github.com
デバイスエージェントでは、多日スケジュール、オートメーション履歴、デバイス状態スナップショットを保持する局面で長文コンテキストが効いてきます。
総309B／稼働15B：MiMo-V2-Flashリポジトリに文書化されており、効率のためのスパース性を反映していると読み取れます。
（github.com
MiMo-V2-Flashの技術レポートは、実験結果として最大2.6xのデコード速度向上を報告しています。
（arxiv.org
これをアクションあたりに消費されるLLMトークンの削減、そしてオーケストレーションが生成に支配される場合のエンドツーエンド完了の高速化に翻訳します。

ただし、エージェントのワークフローである以上、数字に過度適合（overfit）してはいけません。これは特定条件下での生成効率を述べたものにすぎません。オーケストレーションのレイテンシーには、ツール実行とユーザー許可フローが含まれます。

miclaw型のデバイスエージェントでは、最初のプロダクションリスクは、ツールスキーマのエラー、誤ったデバイスのターゲティング、「拒否後に止まらないループ」です。速度向上は、正しさと停止条件の基盤ができた後に初めて意味を持ちます。

家族横断の比較：実際のツールスタック

Xiaomi miclawと「OpenAI-class」「Claude-class」「Gemini-class」の内部アーキテクチャを、公にある情報だけから直接比較することはできません。ですが、各社が公開しているツール・オーケストレーション契約と、典型的な運用上の失敗モードは比較できます。

OpenAI型スタック：スキーマの厳格さが効く

OpenAIの関数呼び出しドキュメントは、引数のドリフトを避けるための構造化出力とスキーマ厳格性を重視しています。strict: true のStructured Outputsで、JSONスキーマの整合を保証することを狙います。
（help.openai.com

適切に実装されていれば、不正な引数による信頼性の失敗を減らせます。デバイス自動化では、この“壊れた引数”が支配的なエラー要因になり得ます。

実務では、わざと「ニアミス」するデバイス識別子（「living rm lamp」対「living room lamp」）を使ってみてください。厳格なスキーマ強制によって、誤ったツール引数の呼び出しが抑制されるのか。それとも、曖昧さを解く必要がある「拒否された操作」の結果が増えるのか——を確認します。

Claude型スタック：明示的な権限ゲート

Anthropicはツール利用の実装ガイダンスを提供し、ツール呼び出しとツール結果のメッセージ順序要件を明確にしています。
（docs.anthropic.com

ClaudeのAgent SDKドキュメントでも、許可が必要なときにユーザー入力を要求し、拒否結果をどう扱うべきかが説明されています。
（platform.claude.com

テスト上の含意として、拒否された操作ではClaude型のスタックはしばしば「ユーザーに質問する」または「許可結果が拒否だった場合の分岐」のような構造化された道筋を用意します。そこで測るべきは、エージェントが「no（拒否）」を、次の具体ステップへ変換できているかです。たとえば「許可がないためシステム設定は変更できませんが、許可された近道なら提案できます」のように。

Gemini型スタック：オーケストレーションが結果を作る

開発者フォーラムの公開スレッドでは、Geminiの関数呼び出しに関する品質／性能の問題に遭遇し、ツール集合を単純化して引数を段階的に追加しながらデバッグが必要になることがある、といった話が見られます。
（discuss.ai.google.dev

これは逸話であり、統制されたベンチマークではありません。しかし実務的な現実として補強されます。ツール信頼性は、オーケストレーションのラッパーとツールスキーマ設計への依存度が非常に高い、ということです。

プロダクションのデバイスエージェントでは、「エージェント」価値は実行契約に現れます。モデル名を追いかける投資よりも、ツールスキーマと権限処理への投資を優先してください。

現実のエージェント×電話から学ぶ4つの教訓

ケースのパターンは、一貫した失敗モードを示します。それらを使って評価を磨きましょう。

ケース1：Xiaomi miclawの限定テスト開始

対象：Xiaomi miclaw（MiMoベースのシステムレベルスマートフォンエージェント）
結果：発表後、限定テスト／クローズドβが開始。デバイス制御とMi Home連携は、権限ゲートによるものだと説明されている。
（gizmochina.com
時期：2026年3月6日前後として限定テストが報じられた。
（gizmochina.com

学び：権限ゲートとローカル処理の主張は有用だが、それだけでは不十分です。何のツールが試され、何が拒否され、そして何が実際に変化したのか——エンドツーエンドのログが依然として必要です。

ケース2：OpenClaw導入がセキュリティ警告を呼ぶ

対象：OpenClaw（中国市場で人気の自律エージェント）
結果：セキュリティ当局が、不適切なインストールのリスクを警告し、高いシステム権限で動くエージェントが悪用時の影響を高め得る点を強調した。
（techradar.com
時期：2026年3月中旬に警告が報じられた（例：3月13〜15日の報道）。
（techradar.com

学び：拒否対応とツール検証は、セキュリティのプリミティブとして扱うべきです。「エージェントが何かをした」は、「エージェントが安全に正しいことをした」と同義ではありません。

ケース3：政府機械に対する中国のエージェント×ツール締め付け

対象：政府環境におけるOpenClaw
結果：報道では、中国が政府系の企業／機関に対して、オフィスPCへのOpenClawの導入を避けるよう警告したとされています。加えて、セキュリティガイドラインや信頼性の基準が言及された。
（tomshardware.com
時期：2026年3月13日前後に報じられた。
（tomshardware.com

学び：環境文脈（職場か個人の電話か）によってリスク計算が変わります。失敗モードのテストも、環境ごとに設計する必要があります。

ケース4：XiaomiとHuaweiの「システムエージェント投入ラッシュ」

対象：AIエージェントに関するXiaomiとHuaweiの取り組み
結果：報道は、より広い展開の波を描き、miclawが限定テストを始めたことにも触れつつ、システムレベルの能力とユーザー許可モデルを説明している。
（caixinglobal.com
時期：2026年3月12日に公開。
（caixinglobal.com

学び：複数ベンダーが素早くシステムレベルのエージェントを出すと、現場でツール信頼性の穴が露呈します。差別化は“統合速度”ではなく、“評価規律”から生まれます。

プロダクションでは、能力レースが実行検証を上回って進むことを想定してください。あなたのテストハーネスが、その釣り合い（カウンターウェイト）になるのです。

どこまでの作業期間で選ぶか

適切なモデル×エージェントの選択は、作業期間（ワークロード・ホライズン）に依存します。

ワークロードA：ツールと会話する

ツールと会話する（chat-with-tools）とは、エージェントがツールを主に答えを補強するために呼ぶことです。検索、DB参照、要約などが典型です。一方でモデルの主要な役割は応答そのものにあります。この場合、ツール信頼性の影響は主に「回答の正確さ」に現れ、物理的な変化には波及しにくい。

そのため、スキーマ厳格性が効き、ツール結果の解釈が良好なスタックを選びましょう。OpenAIのStructured Outputsのガイダンスは、不正なツール引数による問題を減らせる点で関連します。
（help.openai.com

Claudeのツール利用ドキュメントは、シーケンス契約を正しく担保する助けになります。
（docs.anthropic.com

正確さと高速な反復に最適化します。最大のリスクは、隠れたツール呼び出しのフォーマット問題が、静かに回答品質を下げていくことです。

ワークロードB：自律的なマイクロ操作

自律的なマイクロ操作は短い一連の手順で、スコープが限定されます。「デスクランプをつける」「タイマーをセットする」「メッセージに基づいてリマインドを追加する」などです。この領域では、分解、検証、拒否対応が必要になります。

ここでmiclawの位置づけが最も関係してきます。報道では、miclawはシステムレベルのエージェントであり、許可がある場合にコンテンツの読み書きやスマートホームデバイスの制御が可能だとされています。
（gizmochina.com

強制的な許可拒否を含めたシナリオテストを走らせ、「no」が安全停止と有益な代替案へ変換されるかを確認してください。

ワークロードC：長期のデバイス自動化

長期の自動化は最も難しいカテゴリです。多日スケジュール、状態追跡、複数デバイスにまたがる連鎖アクション。そして現実が変わったときの時折の再計画。

ここでは、モデルの速度と長文コンテキスト対応が実務的に意味を持ちます。ただし、その条件はオーケストレーションが監査ログと停止条件を保てることです。MiMo-V2-Flashの256Kコンテキスト主張とデコード加速は、長い計画期間に直結します。さらに論文はスペキュラティブ・デコードによる高速化を述べています。
（github.com

それでも、「デバイス制御のためのエージェント」システムは、ツール拒否や状態不一致を受け止めつつ、誤りを連鎖的に増幅させない必要があります。

ツール実行をワークフローとして扱い、チェックポイントを設けてください。状態変更のたびに「読み戻し（read-back）検証」を要求します。

結論：嘘をつけないハーネスを作る

miclaw型のデバイス制御エージェントを、OpenAI／Claude／Gemini型のツールスタックと比較するなら、モデルの品質で議論して終わりにしないでください。必要なのは、権限拒否に耐えるデバイス制御ハーネスの投入です。そこで採点するのは、次の項目です。ツール呼び出しの信頼性、多段分解、オーケストレーション下でのレイテンシー／コスト、拒否された操作での失敗モード、多言語コマンドの正確さ。

実務家向け実装方針

マイクロ操作から長期自動化へ広げる前に、プロダクトチームには 監査可能なツール・トレース と 最小権限のツール許可リスト（least-privilege tool allowlist） の実装を義務づけてください。これはモデル提供者ではなく、CTO／Head of Platform Engineering がオーナーとなるエンジニアリング品質ゲートの下に置くべきです。

根拠は実務的です。ツール呼び出しの契約と権限ゲートは文書化されています（OpenAIのスキーマ厳格性、Anthropicのツール順序と権限処理など）。加えて、自律エージェントのエコシステム経験は、権限とシステムアクセスがリスクを増幅させる構図を繰り返し示しています。
（help.openai.com

信頼性をもって権限拒否を止め、説明し、監査できるようになったとき、あなたのエージェントは「自律的」ではなく「信頼できる」ものになります。

今後90日間の見通し

今後90日間の見通し：2026年6月までに、デバイス制御エージェントを統合する多くのチームは、「エージェントのプロンプト品質」から オーケストレーションの正確さ へ重点を移すはずです。より厳格なツールスキーマ、拒否時の停止挙動の改善、そしてより決定論的な検証ステップです。理由は運用面にあります。システムレベルのエージェントはすでに限定的なテストと展開サイクルに入りつつあり、さらに高い権限での自律ツールに対するエコシステムの警告が、実装者をより安全な実行パターンへと押し出しているからです。
（gizmochina.com

出典

記事一覧

miclawの賭け：チャットではなくデバイス操作

加えて、複数の将来トークンを予測することでデコードを加速するための「Multi-Token Prediction（MTP）」も文書化されています。
（github.com

実行のためのエンジニアリング・ルーブリックを作る

ルーブリック項目1：ツール呼び出しの信頼性

ルーブリック項目2：多段分解（マルチステップ分解）

OpenAI型のスタックは、分解を現実に根づかせるために、スキーマ強制やツール実行のトレースを用いることが一般的です。

状態読み取りカバレッジ：タスクが必要とする場合、エージェントは状態を変えるアクションの前に「デバイス状態を取得する／照会する」ツールを呼び出していますか。
（例：「明るさを20％に設定」するなら、システムが相対変更を前提としている場合に限り、現在の明るさの事前読み取りを要求する）
停止条件の整合性：検証ステップの後、目標に到達したら停止できていますか。それとも、状態を“追いかける”ように続行してしまっていますか。終状態を変えない余計なツール呼び出しにはペナルティを課します。
エラー回復の形：あえて不一致を注入したとき（検証の直前にランプを50％へ設定するなど）、エージェントは残りの最小ステップだけを組み直しますか。それともチェーン全体を作り直してしまいますか。

分解成功率：最終的なデバイス状態が許容誤差内で目標に一致する割合（例：±5％の明るさ、±100Kの色温度）。
検証効率：成功した実行1回あたりのツール呼び出し数の中央値（冪等な読み取りは除外）。
追跡（chase）率：検証が試みられたのに、確認の後もさらに状態変更を行ってしまった割合。

ルーブリック項目3：オーケストレーション下でのレイテンシーとコスト

ルーブリック項目4：拒否された操作と権限失敗

これは「権限ゲート設計」を示唆しており、まさにハードテストすべき挙動そのものです。

権限失敗には形があります。だからこそ、ハーネスで採点してください。拒否マトリクスを作ります。

拒否のタイミング：ツールの要求時に拒否する（実行前）か、ツール結果の時点に拒否する（実行されるはずだった後）か。
拒否の粒度：「デバイス制御」は拒否するが「状態の読み取り」は許可する。あるいは「システムへの書き込み」は拒否するが「カレンダーの読み取り」は許可する、など。
ユーザー意図の不一致：ユーザーが求めた具体的操作（例：「システム通知音をオフ」）だけを拒否し、近い代替（例：「通知をミュート」）は許可する——といったケース。

そして各実行について、3つの結果をスコア化します。

安全停止の正確さ：禁止される状態変更が一切起きない割合（デバイス状態の差分で検証）。
拒否の透明性：ユーザー向けメッセージが、曖昧な失敗ではなく制約を非一般化された形で名指しする割合（例：「システムサウンド設定に対する許可が拒否されました」）。
フォールバック品質：エージェントが許可された代替案を提示、または実行しつつ、それでもユーザー意図を満たす割合。タスクごとに許される代替をテスト仕様で定義します。

ルーブリック項目5：多言語の基盤化とコマンド精度

同一のアクション集合を、少なくともターゲットユーザーが使う2言語で実行し、パラメータの正確さとデバイス選択の妥当性で採点します。

miclaw型ベンチマークで最初に試すべきこと

実運用に落とし込める定量アンカー

エンジニアリング予算とスコープを正当化するために、次の数値アンカーを使えます。

256Kコンテキスト：MiMo-V2-Flashのモデル資料と技術レポートで主張されています。
（github.com
デバイスエージェントでは、多日スケジュール、オートメーション履歴、デバイス状態スナップショットを保持する局面で長文コンテキストが効いてきます。
総309B／稼働15B：MiMo-V2-Flashリポジトリに文書化されており、効率のためのスパース性を反映していると読み取れます。
（github.com
MiMo-V2-Flashの技術レポートは、実験結果として最大2.6xのデコード速度向上を報告しています。
（arxiv.org
これをアクションあたりに消費されるLLMトークンの削減、そしてオーケストレーションが生成に支配される場合のエンドツーエンド完了の高速化に翻訳します。

家族横断の比較：実際のツールスタック

OpenAI型スタック：スキーマの厳格さが効く

Claude型スタック：明示的な権限ゲート

Anthropicはツール利用の実装ガイダンスを提供し、ツール呼び出しとツール結果のメッセージ順序要件を明確にしています。
（docs.anthropic.com

ClaudeのAgent SDKドキュメントでも、許可が必要なときにユーザー入力を要求し、拒否結果をどう扱うべきかが説明されています。
（platform.claude.com

Gemini型スタック：オーケストレーションが結果を作る

現実のエージェント×電話から学ぶ4つの教訓

ケースのパターンは、一貫した失敗モードを示します。それらを使って評価を磨きましょう。

ケース1：Xiaomi miclawの限定テスト開始

ケース2：OpenClaw導入がセキュリティ警告を呼ぶ

ケース3：政府機械に対する中国のエージェント×ツール締め付け

学び：環境文脈（職場か個人の電話か）によってリスク計算が変わります。失敗モードのテストも、環境ごとに設計する必要があります。

ケース4：XiaomiとHuaweiの「システムエージェント投入ラッシュ」

どこまでの作業期間で選ぶか

適切なモデル×エージェントの選択は、作業期間（ワークロード・ホライズン）に依存します。

ワークロードA：ツールと会話する

Claudeのツール利用ドキュメントは、シーケンス契約を正しく担保する助けになります。
（docs.anthropic.com

正確さと高速な反復に最適化します。最大のリスクは、隠れたツール呼び出しのフォーマット問題が、静かに回答品質を下げていくことです。

ワークロードB：自律的なマイクロ操作

強制的な許可拒否を含めたシナリオテストを走らせ、「no」が安全停止と有益な代替案へ変換されるかを確認してください。

ワークロードC：長期のデバイス自動化

ツール実行をワークフローとして扱い、チェックポイントを設けてください。状態変更のたびに「読み戻し（read-back）検証」を要求します。

Trending Topics

Browse by Category

出典

Trending Topics

Browse by Category

miclawの賭け：チャットではなくデバイス操作

実行のためのエンジニアリング・ルーブリックを作る

ルーブリック項目1：ツール呼び出しの信頼性

ルーブリック項目2：多段分解（マルチステップ分解）

ルーブリック項目3：オーケストレーション下でのレイテンシーとコスト

ルーブリック項目4：拒否された操作と権限失敗

ルーブリック項目5：多言語の基盤化とコマンド精度

miclaw型ベンチマークで最初に試すべきこと

実運用に落とし込める定量アンカー

家族横断の比較：実際のツールスタック

OpenAI型スタック：スキーマの厳格さが効く

Claude型スタック：明示的な権限ゲート

Gemini型スタック：オーケストレーションが結果を作る

現実のエージェント×電話から学ぶ4つの教訓

ケース1：Xiaomi miclawの限定テスト開始

ケース2：OpenClaw導入がセキュリティ警告を呼ぶ

ケース3：政府機械に対する中国のエージェント×ツール締め付け

ケース4：XiaomiとHuaweiの「システムエージェント投入ラッシュ」

どこまでの作業期間で選ぶか

ワークロードA：ツールと会話する

ワークロードB：自律的なマイクロ操作

ワークロードC：長期のデバイス自動化

結論：嘘をつけないハーネスを作る

実務家向け実装方針

今後90日間の見通し

出典

miclawの賭け：チャットではなくデバイス操作

実行のためのエンジニアリング・ルーブリックを作る

ルーブリック項目1：ツール呼び出しの信頼性

ルーブリック項目2：多段分解（マルチステップ分解）

ルーブリック項目3：オーケストレーション下でのレイテンシーとコスト

ルーブリック項目4：拒否された操作と権限失敗

ルーブリック項目5：多言語の基盤化とコマンド精度

miclaw型ベンチマークで最初に試すべきこと

実運用に落とし込める定量アンカー

家族横断の比較：実際のツールスタック

OpenAI型スタック：スキーマの厳格さが効く

Claude型スタック：明示的な権限ゲート

Gemini型スタック：オーケストレーションが結果を作る

現実のエージェント×電話から学ぶ4つの教訓

ケース1：Xiaomi miclawの限定テスト開始

ケース2：OpenClaw導入がセキュリティ警告を呼ぶ

ケース3：政府機械に対する中国のエージェント×ツール締め付け

ケース4：XiaomiとHuaweiの「システムエージェント投入ラッシュ」

どこまでの作業期間で選ぶか

ワークロードA：ツールと会話する

ワークロードB：自律的なマイクロ操作

ワークロードC：長期のデバイス自動化

結論：嘘をつけないハーネスを作る

実務家向け実装方針

今後90日間の見通し