オフライン画像認識 × エッジAI × Ditto

オフラインで「視る」ローカルで「飛ばす」

「セキュリティの壁」や「通信環境の欠如」で、DXを諦めていませんか？

K&Kソリューションは、ネットワークに接続できない設備を、カメラとエッジAIを用いてデータ化する「非接触・後付け」の技術検証を行っています。インターネットに繋がずに、デバイス間のローカル通信のみで、モニターの数値や現場の状況を収集・活用する手法とその可能性を公開します。

検証サマリー

● 検証結果：ネットを介さずに、計器の「数値読み取り」と「状況の言語化」の双方に成功
● 技術的成果：エッジAIによる情報のデータ化とDittoによるオフライン連携の有効性を確認
● 適用可能性：通信不可エリアでのデータ収集に加え、自律監視ソリューションへの応用を確認

検証の背景：本検証で解決を目指した「3つの課題」

多くの現場では、「見ればわかる」情報がデータ化されずに捨てられています。
私たちは、既存のDXソリューションが抱える以下の「3つの壁」こそが阻害要因であると仮説を立て、
これを「既存設備を一切変えずに」突破するための技術検証を行いました。

1. 高いセキュリティ要件

制御盤や重要インフラには「外部ネットワーク接続禁止（エアギャップ）」の運用ルールがあり、クラウド連携が許可されない。

2. 既存改修の高コスト

古いシステムの改修には、ベンダーへの莫大な費用や、停止・再検証のリスクが伴うため、手が出せない。

3. 通信環境の欠如

山間部、地下、機内など、そもそもWi-Fiやキャリア電波が届かないため、従来のIoT機器が使えない。

検証内容1：オフラインOCRとデータ連携

非接触 & 後付けDX

「アナログ表示を、デジタルデータへ」

Webカメラが画面を撮影し、エッジAIが数値を読み取り、Ditto技術で通知を行う仕組みを構築しました。

システム構成イメージ

ハードウェアには Raspberry Pi 5 と市販のUSBウェブカメラを使用。
ソフトウェアは Python (Tesseract) と Node.js (Ditto) を連携させています。

実装ロジックの処理フロー

Step 1: 画像取得 (Capture) Webカメラでディスプレイを物理的に撮影（検証では5秒間隔のループ処理）。

Step 2: 文字認識 (OCR) 撮影した画像をTesseractでテキストデータ化。日本語と英語の認識に対応。

Step 3: 正規化と検証 (Normalization) 読み取ったテキストが正規フォーマット（例: ID;Value）かチェック。事前に登録されたマスタデータと照合し、有効なデータのみを抽出することで誤検知を防ぎます。

Step 4: 重複排除 (Deduplication) 直近10件の履歴を保持し、すでに処理済みのデータは破棄。無駄な通知を防ぎます。

Step 5: データ連携 (Sync) 有効なデータをJSONファイルとして出力し、Node.jsアプリがそれを検知。Ditto SDKを用いてBluetooth経由でスマートフォンへ即座に同期します。

この構成により、既存のケーブルやプログラムには触れない（Zero Interference）安全な導入と、
通信費のかからない運用を実現しました。

検証内容2：エッジでの視覚言語モデル（VLM）

OCRによる「数値」の読み取りに加え、カメラ映像そのものをAIが「理解」し、状況をテキストで説明する
視覚言語モデル（VLM）の動作検証も行いました。
クラウドのLLMを使わず、エッジデバイスのみで高度な認識処理を行う試みです。

検証内容: 画像の意味理解

Raspberry Pi 4上でローカルVLMを稼働させ、以下のプロンプトで推論を実行。

🖼️

[入力画像] 人物、車両（ミニバン）、動物（犬）が含まれる風景写真

※ プライバシー保護および肖像権への配慮のため、検証に使用した実際の写真は非表示としています。

プロンプト (入力) 「入力の画像の内容を日本語で説明してください」

AIの回答 (Raspberry Pi上の生成結果) 「この写真には、グレーのミニバンに乗った女性と、彼女の隣に座っている黒い犬が写っています。女性は緑色のジャケットを着ており...（中略）...全体的に穏やかな風景のようですね。」

検証結果と監視ソリューションへの展望

高度な認識能力: 文字情報だけでなく、人物、車種、犬などの物体認識と、それらの関係性（隣に座っている等）までを正確に言語化することに成功しました。
処理時間の壁: 現在の構成では推論完了までに約4分（画像のエンコーディング含む）を要しています。これはリアルタイム監視には長い時間です。
今後の対策: モデルの量子化（軽量化）や、動体検知トリガー（動きがあった時だけVLMを動かす）との組み合わせにより、実運用レベルまでの高速化・最適化を目指します。
活用可能性: この技術を応用することで、工場内での危険エリアへの立ち入り検知や、自然環境における変化（河川の増水、動物の出現）の定点観測など、通信環境のない場所での自律的な監視ソリューションの実現が期待できます。

※ 本検証で生成されたテキストデータも、検証1と同様の仕組み（Ditto）を用いてオフライン環境下でのデータ連携が可能です。

今後の活用・応用イメージ

OCRとVLM、2つのアプローチであらゆる「オフライン現場」の課題解決を目指します。

エッジAIロボット

防犯・巡回ロボットに搭載。通信できない死角エリアでも、VLMで「不審物」や「異常」を自律的に判断・記録する。

BCP / 災害対策

システムダウン時、緊急で届くFAX注文書をカメラで読み取り、オフラインで注文データ化して現場へ連携。

● 災害監視: 通信断絶エリアでの自律監視システム

● 工場内ローカル監視: 計器の異常値を検知しパトランプ連携

● 農業IoT: 山間部ハウスの温湿度計自動記録

● インフラ点検: トンネル内メーターの自動集計

この技術を、一緒に育てませんか？

Syncastシリーズ及びDittoに関するお問い合わせ、端末間通信を実現するアプリケーションの制作のご相談はもちろん、
本プロジェクトを推進するビジネスメンバー・開発メンバーも募集しています。
下記フォームもしくは下記メールアドレスまでご連絡ください。

syncast-team@kksol.co.jp

Syncast 技術検証レポート - Vol.01