マクニカ、非構造化データ整備を自動化する「Unstructured」の国内提供を開始

テクノロジー

RAG普及と非構造化データ整備の課題

近年、LLMの普及に伴い、企業では生成AIを活用したナレッジ検索や業務効率化への期待が高まっています。特に、社内文書を活用するRAG(検索拡張生成)の構築に取り組む企業が増加しています。

しかし、企業内に存在する営業資料、契約書、マニュアル、技術文書といった多岐にわたる非構造化データは、その形式の多様性から、段落、見出し、表、画像などの構造をAIが正確に把握できないという課題を抱えています。このため、RAGにおいては検索漏れや文脈の誤解釈が生じやすく、概念実証(PoC)では問題なく動作しても、本番環境では精度が安定しないケースが少なくありません。

RAG構築において、非構造化データをAI活用に適した形に整備することは不可欠ですが、一般的なデータ整備プロセスでは、設計担当者が文書ごとにチャンク設計や情報抽出ルールを設計・調整する必要があり、高い専門性が求められます。この作業は属人化しやすく、文書量の増加や内容更新のたびに再調整が必要となるため、運用フェーズでの工数負荷が継続的に増大します。結果として、AIモデル自体の性能ではなく、データ整備および運用の負荷がボトルネックとなり、生成AI活用の本格展開が停滞してしまうことがあります。

Unstructuredによる解決のアプローチ

「Unstructured」は、非構造化データをLLMが扱いやすい形へ自動的に整備するプラットフォームです。一つの文書内に含まれる段落、見出し、表、画像などの構造を保持したままJSON形式へ変換することで、RAGの精度と安定性の向上に貢献します。これにより、従来設計担当者が文書ごとに行っていた細かいチューニング作業や、更新文書への再対応に伴う工数を大幅に削減し、属人化の解消と継続的な運用負荷の軽減を実現します。

<img alt="ETL Plus+ Platform Extract ソースコネクタ Airtable , Astra DB , Azure Blob Storage, Box, Confluence, Couchbase, Databricks Volumes, Discord , Dropbox, ElasticSearch, GitHub , GitLab , Google Cloud Storage, Google Drive, Jira , Kafka , Local File System, MongoDB, Notion , OneDrive, OpenSearch , Outlook, PostgreSQL, S3, Salesforce, SFTP , SharePoint, SingleStore , Slack, Snowflake, SQLite , VastDB , Zendesk ・プレビューコネクタ Transform ファイル形式 .abw, .docx, .gif, .heic, .mcw, .pdf, .rtf, .tsv, .xlsb, .bmp, .dot, .dotm, .eml, .epub, .et, .fods, .htx, .htm, .html, .hwp, .jpeg, .jpg, .md, .msg, .odt, .org, .p7s, .pages, .pbd, .png, .pot, .pptm, .ppt, .prn, .psd, .sdp, .sgl, .svg, .text, .tiff, .txt, .uof, .uos1, .uos2, .web, .webp, .wk2, .xls, .xlsm, .xlsx, .xlw, .xml, .zabw, など パーティショニング (生データをJSONに変換) 高速: 抽出可能なテキストを含む文書向けルールベースパーサ 高解像度: 高速CPUを活用した物体検出およびOCRパイプライン VLM: 複雑な図、表、画像の表現 動画をテキストに変換: フレーム単位のカスタム要約 音声をテキストに変換: 音声または動画ファイルからの高機能な文字起こし ✓ Amazon Bedrock, ✓ Anthropic Claude, ✓ Google Gemini, ✓ Google Vertex AI, ✓ OpenAI GPT-4o, ✓ NVIDIA NeMo Retriever + VLM チャンク化 ✓ 文字単位, ✓ コンテキスト重視, ✓ カスタム, ✓ ページ単位, ✓ 類似性ベース, ✓ タイトルベース エンリッチメント ✓ 固有表現抽出 (NER)、トピック抽出、関係性抽出 ✓ 画像と表の要約, ✓ メタデータタグ (45個以上) 埋め込み (ベクトル化) ✓ Amazon Bedrock, ✓ Azure OpenAI, ✓ Together AI, ✓ Voyage AI, ✓ NVIDIA NeMo Retriever, Text Embedding Load デスティネーションコネクタ Astra DB, Azure AI Search, Azure Blob Storage , Box , Chroma , Couchbase, Databricks Volumes, Databricks Delta Table Delta, Tables in S3 DuckDB , ElasticSearch, Google GCS, IBM Maxus, IBM watsonx data, Zilliz, Kafka, KDB ai , LanceDB , MotherDuck, MongoDB, Neo4j, OneDrive, OpenSearch , Pinecone, PostgreSQL, Qdrant, Redis, S3, SingleStore , Snowflake, SQLite , VastDB , Vectara , Weaviate ・プレビューコネクタ Plus+ 自動化 ✓ スケジュール機能, ✓ 文書のスマートルーティング, ✓ ワークフローの自動最適化, ✓ インテリジェント同期 インターフェース ✓ API, ✓ UI, ✓ MCP コネクタ & プラグイン ✓ 24/365のコネクタ保守管理, ✓ 幅広いシステムとの接続性, ✓ 安全な認証情報処理, ✓ モジュール式プラグインアーキテクチャ エンタープライズ対応 ✓ 会社・チーム単位のアカウント管理, ✓ ロールベースのアクセス制御 (RBAC), ✓ 堅牢なエラー処理とシステムの可観測性, ✓ ISO 27001, HIPAA, SOC2 Type 2, GDPR など 展開プラン ✓ SaaS, ✓ Dedicated Instance” src=”https://minio.s-pst.com/monolab/plugins/655072f98e1e37588c63006792609d45.webp” />

Unstructuredの主な特長

    • 各種クラウドサービスとの連携コネクターを標準装備
      多様なクラウドサービスと標準コネクターで連携し、非構造化データを他のストレージへ移動・複製することなく、更新を含めた継続的な処理を可能にします。
    • 「RAG・生成AI活用」をゴールに据えた前処理設計
      文書構造を考慮したパーティショニング、意味を損なわないチャンク設計、後段のAI処理を見据えたメタデータ付与により、非構造化データをそのまま業務で活用できる状態へ変換します。
    • ノーコードで始められる、迅速なPoC・導入
      ノーコードのGUIを備えており、複雑な非構造化データ処理を、専門知識を持たないユーザーでも安定して実行できます。
    • コンプライアンス及びセキュリティ基準への準拠
      HIPAA、SOC 2 Type 2、GDPR、ISO 27001など、データ保護および情報セキュリティ関連の法令、規制、業界標準に準拠しています。

マクニカは今後、企業が既に利用しているデータ基盤やコンテンツ管理基盤との連携設計から導入まで一貫して支援することで、日本企業における生成AIの実用化を加速していく方針です。

Unstructured Technologies, Inc.のCEOであるBrian Raymond氏は、この発表に際し、次のように述べています。
「世界中の企業データの約80%は非構造化データであり、PDF、メール、プレゼンテーション、各種ドキュメントの中に埋もれたまま、AIシステムからは十分に活用されていません。これこそが、企業における生成AI導入を阻む最大のボトルネックであり、業界を問わず多くの組織から寄せられている共通の課題です。日本のエンタープライズ市場に対する深い知見と、最先端のAIソリューションへの強いコミットメントを持つマクニカは、Unstructuredを日本に展開する上で理想的なパートナーです。両社の協業により、日本企業が自社データの持つ真の価値を解き放ち、生成AIのPoC(概念実証)から本番環境での大規模展開へと移行できるよう支援していきます。」

製品詳細および問い合わせ先

Unstructured Technologies, Inc.について

Unstructured Technologies, Inc.は、2022年8月4日設立の企業で、LLM向けETLプラットフォームの開発および提供を行っています。

株式会社マクニカについて

マクニカは、半導体、サイバーセキュリティをコアとして、最新のテクノロジーをトータルに取り扱うサービス・ソリューションカンパニーです。世界28か国/地域91拠点で事業を展開し、50年以上の歴史の中で培った技術力とグローバルネットワークを活かし、AIやIoT、自動運転など最先端技術の発掘・提案・実装を手掛けています。

コメント