AI‑Native Film™

AIが理解・引用できる映画・映像を。章立て・時間根拠つき要約・深いリンク・JSON‑LDまで一気通貫。
露出と商談化に直結する映像基盤を、Leonard Pictures®️が設計します。

　AI‑Native Film™ は、映像そのものとその意味メタデータを同時に設計・生成・公開する方式です。

　具体的には、(A) 撮影・編集の段階で機械が解釈しやすい構造化（章立て・発話タイムスタンプ・シーン境界・エンティティ）を埋め込み、(B) それを JSON‑LD（VideoObject/Clip/SeekToAction） と深いリンク（time-deeplink）で公開し、(C) 近年の動画理解モデル（Video Transformer/ビジョン言語表現/音声認識）が取り出しやすい形に整えます。

　この構成は、Google 検索のKey Momentsや自動チャプター化、動画の時間区間への直接リンクを有効化する公開仕様と整合しています。

技術アーキテクチャ

形式化

　長さ $T$ の動画 $V$ を、フレーム系列$ F_{1:T}$、音声波形 $A_{1:T}$、（音声認識による）発話転写 $W=\{(w_i, t_i)\}$ のマルチモーダル時系列として扱います。

　目的は、イベント（章・ショット・根拠区間）集合

$$E=\{e_k=(s_k,\, e_k,\, y_k,\, X_k)\}_{k=1}^{K}$$

を推定し、各イベントにテキスト要約 $y_k$ と エンティティ注釈 $X_k$（Wikidata QID 等）を付与、公開時に Clip や SeekToAction と整合する時間アンカーを与えることです。

　Clip では startOffset/endOffset を明示、SeekToAction では deeplink ルールを与えて自動キーモーメント抽出を支援します。

インジェスト／下準備

ASR & 字幕
　OpenAI Whisper を代表とする大規模弱教師あり ASR を用い、多言語かつ雑音へ頑健な転写と話者分離（外部ツール併用）で発話‐時間整合を得ます。Whisper は 68 万時間の多様データで学習され、ゼロショット条件でも高い頑健性を示します（論文・モデルカード）。

ショット境界検出
　TransNet V2 等の学習ベース SBD により、切替点（カット/ディゾルブ）を自動抽出し、後段のイベント分割の素片にします。

音響イベントタグ
　AudioSet のラベル体系（632 クラス）を参考に、拍手・機械音・屋外環境など非発話の手掛かりを付与し、後段のキャプションや検索意図推定を補強します。

事件（イベント）単位の意味付け

動画 Transformer による時空間理解
　TimeSformer や ViViT のような動画用 Transformer を基盤に、フレームパッチの時空間アテンションで長尺動画の特徴を抽出（ViViT は空間・時間の因子化注意を提案）。これにより、カットを跨ぐ語りの継続や動作‐物体相互作用の把握が可能になります。

Dense Captioning & 時間トークン
　Vid2Seq は時間トークンを言語列に混在させ、境界（開始/終了）と説明文を単一系列で同時生成する枠組みを提示。章・小見出し・根拠区間を自然言語で時間にグラウンディングできます。AI‑Native Film™では、これを編集台本・JSON‑LD Clip に投影します。

ビジョン言語表現と検索
　CLIP4Clip や VideoCLIP によるテキスト↔動画の共同埋め込みで、FAQ から該当区間を即時検索したり、質問駆動でAnswerClip（≤15s）を自動候補生成できます。前者は CLIP の知識転移、後者は時間的に重なる正例と近傍ハードネガティブで学習します。

関係理解（任意）
　Scene Graph 系の研究（VidSGG/PVSG）は、人-物-関係の系列表現を志向。複雑な製造・医療などで行為と対象の組合せを明示化する際に有効です。

エンティティ連携（ナレッジグラフ）

　発話テキストと画面内検出から、人物・組織・製品・地名・作品を抽出し、Wikidata QID へ正規化。公開時は Schema.org の sameAs を用い、機械が同一実体と判定できるよう外部 ID をリンクします（Wikipedia/Wikidata/公式サイト等）。

　これによりエンティティの曖昧性を抑制し、回答エンジンのエンリッチ精度を高めます。

公開実装（深いリンクと構造化データ）

Media Fragments / time deeplink
　?t=30 のような時間フラグメント URIは W3C 勧告で仕様化。プレイヤー側が対応していれば、秒単位の直接再生が可能です。

VideoObject / Clip / SeekToAction（JSON‑LD）

　　（１）Clip
　　　　区間ごとに startOffset/endOffset と見出しを定義（完全手動）。

　　（２）SeekToAction
　　　　deeplink ルール（例：target":"https://example.com/video?t={seek_to_second_number}"）を示し、Google 側が自動で Key Moments を抽出。日本語を含む複数言語でサポートされています。

有効化と要件
　Google は Key Moments を有効にする要件・ガイドラインを公開。動画ファイルのフェッチ可能性やdeeplink の規則性が条件です。

Leonard Pictures ®︎ のワークフロー
研究知見を運用可能にする設計

（１）Script as Data
　台本にWho/What/When/Where/Evidence をフィールド化。撮影時に根拠ショット（数表/装置/画面キャプチャ）を必ず押さえ、後段の引用性を担保。

（２）機械可読の編集台本
　ショット境界（TransNet V2）→イベント候補（Vid2Seq）→人手リライト→時間根拠つき要約の確定。

（３）多言語転写・字幕
　Whisper 下書き＋校正、話者タグ・用語表で整合性を確保。

（４）ナレッジ連携
　固有名詞を Wikidata に突き合わせ、sameAs を付与。

（５）公開設計

　　Clip
　　　意思決定に直結する 5–12 区間を手動定義。

　　SeekToAction
　　　ページ全体に deeplink ルールを適用（Key Moments 自動抽出の保険）。

　　計測
　　　Key Moments 表示率／deeplink 起点再生／本編完了率をイベントで計測。

研究・特許との対応関係
どの知見がどこに生きるか

工程	研究・標準・特許	何を根拠に実装？
ASR/字幕	Whisper（680k 時間）	雑音・アクセントに頑健な多言語転写で時間根拠を厳密化。
ショット検出	TransNet V2	カット点の自動抽出で章立て候補を機械生成。
イベント抽出	Vid2Seq（時間トークン）	境界＋説明を同時生成し、JSON‑LD Clip に落とす。
表現学習	TimeSformer / ViViT	長尺でも時空間アテンションで文脈保持。
検索導線	CLIP4Clip / VideoCLIP	テキスト↔動画のゼロショット検索・FAQ直答。
仕様（deeplink）	W3C Media Fragments	`t=` 等の時間フラグメントで根拠秒へ直接飛ぶ。
仕様（構造化）	VideoObject/Clip/SeekToAction	Key Moments/リッチリザルトの有効化条件。
ナレッジ連携	Wikidata / `sameAs`	実体同定の曖昧性を下げる外部 ID 付与。
テキストベース編集	Adobe Text‑Based Editing / Transcript‑based 編集特許群	転写に紐づく編集で意味保持を効率化。
QA/要約応用	「動画に対するQ&A クリップ生成」特許	質問に対応する短尺根拠クリップの自動生成概念。

お客様が得るビジネス上のメリット

発見性と答え到達時間の短縮

　Key Moments / 直リンクにより、検索・回答面から該当秒に一発着地。CTR↑・離脱↓ に寄与します（Google の公式ガイドに基づく実装）。

誤要約・誤同定のリスク低減

　時間根拠つき要約＋QID 連携により、回答エンジンのエンリッチ（属性補完・関係推論）が安定。ブランド名や製品型番の取り違えを抑えます。

コンテンツ資産の再利用効率

　Clip/SeekToAction + 転写編集で、営業資料・FAQ・SNS へ二次展開が高速化。Text‑Based Editing（公式機能）で編集コストを削減します。

多言語市場への同時展開

　Whisper による多言語転写→字幕、JSON‑LD の言語タグ付与で海外面の露出と理解を同時に押し上げます。

計測と改善の容易さ

　deeplink 起点のイベント計測が可能になり、「どの質問→どの秒→どのCV」の可視化が進むため、制作が直接 KPI 学習します（Google の構造化仕様・ガイドに準拠）。

評価指標
研究系とビジネス系のブリッジ

モデル面（内部 QA）

　Shot Boundary F1（TransNetV2 基準データ）／イベント境界 MAE

　Dense Captioning の METEOR / CIDEr + 時間 IoU（Vid2Seq）

　Video–Text Retrieval の Recall@K（CLIP4Clip/VideoCLIP）

ビジネス面（外部 KPI）

　Key Moments 表示率・deeplink 起点再生・≤15s 回答の完了率

　本編遷移率・問い合わせ/商談化率（属性別ファネル）

実装ノート
落とし穴と対策

プラットフォーム依存
　Key Moments/自動抽出は Google 側の裁量。Clip の手動定義とSeekToAction の両輪で、仕様変動に耐える冗長化を。

URL の時間指定
　プレイヤー互換（?t=ss/#t=,）差異に留意。Media Fragments準拠で設計し、埋め込み先ごとに正規化ルールを用意。

字幕品質
　ASR の自動出力は専門用語で誤差が残る。用語集＋人手校正を標準工程に。

長尺耐性
　映画・ドキュメンタリー等では長距離依存が効く Video Transformer（ViViT/TimeSformer）系の前処理が安定。

付録A
JSON‑LD
概念例：Clip + SeekToAction

実装はページ文脈・CMSに合わせて最適化します。ここでは概念のみ。

JSON

{
  "@context": "https://schema.org",
  "@type": "VideoObject",
  "name": "AI‑Native Film: 製品Xの原理解説",
  "thumbnailUrl": "https://dprofessions.co.jp/thumb.jpg",
  "uploadDate": "2025-07-01",
  "duration": "PT6M30S",
  "contentUrl": "https://dprofessions.co.jp/video.mp4",
  "embedUrl": "https://dprofessions.co.jp/watch",
  "hasPart": [
    {
      "@type": "Clip",
      "name": "1. 概要と主要KPI",
      "startOffset": 15,
      "endOffset": 75,
      "url": "https://dprofessions.co.jp/watch?t=15"
    }
  ],
  "potentialAction": {
    "@type": "SeekToAction",
    "target": "https://dprofessions.co.jp/watch?t={seek_to_second_number}"
  }
}

{
  "@context": "https://schema.org",
  "@type": "VideoObject",
  "name": "AI‑Native Film: 製品Xの原理解説",
  "thumbnailUrl": "https://dprofessions.co.jp/thumb.jpg",
  "uploadDate": "2025-07-01",
  "duration": "PT6M30S",
  "contentUrl": "https://dprofessions.co.jp/video.mp4",
  "embedUrl": "https://dprofessions.co.jp/watch",
  "hasPart": [
    {
      "@type": "Clip",
      "name": "1. 概要と主要KPI",
      "startOffset": 15,
      "endOffset": 75,
      "url": "https://dprofessions.co.jp/watch?t=15"
    }
  ],
  "potentialAction": {
    "@type": "SeekToAction",
    "target": "https://dprofessions.co.jp/watch?t={seek_to_second_number}"
  }
}

（Clip は手動定義、SeekToAction は deeplink ルールを示す。Google がKey Momentsを抽出できる前提を満たします。）

付録B
社内ワークフローとツール対応

編集
　Adobe Premiere Pro のText‑Based Editingを活用（転写ベースで粗編→精編へ）。

検証
　構造化データは Search Console/リッチリザルトテストでバリデーション。

知識連携
　Wikidata へのQID 紐付けと sameAs の整備。

お客様の「経営メリット」

見つかる
　検索・回答面でKey Moments / リッチリザルトが出やすい状態に。
　　→ 流入増・指名検索強化。

伝わる
　時間根拠つき要約と深いリンクで答えの秒へ直行。
　　→ 視聴完了率↑・問い合わせ率↑。

間違われない
　QID 連携と字幕整備で誤要約・誤同定を抑制。
　　→ 評判・法務リスク低減。

回る
　転写ベース編集と短尺群で営業・CS・SNS の再利用効率が跳ねる。
　　→ 制作費の回転率↑。

測れる
　deeplink 起点のイベント計測で、企画→編集→公開→CVの学習ループを構築。
　　→ 四半期での継続改善。

映像制作料金表

データ科学×映像／動画／映画／AI‑Native Film™／AnswerClip™ Studio／CineGraph Link™

サマリー（カテゴリ別）

カテゴリ	概要	価格レンジ（税別）
データ科学に基づく映像制作	アナリティクス×映像。検索意図/QFO設計、仮説検証、計測ダッシュボードまで含むデータ駆動型制作。	¥3,500,000〜¥12,000,000（コンサル）＋制作費別
動画制作（企業VP/製品・採用など）	通常の映像制作。HDR対応、短尺セット、字幕等。	¥5,800,000〜¥22,000,000〜
映画制作（短編/長編/シリーズ）	ブランデッド映画・ドキュメンタリー等。	¥28,000,000〜¥180,000,000〜
AI‑Native Film™	AI理解前提の構造化映像。Clip/SeekToAction/深いリンク搭載。	¥6,800,000〜¥25,000,000
AnswerClip™ Studio	“質問に≤15秒で答える”クリップの量産運用。	初期¥1,800,000＋¥260,000〜¥380,000 / 本（ボリュームで変動）
CineGraph Link™	映像内エンティティのWikidata/Schema連携と時刻同期。	初期¥1,800,000＋対象数に応じ加算／運用¥700,000〜/月

※ 正式見積は要件定義後にSOW（作業分解）で確定します。

データ科学に基づく映像制作
（アナリティクス×映像）

プラン	期間	費用（税別）	主な成果物
DS‑Insight Starter	3週間	¥3,500,000	検索意図×QFOマップ、KPI基準、テスト設計、クリエイティブブリーフ×1、改善バックログ
DS‑Growth Intelligence	6週間	¥6,800,000	上記＋簡易予測（視聴→CV）、ブリーフ×3、計測設計、ダッシュボード初期構築
DS‑Enterprise Intelligence	10週間	¥12,000,000	上記＋MMM‑lite/LTV考慮、運用設計、内製化トレーニング（1日）

制作費は別。AI‑Native Film™/AnswerClip™/CineGraphと組み合わせると最大効果。

動画制作
（企業VP／製品・採用／PR など）

パッケージ	目安尺/撮影	料金（税別）	同梱物
Essential	4–5分 / 撮影1日	¥5,800,000〜	本編、短尺3本、6K/HDR、編集2回
Standard	6–8分 / 撮影2–3日	¥9,800,000〜	本編、短尺6本、6K/HDR、カラー、編集3回
Premium	8–10分 / 撮影3–4日	¥15,000,000〜	本編、短尺10本、HDRグレーディング、5.1ch
Flagship	12–15分 / 撮影4–5日	¥22,000,000〜	本編、短尺15本、HDR/5.1ch、キービジュアル

映画制作
（ブランデッド映画／ドキュメンタリー／シリーズ）

カテゴリ	尺	料金レンジ（税別）	同梱物
Short Brand Film	10–15分	¥28,000,000〜¥45,000,000	企画/脚本/撮影3–5日/編集/カラー/5.1ch/キービジュアル
Feature Documentary	60–90分	¥85,000,000〜¥180,000,000	長期取材/撮影10–25日/編集12–20週/カラー/整音
Episodic Series	3×20分等	¥65,000,000〜¥120,000,000	企画/脚本/撮影複数ブロック/シリーズ統一デザイン/配信設計

劇中曲権利・大規模美術・長距離ロケは別途見積。

AI‑Native Film™
（AI前提の構造化映像）

パッケージ	目安尺/撮影	料金（税別）	同梱物
Essential	6–8分 / 撮影1–2日	¥6,800,000〜	本編、短尺5本、タイムコード台本、時間根拠つき要約、JSON‑LD(Clip/SeekToAction)、深いリンクURL、編集2回
Standard	6–8分 / 撮影2–3日	¥12,000,000〜	上記＋短尺10本、キービジュアル、編集3回
Flagship	10–15分 / 撮影4–5日	¥25,000,000〜	上記＋短尺20本、HDR/5.1ch、編集4回

AnswerClip™ Studio
（質問に≤15秒で答える）

ボリューム/項目	仕様	単価（税別）	備考
8–9本	≤15秒 / 16:9, 9:16	¥380,000 / 本	数値/出典オーバーレイ、本編への深いリンク導線
10–19本	同上	¥345,000 / 本	—
20–49本	同上	¥300,000 / 本	—
50本〜	同上	¥260,000 / 本	同上＋軽微テンプレ差し替え可
セットアップ（初回）	—	¥1800,000	Q&Aマップ整備、テンプレ設計、命名規約
月額運用（任意）	30本/月	¥6,600,000 / 月	編集/配信/レポート

CineGraph Link™
（映像×知識グラフ連携）

項目	仕様	料金（税別）	備考
初期セットアップ	スキーマ定義/運用手順/データモデル/実装テンプレ	¥2,500,000	—
20エンティティ	QID/別名/属性/参照・時間範囲	＋¥1,800,000	シーン別出現マップ含む
50エンティティ	同上	＋¥3,800,000	—
100エンティティ	同上	＋¥6,800,000	—
月次運用	差分更新・監査	¥500,000〜 / 月	ボリュームに応じ見積

オプション（共通）

オプション	料金（税別）	備考
多言語字幕パック（長尺≤10分）	¥350,000 / 言語	翻訳/字幕SRT/校正。10分超は +¥25,000/分
ナレーション（プロ）	¥180,000 / 言語（〜10分）	以降 +¥12,000/分
高度モーショングラフィックス	¥500,000〜	尺・難易度で見積
3D/CGI/VFX	¥800,000〜	ショット数・難易度で見積
スチル撮影（同時）	¥180,000 / 日	RAW現像20点含む
BGMライセンス（プレミアム）	¥120,000〜	曲数・媒体で変動
有名タレント/専門家出演	別途見積	キャスティング/肖像権/拘束に依存
配信セットアップ	¥150,000〜	サムネ/説明/タグ/公開・計測設定
DeepLink Factory™（既存動画）	¥800,000/本 + ¥30,000/分	ショット分割/字幕/時間根拠要約/JSON‑LD/深リンク

日当・機材

日当（税別）、機材（税別/日）が必要な場合、別途見積。

条件・ポリシー（抜粋）

支払条件（標準）
　着手時支払い（月額は月末締翌月払い）

リードタイム目安
　Essential 3–6週 / Standard 6–10週 / Flagship 8–14週

リビジョン
　各パッケージの編集回数超過は追加見積

超過稼働
　撮影日10h超は+25%／急ぎ対応は+30%

実費
　出演者・音楽権利・ロケ/美術・保険・旅費/宿泊は別途

権利
　使用範囲・期間・地域をSOWで定義（拡張は差額）

秘密保持
　相互NDA対応