はじめに
中島聡さんが開発しているマルチモーダル動画生成ツール「MulmoCast(ムルモキャスト)」を実際に使い、自分が販売している旋盤の技術書を40ページ構成のマンガ風絵本に変換してみました。
https://youtu.be/s9d2SwDjCeI結論から言うと、40ビートで1時間の絵本が完成する完成度です。ただし、すべてが思い通りになるわけではなく、いくつかのコツと割り切りが必要でした。
この記事では、実際の制作プロセスと感じた限界、そして「これは使える」と判断できたポイントを正直にまとめます。
MulmoCastとは何か(超ざっくり)
公式の説明をかみ砕くと、こうなります。
台本(MulmoScript)を書くと、AIが画像とナレーション音声を自動生成し、動画を完成させるマルチモーダルプレゼンテーションツール
特徴を3つだけ挙げると、
- API Key持ち込み方式で、月額課金は不要(OpenAI / Google / Anthropic などのAPIキーを自分で用意)
- MacOS / Windows / CLI すべて対応
- 動画・PDF・ポッドキャスト・マンガ・スライドを1つのスクリプトから同時生成
つまり「自分のAPI料金だけで動く動画自動生成ツール」です。アプリ自体は無料。
なぜ絵本化を試したか
私は副業の一環で、町工場向けの技術書(旋盤入門)を販売しています。文章メインの本ですが、製造業の新人さんから「文字ばかりだと読み進められない」という声をもらうことが何度かありました。
そこで思ったのが、
既存の技術書を、マンガ風の絵本に変換できないか?
という発想です。
最初はClaude APIとGemini APIを使って自作スクリプトで挑戦していましたが、途中でMulmoCastの存在を思い出し、こっちのほうが圧倒的に早そうと判断して乗り換えました。
正解でした。
実際の制作プロセス
Step 1: APIキーの準備
必要だったのは以下です。
- OpenAI API Key(音声合成・TTS用、組織認証は不要なvoice機能だけ使用)
- Gemini API Key(画像生成用、Tier 1課金が必須に近い)
無料枠だけだとレート制限ですぐ詰まるので、Gemini APIはTier 1にしておくのが現実的でした。1冊作って消費したのはおおよそ500円〜1000円程度(画像再生成多めの場合)。
Step 2: キャラクター素材の登録
MulmoCastには「素材」という機能があります。これはキャラや背景の画像生成プロンプトを登録しておいて、各シーンで参照する仕組みです。
私の絵本では3キャラ登録しました。
- 新人くん(主人公・22歳)
- 親方(師匠・55歳)
- 旋盤くん(擬人化マスコット)
ここで一番ハマったのが、新人くんが幼児化する問題。
「young apprentice」「age 22」と書いただけだと、AIは小学生っぽいキャラを出してくる癖があります。
これを解決したプロンプトのコツ:
A 22-year-old young adult Japanese male, clearly an adult man with mature adult face, defined adult jawline,
NOT a child, NOT a boy, NOT a teenager, NOT chibi.
Looks like a recent college graduate at his first job.
否定形を3段重ねにして、さらに「大学新卒の見た目」と具体例を入れると、画像生成AIが「明らかに大人の青年」を生成するようになりました。
Step 3: ビート(コマ)を順番に作る
MulmoCastはビートという単位でストーリーを構築します。1ビート = 絵本の1ページ、ぐらいの粒度。
各ビートで設定するのは、
- 話者(ナレーター/Teacher/Studentから選ぶ)
- セリフ or ナレーション(日本語でOK)
- 画像生成プロンプト(英語推奨)
- 参照する素材キー(チェックボックス)
私の場合、40ビートぶんのコピペ用テキストを事前に準備しておいて、貼り付け→生成を繰り返す流れで一気に進めました。
Step 4: 出力(PDF / 動画 / 音声)
完成すると、ボタン1つで以下が選べます。
- MP4動画(YouTube用)
- PDF(印刷用、KDP出版用)
- MP3(ポッドキャスト用)
つまり、1回作れば3種類のコンテンツに展開できる。これは結構すごい。
思ったほど簡単じゃなかった部分
限界1: キャラの一貫性は完璧ではない
Discordコミュニティでも公式から回答があった通り、素材登録した画像と完全に同じキャラが毎回出るわけではないんです。
私の絵本でも、新人くんがビートによって少し顔つきが違うシーンがあります。眼鏡をかけたバージョンが混ざることも。
限界2: 画像内の日本語が文字化けする
これは画像生成AI共通の課題ですが、画像内に日本語テキストを入れるとほぼ確実に文字化けします。
私の対策は「画像内の文字は全部英語にする」でした。「主軸台」じゃなくて「Headstock」、「チャック」じゃなくて「Chuck」と表記。技術書としては英語ラベルでも違和感ないので結果オーライ。
限界3: 完璧主義に陥ると終わらない
これが最大の罠でした。
40ビート × 1ビート30分こだわると = 20時間。 40ビート × 1ビート10分で割り切ると = 6.5時間。
「このペースだと一生終わらないぞ」と気づいた瞬間に、明らかな破綻以外はそのまま採用するスタンスに切り替えました。これが一番大事かもしれません。
完成した絵本の出来
具体的には、4日間で新人くんが旋盤の基礎を学ぶ40ページの絵本ができました。第4章では工具材質を擬人化して、
- ハイス先輩(銀色マッチョの体育会系)
- 超硬侍(青い和装の寡黙な剣士)
- ダイヤモンド姫(白銀のドレス)
- CBN戦士(青の鎧)
みたいな図鑑キャラ風に展開してみたら、これが想像以上にいい感じになりました。
技術書の内容は変わってないのに、絵があるだけで読みたくなる本に化ける。これは想定外の収穫でした。
副業視点で見たMulmoCastの価値
副業でデジタルコンテンツを売っている立場から言うと、MulmoCastの真価は「1つの台本から複数のコンテンツに展開できる」点にあります。
例えば、私の旋盤絵本の場合だと、
- PDF版 → KDPで電子書籍販売
- MP4版 → YouTubeにアップ(収益化)
- MP3版 → ポッドキャスト配信
- 静止画 → ブログ記事のアイキャッチ
1ソースから4つの収益動線が作れる。これはコンテンツビジネスをやっている人には響くはず。
中島聡さんのMulmoCastエコシステム
中島聡さんはこのMulmoCastを軸に、
- mulmocast-cli(コマンドライン版)
- mulmocast-app(デスクトップアプリ版)
- mulmocast-mcp(Claude DesktopなどMCP対応クライアント連携)
- MulmoChat(対話型バージョン)
と複数のツールを展開しています。
特にMulmoCast MCPは、Claude Desktopから直接MulmoScriptを生成できるので、Anthropicユーザーには相性が良さそう。
まとめ: 誰に向いているツールか
実際に使ってみた感触で、向き不向きを整理すると、
向いている人
- 既存のテキストコンテンツを動画/絵本化したい人
- 1つの素材を多形式で展開したい人
- ある程度のAI画像生成の癖を許容できる人
- API課金に抵抗がない人(月数百円〜数千円程度)
向いていない人
- 完全にプロ品質の絵本/動画が必要な人
- キャラクター一貫性に妥協したくない人
- API課金そのものを避けたい人
私の場合、「完璧じゃなくても、量産できるならOK」というスタンスだったので、ハマりました。
最後に
**「技術書1冊を絵本化する」**という今までできなかったことが、数千円の予算と数時間の作業時間で現実になりました。
これは個人クリエイターのコンテンツ展開を根本から変える可能性があると思います。
中島聡さんのMulmoCast、ぜひ一度試してみてください。
公式サイト: mulmocast.com





