対話 ヘドラ創業者 マイケル・リンゲルバッハ:生成的ビデオがミームを活用して次のトレンドを生み出す方法
ホスト:ジャスティン・ムーア、マット・ボーンスタイン、a16z
ゲスト:マイケル・リンゲルバッハ
整理\&翻訳:ジャナ、ChainCatcher
編集者の注
マイケル・リンゲルバッハはHedraの創設者兼CEOで、スタンフォード大学のコンピュータサイエンスの博士課程に在籍していたこともあり、舞台俳優としての経験も持つ。技術とパフォーマンスへの情熱を融合させ、Hedraを業界の先駆的な生成音声・映像モデルの開発に導いた。Hedraは全身表現と対話駆動の動画生成に特化した企業で、その技術はバーチャルインフルエンサーから教育コンテンツまで幅広く応用され、コンテンツ制作のハードルを大幅に下げている。本記事はa16zポッドキャストからの翻訳で、AI技術がウイルス的なミームコンテンツから企業向けアプリケーションへと進化する様子を焦点に、生成音声・映像技術の革新の可能性を示している。
以下は対話内容で、ChainCatcherによって編纂された(要約あり)。
TL\&DR
- 人工知能は消費者と企業のシーンをシームレスに結びつけており、この技術が企業ソフトウェアを宣伝する赤ちゃんの広告を生成することを示して、企業が新技術を受け入れる熱意を強調している。
- ウイルス的なミームコンテンツはスタートアップの武器となり、「赤ちゃんポッドキャスト」のようにブランド認知度を急速に高め、市場戦略の巧妙さを示している。
- 全身表現と対話駆動の動画生成技術は創作の空白を埋め、コンテンツ制作の時間とコストを大幅に削減している。
- バーチャルインフルエンサーのジョン・ラワは「モーゼポッドキャスト」を通じて独自のデジタルキャラクターを形成し、コンテンツに鮮明な個性と魅力を与えている。
- コンテンツクリエイターの「ママブロガー」は技術を活用して迅速に動画を生成し、ブランドの活性化と視聴者とのつながりを維持している。
- リアルタイムインタラクティブ動画モデルはバーチャルキャラクターとの双方向対話を開き、教育とエンターテインメントに没入型体験をもたらしている。
- キャラクターを中心にした動画生成技術は個性の表現と多主体の制御に重点を置き、動的コンテンツ制作のニーズに応えている。
- 対話、動作、レンダリングを統合したプラットフォーム戦略は、スムーズな生成メディア体験を構築し、高品質コンテンツの需要に応えている。
- インタラクティブなアバターモデルは動画の感情と要素を動的に調整することをサポートし、コンテンツ制作の次の波の革新を予示している。
(一)ミームから企業アプリケーションへのAI融合
ジャスティン:消費者シーンと企業シーンの間でのAIの交差応用は非常に興味深いです。数日前、フォーブスでHedraが生成した広告文を見ましたが、内容は企業ソフトウェアを宣伝する話す赤ちゃんでした。しかし、これは私たちが新しい時代にいることを示しており、企業がAI技術を急速に受け入れ、大きな熱意を示しています。
マイケル:スタートアップとして、私たちの責任は消費者ユーザーの使用信号からインスピレーションを得て、それを企業ユーザーが信頼できる次世代コンテンツ制作ツールに変換することです。過去数ヶ月間、Hedraが生成したいくつかのウイルス的コンテンツは広く注目を集めました。初期のアニメスタイルのキャラクターから「赤ちゃんポッドキャスト」、そして今週の人気トレンドまで、実際に何であるかは私も確信がありません。ミームは非常に効果的なマーケティング戦略であり、大量のオーディエンスに迅速にリーチすることでユーザーの心をつかむことができます。この戦略はスタートアップの中でますます一般的になっています。たとえば、a16zが投資している別の会社Clueyは、Twitterのウイルス的な拡散を通じて顕著なブランド認知度を得ました。ミームの本質は、技術が人々に迅速に創造性を発揮する手段を提供することです。短い動画コンテンツは文化的意識を支配しています。Hedraの生成動画技術は、ユーザーが数秒で任意のアイデアをコンテンツに変換できるようにします。
(二)クリエイターとインフルエンサーがHedraを選ぶ理由
ジャスティン:なぜ人々はHedraを使ってミームを制作し、どのように使用しているのか、そしてそれがあなたのターゲット市場との関連性について説明してください。
マイケル:Hedraは全身表現、対話駆動の生成動画モデルを大規模に展開した最初の会社です。私たちはユーザーが数百万のコンテンツを制作するのをサポートしており、急速に普及した理由は、コンテンツ制作技術スタックの中での重要な空白を埋めたからです。それ以前は、生成ポッドキャスト、アニメキャラクターの対話シーン、または歌唱動画を制作することは非常に困難で、高コスト、柔軟性の欠如、または時間がかかりすぎることがありました。私たちのモデルは迅速かつ低コストであるため、バーチャルインフルエンサーの台頭を促進しました。
ジャスティン:最近、CNBCがHedra駆動のバーチャルインフルエンサーに関する記事を発表しました。インフルエンサーがHedraをどのように使用しているか、具体的な例を挙げてもらえますか?
マイケル:たとえば、有名な俳優ジョン・ラワ(『The League』のタコ役)を利用して、Hedraは「モーゼポッドキャスト」から「赤ちゃんポッドキャスト」までの一連のコンテンツを制作しました。これらのキャラクターは現在、独自のアイデンティティを持っています。もう一つの例はNeural Vizで、彼らはHedraを基にキャラクターアイデンティティを中心にした「メタバース」を構築しました。生成されたパフォーマンスは単なるメディアモデルとは異なり、モデルに個性、一貫性、制御力を注入する必要があります。これは動画表現にとって特に重要です。そのため、私たちはこれらのバーチャルキャラクターの独特な個性が流行し始めているのを見ていますが、彼らは実在の人物ではありません。
(三)バーチャルインフルエンサーとデジタルアバター
マット:私はInstagram Reelsで多くのHedra動画を見ましたが、Neural Vizシリーズのエイリアンのような新しいキャラクターもあれば、実在の人物がこれらのツールを利用して自分のデジタル存在を拡張するものもあります。多くのインフルエンサーやコンテンツクリエイターは、毎回丁寧に服装を整えたり、照明を調整したり、メイクをしたりしたくありません。Hedraは「ママブロガー」のような人々が迅速に動画を生成して情報を伝えることを可能にし、大量の準備時間を必要としません。たとえば、彼らは直接Hedraを使ってカメラに向かって話すコンテンツを生成できます。
マイケル:これは非常に重要な観察です。個人ブランドを維持することはコンテンツクリエイターにとって非常に重要ですが、24時間オンラインでいることは非常に困難です。クリエイターが1週間更新を停止すると、フォロワーを失う可能性があります。Hedraの自動化技術は創作のハードルを大幅に下げました。ユーザーはDeep Researchのようなツールを組み合わせてスクリプトを生成し、その後Hedraを使って音声・映像コンテンツを生成し、自動的に彼らのチャンネルに公開します。私たちは、実在の人物だけでなく、完全に架空のキャラクターも含む、自主的なデジタルアイデンティティに関するワークフローが増えているのを見ています。
(四)インタラクティブ動画の可能性と課題
ジャスティン:今、多くの歴史的動画がReelsで流行しています。以前は、歴史書を読んで知識を得ていましたが、少し退屈でした。キャラクターを通じて歴史を語り、生成された動画シーンを展示できれば、体験はより魅力的になるでしょう。
マイケル:私たちは教育分野を直接ターゲットにしているわけではありませんが、多くの教育会社が私たちのAPIを基にアプリを開発しています。動画のインタラクションの参加度はテキストよりもはるかに高いです。最近、私たちはリアルタイムインタラクティブ動画モデルを発表しました。これは低遅延の音声・映像体験を実現する最初の製品です。言語学習から自己啓発アプリまで、技術コストが十分に低くなると、ユーザーと大規模言語モデル(LLM)とのインタラクションの方法が根本的に変わります。私が個人的に最も好きなプロジェクトは「あなたのお気に入りの本や映画のキャラクターとチャットする」です。たとえば、「なぜ殺人者がいると知っていながら、その暗い部屋に入ったのですか?」と尋ねることができます。このインタラクティブな体験は、従来のオーディオブックよりも豊かで、ユーザーは質問をしたり、内容を振り返ったりでき、体験がより生き生きとしています。
ジャスティン:動画モデルの検索空間は非常に広いです。単一フレームの画像生成はすでに非常に複雑ですが、120フレームの連続動画を生成することはさらに挑戦的です。Hedraは他の動画モデルとは異なり、ユニークで意味のある問題に焦点を当てています。この問題の定義とあなたのインスピレーションの源について説明してください。
マイケル:これは非常に良い質問です。私たちは基礎モデル層に専門化の分業が現れているのを見ています。Claudeがプログラミングモデルの基準となり、Open AIが汎用アシスタントを提供し、Geminiがコスト効率と速度で企業シーンにサービスを提供しています。Hedraも動画モデルの分野で同様のポジションを持っています。私たちの基礎モデルは非常に高性能で、特に次世代モデルはコンテンツ制作に大きな柔軟性を提供します。しかし、私たちはコンテンツを「生き生きとさせる」方法、ユーザーがそれと対話し、一貫した個性と魅力を感じることにより重点を置いています。核心は、動画内のキャラクターの知性とレンダリング体験をどのように結びつけるかです。私のビジョンは、ユーザーが動画内のキャラクターと双方向でコミュニケーションを取り、キャラクターがプログラム可能な独自の個性を持つことです。これには垂直統合が必要で、コアモデルを最適化するだけでなく、ユーザーインタラクションの未来の体験を再考する必要があります。
(五)「キャラクター中心」の動画モデルと主体制御
マイケル:私は演劇のバックグラウンドを持っていますが、プロの俳優ではありませんが、キャラクター演技に情熱を持っています。動画は私たちの日常的なインタラクションの中心であり、広告、オンラインコース、またはHedra駆動の無面チャンネルにおいて、つながりが非常に重要です。私たちは創作のハードルを下げ、速度を上げることで、一般のユーザーも簡単にコンテンツを生成できるようにしています。将来的には、モデルの知性とレンダリングの境界が徐々に曖昧になり、ユーザーはその意図を理解するシステムと対話することになります。私たちはキャラクターを制御の中心単位と見なしており、単なる動画ではありません。これにはユーザーフィードバックを収集し、キャラクターのリアリズムと表現力を最適化し、同時に多主体の制御レバーを提供する必要があります。
マット:私はさまざまな動画のためにキャラクターを作成するのに多くの時間を費やしましたが、Hedraの強みは統合されたキャラクター制作ツールにあります。キャラクターのイメージを作成またはアップロードし、後で使用するために保存したり、文脈を変えたり、声をクローンしたりすることができます。私のYouTube動画やチュートリアルの多くのオープニングは、Hedraでクローンした私の声を使用しています。この統合された体験は、断片化された生成メディア市場では特に貴重です。
(六)統合生成メディアプラットフォームの構築
ジャスティン:Black Forest Labsのような多くの企業が技術的なブレークスルーを達成していますが、Hedraのようなパートナーが消費者や企業ユーザーに体験を提供する必要があります。なぜ特定の技術に限定せず、統合プラットフォームを構築することを決定したのですか?
マイケル:これは集中とユーザーのニーズに関することです。Hedraを設立したとき、メディアに対話を組み込むことが非常に困難であることに気づきました。以前は、ユーザーが短い動画を制作する際にリップシンクを重ねる必要があり、全体的な感覚が欠けていました。私たちの技術のインスピレーションは、呼吸、ジェスチャーなどの信号を対話と統一し、より自然な動画モデルを作成することです。市場の観点から見ると、ユーザーがさまざまなアプリに対して支払う意欲の違いを観察しています。一部の人気アプリは支払意欲が低いかもしれませんが、特定のニッチ(たとえば、コンテンツクリエイター)では高品質な体験に対する強い需要があります。私たちは、Hedraの技術や11 Labsのようなパートナーの最高の技術を統合することを選択し、ユーザーに最高の体験を提供します。
マット:将来的には、AIキャラクターが単一のモデルでテキスト、スクリプト、音声、視覚を生成することが可能になるのでしょうか?
マイケル:私は業界がマルチモーダル入力出力のパラダイムに向かっていると考えています。単一モデルの課題は制御力にあります。ユーザーは音声、トーン、リズムなどの詳細を正確に調整する必要があります。入力をデカップリングすることで、より多くの制御が可能になりますが、将来的には全モーダルモデルに向かう可能性があり、ユーザーはガイディングシグナルを通じて各モーダルの適合度を調整できるようになるでしょう。
(七)インタラクティブ動画の未来
ジャスティン:Hedraの長編動画生成能力には感銘を受けました。数分の音声をアップロードすることで、キャラクターの対話動画を生成し、イメージと声をそれぞれ調整して、一度に生成することによるリソースの無駄を避けることができます。この制御力は、インタラクティブ動画の未来に対する期待を高めます。
マイケル:私たちが最近発表したインタラクティブアバターモデルには興奮しています。将来的には、ユーザーが流動的なキャンバスのように動画要素を形成できるようになります。たとえば、動画を一時停止して、キャラクターに特定のセリフをより悲しげに言わせることができます。この双方向のコミュニケーションは次世代の体験をもたらし、すぐに実現するでしょう。
マット:本物のAI俳優は可能でしょうか?ユーザーがリアルタイムで作成したキャラクターと対話し、指示を与えることができるのでしょうか?
マイケル:絶対に可能です。しかし、現在の制限は動画モデルではなく、大規模言語モデルの個性のリアリズムにあります。既存のAIパートナー(たとえばCharacter AI)はまだ明らかなモデルの痕跡を持っています。真のインタラクティブなデジタルキャラクターを実現するには、構成可能な個性に関するさらなる研究が必要です。
(八)Hedraの音声生成とAIネイティブアプリケーション
ジャスティン:Hedraの動画は驚くべきものですが、音声は時々少し劣ります。11 Labsの最新モデルは音声品質を向上させましたが、コンテンツの魅力はまだ改善の余地があります。
マイケル:音声生成は十分に探求されていない分野です。現在の生成音声はナレーションやボイスオーバーに多く使用されていますが、騒がしいカフェで自然な対話を生成するシーンは依然として挑戦的です。私たちは環境音や多輪対話を制御できる音声モデルが必要で、動画制作の自然さを向上させる必要があります。動画AIはまだ初期段階にあります。初期のCGI効果がリアルに見えたように、今ではカートゥーンのように見えます。私たちの第一世代モデルは私を驚かせましたが、今見ると粗いものです。超制御可能でコスト効率が高く、リアルタイム性能が強いモデルを実現するにはまだ努力が必要です。
マット:ユーザーは本物の人間、擬似人間、またはアニメキャラクターと対話することを好むのでしょうか?
マイケル:私たちは多くの毛むくじゃらのボールや猫のキャラクターを生成しました。Hedraの統一モデルは、石やロボットなど、さまざまなキャラクターを処理でき、ユーザーが自由に実験し、前例のないコンテンツを創造することを可能にします。私たちは統一モデルを構築しており、従来の動画にリップシンクを加えるのではなく、ユーザーが技術に制限されないようにしています。ユーザーは「話す石」や「ロボットと人間のポッドキャスト」を試すことができ、モデルは自動的に対話と個性を処理します。この柔軟性は革命的な消費シーンを引き起こしました。
ジャスティン:AIの交差応用は興奮をもたらします。消費者が「赤ちゃんポッドキャスト」のようなコンテンツを創造し、企業アプリケーションにインスピレーションを与えています。私はフォーブスでHedraが生成した赤ちゃんの広告が企業ソフトウェアを宣伝しているのを見て驚きました。これは企業がAIを急速に受け入れていることを示しており、私たちは消費者の信号を企業向けのソリューションに変換する必要があります。
マイケル:企業は私たちの成長が最も早い分野です。生成AIはコンテンツ制作を数週間からリアルタイムに短縮します。たとえば、自動ニュースキャスターは情報の伝達方法を変えています。以前は、地方ニュースはコストが高いために消失していましたが、今では一人でニュースチャンネルを運営できます。この「中規模のパーソナライズ」は、特定の人々のニーズを満たしており、地方のグルメやテーマパークの精密広告など、過度にパーソナライズされたGoogleモデルよりも効果的です。
(九)創業者の道:挑戦、情熱、協調的イノベーション
ジャスティン:創業者としてのあなたの経験はどうですか?どのような挑戦と成果がありましたか?
マイケル:サンフランシスコでは、創業者の生活は美化されがちで、まるで時代を超えた技術を構築するロマンチックな旅のようです。私はフロリダの小さな町から来ており、この道を歩むとは思っていませんでした。しかし、創業者として99%の時間は非常に困難です。常に推進し続けなければならず、問題は決して減りません------目に見えない開発から大量のサポートメールへの対応まで。身体的には非常に疲れますが、内面的な満足感は比類がありません。私は自分のユーザーとチームを愛しており、他のことをすることは想像できません。これは「第二の楽しみ」のようなもので------雪山を登るようなもので、手足が傷んでも、山頂に達した後はまた来たくなるのです。私は毎日午前7時30分にオフィスに入り、午後10時に出ます。時には午前2時まで機能について議論しています。これは仕事と生活の境界を放棄する必要がありますが、情熱が私を支えています。
マット:なぜあなたは今でも自らプログラミングを行っているのですか?それは創造性を表現するためですか、それともチームとのコミュニケーションのためですか?
マイケル:両方です。プロトタイプは私がアイデアを迅速に検証し、期待を明確に伝えるのに役立ちます。リーダーとして、明確なコミュニケーションは非常に重要です。私はデザイナーと境界条件について議論し、システムがスケーラブルであることを確認します。プログラミングは私がチームとのつながりを保ち、彼らの課題を理解し、同時に製品の方向性を迅速に探ることを可能にします。
おすすめの読み物:














