대화 Hedra 창립자 Michael Lingelbach: 생성적 비디오가 Meme을 활용하여 다음 핫이슈를 어떻게 만들어낼까
호스트: Justine Moore, Matt Bornstein, a16z
게스트: Michael Lingelbach
정리\&편집: Janna, ChainCatcher
편집자 주
Michael Lingelbach은 Hedra의 창립자이자 CEO로, 스탠포드 대학교 컴퓨터 과학 박사 과정 학생이었으며, 무대 배우로서 기술과 공연에 대한 열정을 결합하여 Hedra가 업계 선도적인 생성형 음성 및 비디오 모델을 개발하도록 이끌었습니다. Hedra는 전신 표현 및 대화 기반 비디오 생성에 집중하는 회사로, 그 기술은 가상 인플루언서에서 교육 콘텐츠에 이르기까지 광범위한 응용을 지원하며 콘텐츠 제작의 장벽을 크게 낮추었습니다. 본문은 a16z 팟캐스트에서 AI 기술이 바이럴 밈 콘텐츠에서 기업급 응용으로 어떻게 확장되는지를 다루며, 생성형 음성 및 비디오 기술의 혁신 잠재력을 보여줍니다.
다음은 ChainCatcher가 편집한 대화 내용입니다(일부 생략).
TL\&DR
- 인공지능은 소비자와 기업 장면을 원활하게 연결하고 있으며, 이 기술이 기업 소프트웨어를 홍보하는 아기 광고를 생성하는 등 기업이 새로운 기술을 수용하는 열정을 강조합니다.
- 바이럴 밈 콘텐츠는 스타트업의 강력한 도구가 되고 있으며, "아기 팟캐스트"와 같은 콘텐츠가 브랜드 인지도를 빠르게 높이고 시장 전략의 기발함을 보여줍니다.
- 전신 표현 및 대화 기반 비디오 생성 기술은 창작의 공백을 메우고 콘텐츠 제작의 시간과 비용을 크게 줄입니다.
- 가상 인플루언서인 John Lawa는 "모세 팟캐스트"를 통해 독특한 디지털 캐릭터를 형성하여 콘텐츠에 뚜렷한 개성과 매력을 부여합니다.
- 콘텐츠 제작자들은 "엄마 블로거"와 같은 기술을 활용하여 빠르게 비디오를 제작하고 브랜드의 활발함과 관객과의 연결을 쉽게 유지합니다.
- 실시간 상호작용 비디오 모델은 가상 캐릭터와의 쌍방향 대화를 열어 교육과 오락에 몰입형 경험을 제공합니다.
- 캐릭터 중심의 비디오 생성 기술은 개성 표현과 다중 주체 제어에 중점을 두어 동적 콘텐츠 제작 요구를 충족합니다.
- 대화, 동작 및 렌더링을 통합한 플랫폼 전략은 매끄러운 생성형 미디어 경험을 창출하여 고품질 콘텐츠 요구에 부응합니다.
- 인터랙티브 아바타 모델은 비디오 감정과 요소를 동적으로 조정할 수 있도록 지원하여 콘텐츠 제작의 다음 혁신을 예고합니다.
(1) 밈에서 기업 응용으로의 AI 융합
Justine: 우리는 AI가 소비자 장면과 기업 장면 간의 교차 응용에서 매우 흥미로운 모습을 보이고 있다는 것을 보고 있습니다. 며칠 전, 저는 《포브스》에서 Hedra가 생성한 광고 텍스트를 보았는데, 내용이 기업 소프트웨어를 홍보하는 말하는 아기라는 것이었습니다. 하지만 이는 우리가 새로운 시대에 접어들고 있다는 것을 의미하며, 기업들이 AI 기술을 빠르게 수용하고 있다는 큰 열정을 보여줍니다.
Michael: 스타트업으로서 우리의 책임은 소비자 사용자의 사용 신호에서 영감을 얻어 이를 기업 사용자가 신뢰할 수 있는 차세대 콘텐츠 생산 도구로 전환하는 것입니다. 지난 몇 개월 동안 Hedra가 생성한 몇 가지 바이럴 콘텐츠가 광범위한 관심을 불러일으켰습니다. 초기의 애니메이션 스타일 캐릭터에서 "아기 팟캐스트"에 이르기까지, 그리고 이번 주의 인기 트렌드까지------사실 저도 그것이 무엇인지 확실하지 않습니다. 밈은 매우 효과적인 마케팅 전략으로, 대량의 청중에게 도달하여 사용자 마음을 빠르게 점령합니다. 이러한 전략은 스타트업에서 점점 더 보편화되고 있습니다. 예를 들어, a16z가 투자한 또 다른 회사인 Cluey는 Twitter의 바이럴 확산을 통해 상당한 브랜드 인지도를 얻었습니다. 밈의 본질은 기술이 사람들에게 빠르게 창의력을 발휘할 수 있는 매개체를 제공하는 것입니다. 짧은 비디오 콘텐츠는 문화적 인식을 지배하고 있습니다. Hedra의 생성형 비디오 기술은 사용자가 몇 초 안에 어떤 아이디어든 콘텐츠로 변환할 수 있게 해줍니다.
(2) 창작자와 인플루언서가 Hedra를 선택하는 이유
Justine: 사람들이 왜 Hedra로 밈을 만들고, 어떻게 사용하는지, 그리고 이것이 당신의 목표 시장과 어떤 연관이 있는지 설명해 주시겠습니까?
Michael: Hedra는 전신 표현 및 대화 기반의 생성 비디오 모델을 대규모로 배포한 최초의 회사입니다. 우리는 사용자가 수백만 개의 콘텐츠를 창작하도록 지원하며, 빠르게 인기를 끌 수 있었던 이유는 콘텐츠 창작 기술 스택의 중요한 공백을 메웠기 때문입니다. 이전에는 생성형 팟캐스트, 애니메이션 캐릭터 대화 장면 또는 노래 비디오를 제작하는 것이 매우 어려웠습니다. 비용이 많이 들거나 유연성이 부족하거나 시간이 너무 오래 걸렸습니다. 우리의 모델은 빠르고 비용이 저렴하여 가상 인플루언서의 출현을 촉진했습니다.
Justine: 최근 CNBC에서 Hedra가 구동하는 가상 인플루언서에 대한 기사를 발표했습니다. 인플루언서들이 Hedra를 어떻게 사용하는지 몇 가지 구체적인 예를 들어 주실 수 있나요?
Michael: 예를 들어, 유명 배우 John Lawa(《The League》에서 Taco 역할을 맡은 배우)는 Hedra를 활용하여 "모세 팟캐스트"에서 "아기 팟캐스트"에 이르는 일련의 콘텐츠를 창작했습니다. 이 캐릭터들은 이제 독특한 정체성을 가지고 있습니다. 또 다른 예는 Neural Viz로, 그들은 Hedra를 기반으로 캐릭터 정체성을 중심으로 한 "메타버스"를 만들었습니다. 생성형 공연은 단순한 미디어 모델과는 다릅니다. 그것은 모델에 개성, 일관성 및 제어력을 주입해야 하며, 이는 비디오 표현에 특히 중요합니다. 따라서 우리는 이러한 가상 캐릭터의 독특한 개성이 인기를 끌기 시작하는 것을 보고 있습니다. 비록 그들이 실제 인물은 아니지만요.
(3) 가상 인플루언서와 디지털 화신
Matt: 저는 Instagram Reels에서 많은 Hedra 비디오를 보았습니다. Neural Viz 시리즈의 외계인과 같은 완전히 새로운 창작 캐릭터도 있고, 실제 인물이 이러한 도구를 사용하여 자신의 디지털 존재를 확장하는 경우도 있습니다. 많은 인플루언서나 콘텐츠 제작자들은 매번 정장을 차려입고 조명을 조정하거나 화장을 할 필요가 없습니다. Hedra는 "엄마 블로거"와 같은 사람들이 정보를 전달하기 위해 비디오를 빠르게 생성할 수 있게 해주며, 많은 시간을 준비하는 데 소모할 필요가 없습니다. 예를 들어, 그들은 Hedra를 사용하여 카메라와 대화하는 콘텐츠를 직접 생성할 수 있습니다.
Michael: 이는 매우 중요한 관찰입니다. 개인 브랜드를 유지하는 것은 콘텐츠 제작자에게 매우 중요하지만, 항상 온라인 상태를 유지하는 것은 매우 어렵습니다. 만약 창작자가 일주일 동안 업데이트를 중단하면 팬을 잃을 수 있습니다. Hedra의 자동화 기술은 창작 장벽을 크게 낮추었습니다. 사용자는 Deep Research와 같은 도구를 결합하여 스크립트를 생성하고, 그 후 Hedra를 통해 음성 및 비디오 콘텐츠를 생성하여 자동으로 자신의 채널에 게시합니다. 우리는 실제 인물뿐만 아니라 완전히 허구의 캐릭터를 포함한 자율 디지털 정체성을 둘러싼 작업 흐름이 점점 더 많아지고 있음을 보고 있습니다.
(4) 인터랙티브 비디오의 잠재력과 도전
Justine: 지금 많은 역사 비디오가 Reels에서 인기를 끌고 있습니다. 과거에는 역사서를 읽으며 지식을 얻었지만, 이는 다소 지루했습니다. 만약 캐릭터를 통해 역사를 이야기하고 생성형 비디오 장면을 보여줄 수 있다면, 경험이 훨씬 더 매력적일 것입니다.
Michael: 비록 우리가 교육 분야를 직접 겨냥하고 있지는 않지만, 많은 교육 회사들이 우리의 API를 기반으로 애플리케이션을 개발하고 있습니다. 비디오 상호작용의 참여도는 텍스트보다 훨씬 높습니다. 우리는 최근 실시간 상호작용 비디오 모델을 출시했으며, 이는 저지연 음성 및 비디오 경험을 실현한 첫 번째 제품입니다. 언어 학습에서 개인 개발 애플리케이션에 이르기까지, 기술 비용이 충분히 낮아지면 사용자와 대형 언어 모델(LLM) 간의 상호작용 방식을 완전히 변화시킬 것입니다. 제가 개인적으로 가장 좋아하는 프로젝트는 "당신이 가장 좋아하는 책이나 영화 캐릭터와 대화하기"입니다. 예를 들어, "왜 살인자가 있다는 것을 알면서도 그 어두운 방에 들어갔나요?"라고 질문할 수 있습니다. 이러한 상호작용 경험은 전통적인 오디오북보다 훨씬 풍부합니다. 사용자는 질문을 하고 내용을 되짚어보며, 경험이 더욱 생동감 있게 됩니다.
Justine: 비디오 모델의 검색 공간은 매우 큽니다. 단일 프레임 이미지 생성은 이미 복잡하지만, 120프레임의 연속 비디오를 생성하는 것은 더 도전적입니다. Hedra는 독특하고 의미 있는 문제에 집중하고 있으며, 다른 비디오 모델과는 다릅니다. 이 문제의 정의와 당신의 영감 출처를 설명해 주시겠습니까?
Michael: 좋은 질문입니다. 우리는 기본 모델 계층에서 전문화된 분업이 나타나는 것을 보고 있습니다. Claude가 프로그래밍 모델의 기준이 되고, Open AI가 일반 보조자를 제공하며, Gemini가 비용 효율성과 속도로 기업 장면에 서비스를 제공하는 것과 유사한 위치를 Hedra도 비디오 모델 분야에서 가지고 있습니다. 우리의 기본 모델 성능은 매우 높으며, 특히 차세대 모델은 콘텐츠 창작에 대한 큰 유연성을 제공합니다. 그러나 우리는 콘텐츠를 "살아있게" 만드는 방법, 즉 사용자가 상호작용하고 일관된 개성과 매력을 느낄 수 있도록 하는 방법에 더 중점을 두고 있습니다. 핵심은 비디오 내 캐릭터의 지능과 렌더링 경험을 결합하는 것입니다. 제 비전은 사용자가 비디오 속 캐릭터와 쌍방향으로 소통할 수 있도록 하고, 캐릭터가 프로그래밍 가능한 독특한 개성을 갖는 것입니다. 이는 수직 통합이 필요하며, 핵심 모델을 최적화할 뿐만 아니라 사용자 상호작용의 미래 경험을 재고해야 합니다.
(5) "캐릭터 중심" 비디오 모델과 주체 제어
Michael: 저는 연극 배경을 가지고 있으며, 전문 배우는 아니지만 캐릭터 연기에 대한 열정이 있습니다. 비디오는 광고, 온라인 강의 또는 Hedra가 구동하는 무면 채널 등 우리의 일상 상호작용의 핵심입니다. 연결감은 매우 중요합니다. 우리는 창작 장벽을 낮추고 속도를 높여 일반 사용자도 쉽게 콘텐츠를 생성할 수 있도록 하고 있습니다. 미래에는 모델의 지능과 렌더링 경계가 점차 모호해질 것이며, 사용자는 자신의 의도를 이해하는 시스템과 대화하게 될 것입니다. 우리는 캐릭터를 제어의 핵심 단위로 보고 있으며, 단순히 비디오에 국한되지 않습니다. 이는 사용자 피드백을 수집하고 캐릭터의 현실감과 표현력을 최적화하며, 다중 주체에 대한 제어 레버를 제공해야 합니다.
Matt: 저는 다양한 비디오를 위해 캐릭터를 만드는 데 많은 시간을 보냈습니다. Hedra의 강력한 점은 통합된 캐릭터 창작 도구입니다. 사용자는 캐릭터 이미지를 생성하거나 업로드하고, 이후 사용할 수 있도록 저장하며, 심지어 맥락을 전환하거나 목소리를 복제할 수 있습니다. 제 YouTube 비디오와 튜토리얼의 많은 오프닝은 Hedra로 복제한 제 목소리를 사용했습니다. 이러한 통합 경험은 파편화된 생성형 미디어 시장에서 특히 귀중합니다.
(6) 통합 생성형 미디어 플랫폼 구축
Justine: 많은 회사들이 기술적으로 돌파구를 마련했지만, 여전히 Hedra와 같은 파트너가 소비자와 기업 사용자에게 경험을 전달해야 합니다. 당신은 어떻게 특정 기술에 국한되지 않고 통합 플랫폼을 구축하기로 결정했나요?
Michael: 이는 집중과 사용자 요구에 관한 문제입니다. 제가 Hedra를 창립할 때, 미디어에 대화를 통합하는 것이 매우 어렵다는 것을 발견했습니다. 과거에는 사용자가 짧은 비디오를 제작할 때 입술 동기화를 추가해야 했고, 전체적인 느낌이 부족했습니다. 우리의 기술 영감은 호흡, 제스처 등의 신호를 대화와 통합하여 보다 자연스러운 비디오 모델을 만드는 것이었습니다. 시장 관점에서 볼 때, 우리는 사용자가 다양한 응용 프로그램에 대한 지불 의향의 차이를 관찰했습니다. 일부 인기 있는 응용 프로그램은 지불 의향이 낮을 수 있지만, 특정 세분화된 분야(예: 콘텐츠 제작자)는 고품질 경험에 대한 강한 수요를 가지고 있습니다. 우리는 Hedra의 기술이든 11 Labs와 같은 파트너의 기술이든 최상의 경험을 보장하기 위해 최고의 기술을 통합하기로 선택했습니다.
Matt: 미래에는 AI 캐릭터가 단일 모델로 텍스트, 스크립트, 음성 및 비주얼을 생성할 수 있을까요?
Michael: 저는 산업이 다중 모달 입력 출력 패러다임으로 나아가고 있다고 생각합니다. 단일 모델의 도전 과제는 제어력입니다. 사용자는 음성, 톤 또는 리듬과 같은 세부 사항을 정확하게 조정해야 합니다. 입력을 분리하면 더 많은 제어를 제공할 수 있지만, 미래에는 모든 모달을 조정할 수 있는 전모달 모델로 나아갈 가능성이 있습니다.
(7) 인터랙티브 비디오의 미래
Justine: Hedra의 긴 비디오 생성 능력은 저를 감명 깊게 했습니다. 몇 분의 오디오를 업로드하면 캐릭터 대화 비디오를 생성할 수 있으며, 각각의 이미지와 목소리를 조정하여 한 번에 생성하는 자원을 낭비하지 않을 수 있습니다. 이러한 제어력은 저를 인터랙티브 비디오의 미래에 대한 기대감으로 가득 차게 합니다.
Michael: 우리가 방금 출시한 인터랙티브 아바타 모델은 저를 흥분시킵니다. 미래에는 사용자가 유동적인 캔버스처럼 비디오 요소를 조형할 수 있을 것입니다. 예를 들어, 비디오를 일시 정지하고 캐릭터에게 특정 대사에서 더 슬프게 해달라고 요청할 수 있습니다. 이러한 쌍방향 소통은 다음 세대의 경험을 가져올 것이며, 곧 실현될 것입니다.
Matt: 진정한 AI 배우는 가능할까요? 사용자가 실시간으로 생성된 캐릭터와 상호작용하고 지시를 내릴 수 있습니다.
Michael: 절대 가능합니다. 하지만 현재의 제한은 비디오 모델이 아니라 대형 언어 모델의 개성 현실감에 있습니다. 현재의 AI 동반자(예: Character AI)는 여전히 뚜렷한 모델 흔적을 가지고 있습니다. 진정한 인터랙티브 디지털 캐릭터를 실현하기 위해서는 구성 가능한 개성에 대한 더 많은 연구가 필요합니다.
(8) Hedra의 음성 생성 및 AI 네이티브 응용
Justine: Hedra















