Henry 发表者:奥飞斯量子比特 |公众号融入QbitAI的智能卡车的想象力比眼前的机器人要广阔得多。虽然每个人仍在研究如何将大型模型集成到机器人中,但数字人类也涉及实体智能。就在今天,魔发科技为开发者推出了包含“魔发星云”智能基础设施的开放式智能3D数字人平台。这也是世界首创。在 Mofa Nebula 的支持下,大型语言模型不仅可以“生长身体”,而且物理机器人还可以以一种感觉自然的方式移动和表达自己。端到端小于1.5秒的时延、千万级的并发能力、可运行数百元算力的架构,人机对话几乎像与朋友面对面聊天一样自然。这是怎么做到的? Mofa Nebula:为AI赋予实体的开发平台。莫法Nebula是魔发科技推出的开放式智能3D数字人开发者平台。基于文本实时生成 3D 数字人声、面部表情、眼睛、手势和身体动作,从而在任何屏幕、应用程序或设备上实现自然、流畅的多模式交互。 Mofa星云主要推动3D数字人的三大应用方向。首先,Mofa Nebula 可以为大型模型和 AI 代理提供物理和表达能力,让只能通过文本进行交流的模型能够通过语音、面部表情和动作自然地与人类互动。其次,手机、平板、电视、车载屏等各类终端均可升级为内置、智能接口,让所有屏幕都能“说话、动起来”,从被动的信息载体变成主动的信息载体、服务或信息提供者。最后,Mofa Nebula 还可以为人形机器人提供动力,以实现 n自然的沟通。可以在虚拟侧生成关节级别的运动(运动轨迹),并通过模拟、模仿和强化学习将它们映射到机器人(动态控制)。这使得机器人不仅可以行走和操作,还可以通过声音、眼睛和手势等自然方式与人类交流,从而实现解释、导航和交互式问答会话等功能。因此,Mofa Nebula 超越了常规的内容生成工具,成为让大型模型“拥有身体”的基础设施底层结构。具体使用场景包括酒店、政府机关、展览馆等场所的接待、引导、讲解等工作。无论是作为大屏互动窗口,还是变身接待机器人,数字人都可以24/7全天候提供一致、友好的服务。在更详细的场景中,例如AI面试和在线培训,挖掘ital humans打破了传统的文本交互格式,让用户能够与“温暖的”、具身化的图像进行自然的交互。对于个人开发者来说,Morfa Nebula还支持SDK或API部署调用。开发人员可以根据自己的实际需求将 Morfa Nebula 功能构建到任何设备中,包括显示器、机器人和应用程序。例如,开发者可以创建具有图像、表情和对话功能的AI伙伴,或者通过SDK/API访问网页、小程序和应用程序,生成类似图像的嵌入式数字人类助理。可以说,魔发星云平台推出的目标是:将计算机的图形界面转变为可以图像、可以交流、可以做事、可以陪伴的智能实体,让屏幕焕发生命。 Mofa Nebula的落地与Mofa的核心效益密不可分。 “高质量、低延迟、高并发/低成本”不可能打破三角当前,数字人的大规模商业部署面临多重挑战。首先是数字人的图像、面部表情、动作、唇形、声音等是否自然、能够传达人的临场感,能否提供令人满意的体验。第二个是响应速度,或者说系统在用户输入后能够多快地响应。基于此,还需要在成本可控的范围内实现多设备适配能力。为了应对这些挑战,现有的技术解决方案有不同的做法,形成了典型的不可能三角。平衡高图像质量和低延迟需要对计算能力进行大量投资,这使得成本难以控制和扩展。高并发和低成本的平衡导致图像质量难以保证。平衡高质量和高并发使得实时交互变得不可能。魔法星云的发布标志着首个不要在这个不可能的三角形中前进。魔发科技以desOwn开发的文胜多模态3D大型模型为核心,将语义、语音、表情和动作整合到统一的生成系统中,统一驱动多模态,实现语音、表情和动作的自然同步和情感协调。更重要的是,与模型相关,魔发星云还设计了创新的云边缘分体架构。云端仅生成音频和动作参数,最终AI直接渲染图像,无需传统引擎或GPU支持。这允许更少的带宽、更低的延迟和更少的计算能力。正是得益于这样的架构,魔发星云不仅可以在RK3566、3588等数百元芯片上流畅运行,还可以适配国产芯庄芯片,让数码专业人士可以在各种中低端系统、终端、甚至 devices.a,使他们能够在实验室的任何地方利用内置智能。此外,魔发星云基础扎实,从2018年开始向游戏、影视、娱乐领域拓展。我们开始为动画公司制作3D内容,然后自己积累动画数据。如今我们拥有数千小时的优质3D动画资源。在一个“达到高质量每秒要花费数千元”的领域,这样的数据量不仅稀有,而且是支撑大型模型表达力的关键。近两年,魔发还持续推动“3D+AI”融合,推出幽言视频工具、幽光直播产品、幽灵互动产品,不断将魔发星云的技术能力转化为具体应用。 Mofa Nebula的推出进一步印证了Mofa离子从项目到产品再到平台的转变,完全不发挥 3D 数字人类的力量,让开发人员和公司能够快速构建嵌入人类表达的智能。此外,为了方便控制器在各种场景下的部署,魔发科技创始人兼CEO柴金祥教授表示:魔发拥有完整的三层功能:感知、理解和行动。对于已经拥有大型模型的客户,魔发星云提供人形智能模块和控制器来实现模型。对于没有大型模型的客户,我们提供集成的模型到控制器解决方案。大型离线显示器为没有感官能力的客户提供视觉和语音识别功能。非开发人员也可以使用“Have”。 “Ling”是指内部模型或通用第三方模型。 Mofa Nebula 平台现已完全向开发者开放。用户可以通过SDK API访问,实现实时驾驶等内置智能功能、语音合成和视频生成。屏幕捕捉智慧 魔发科技长期以来被认为是数字人领域的第一名,而随着新推出的魔发星云,它不仅仅是一个数字人/视频生成平台。另一方面,魔法星云并不是“综合性能”,而是“驱动交互”。传统平台主要依靠2D拼贴、唇形合成和预先录制的动作回放,动作有限、反应延迟、缺乏多模态理解。而Mofa Nebula则基于3D多模态生成模型,可以同时生成语音、面部表情和动作,赋予AI通用性“眼睛、节奏和肢体语言”的层次感。与 Sora 等视频生成模型不同,Morfa Nebula 的目标不是生成图像,而是为存在提供动力。 Sora可以制作逼真的视频,但输出不可控,延迟高,expensive,使其适合内容但不适合交互。 Morfa Nebula采用轻量级架构,端到端延迟低于1.5秒,百元算力可实现语义、语音和动作的实时驱动,让AI能够实时对语义做出反应。 “我看起来像个人类”,传统的数字人类让人工智能“听起来像人类”,而Mofa Nebula则让人工智能“像人类一样反应和行动”。这种象征性的差异源于Mofa Nebula的独特定位:一个智能的、具身的3D数字人。简而言之,一只智能的、具身的 3D 数字手将数字人(具有图像和表示)的能力与大型模型的能力(具有大脑并且能够做事)深度集成。具身智能就存在于此。代理),传统上专注于具有进入、感知和行动物理世界能力的人工智能。 AI)则不同,专注于人机交互(人机交互)和多模式人工智能。第一台纸带机、终端命令和图形。从界面到大型文本输入框,交互界面总是缺少一个“活体”,建议是打造一个“身体功能平台”,允许任意屏幕。屏幕、界面和应用程序可以有一个主体,允许它们在特定场景下自然地交互和运行。这里的“身体”不一定是机械的,而是可感知和体验的有形界面。例如,屏幕上的 3D 数字人物、手机上的虚拟助手或汽车屏幕上的 AI 副驾驶。与机器人连接后由动作和面部表情驱动的系统。这些特工有面部表情、语气和手势,即使他们的身体只存在于屏幕上,人类也会将他们视为“现有特工”。与只能输出文本或音频的传统AI相比,魔发星云为AI提供了丰富的表现力和自然的交互方式。积极的经验。想象。 AI健身教练只能通过文字或语音进行教学,无法进行实际动作演示。如果你的英语培训伙伴没有照片,你所能做的就是对着空气说话——这种互动体验绝对会给你带来很大的折扣。化身正是为了解决这个问题。让您的设备、应用程序或智能代理以人性化的方式表达自己。通过面部表情传达情感,通过声音和语气进行交流,通过动作和图像建立存在感。只有这样,互动才能被信任、扩大、真正渗透到社会。正如柴锦翔教授所言,魔发星云的使命是完成AI拼图的最后一块,让每一个屏幕、每一个界面、每一个设备、每一个人形机器人真正“活起来”。此外,从“大脑到身体”的角度来看,人工智能的发展也可以看作是向身体发展的进化路径。ent.文本AI(ChatGPT):只有语言,没有实体 → 无实体语音助手(Siri等):有声音,能听但看不到 → 半实体化数字人(屏幕):有声音、表情、动作,可以交流 → 虚拟物化机器 机器人:有实体身体,可以与世界互动 → 实体化 魔法星云是虚拟实体化和实体化之间的连接。它不仅可以控制3D虚拟数字人的动作、面部表情和声音,还可以控制仿人机器人的关节动作、面部表情和手势。为此,魔发星云弥补了“有大脑但没有身体”、缺乏情感、运动和表现力的大型虚拟世界模型与“有身体但没有灵魂”、可以移动但不能交流的现实世界人形机器人之间的差距。从这个意义上说,魔发星云不仅仅是一个数字人平台,更是对“体现在正如柴锦翔教授所说,身体是多面的,用于感知、日常活动和工作,也用于娱乐、友情和交流。我们目前对机器人工作的关注忽略了身体在人机交互和情感表达中的重要作用。魔发星云的推出也提醒我们,嵌入式智能的定义与现有技术相同,现在谈论融合还为时过早。测试站点:https://xingyun3d.com
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。