联系我们

AI+MR专题报告:产业创新与战略合作并进AI+MR落地场景百花齐放(附下载)

发表时间: 2024-02-19 栏目: 行业新闻

  原标题:AI+MR专题报告:产业创新与战略合作并进,AI+MR落地场景百花齐放(附下载)

  今天分享的是AI系列深度研究报告:《AI+MR专题报告:产业创新与战略合作并进,AI+MR落地场景百花齐放》。

  回顾 VR、AR 市场表现,我们正真看到 VR 设备出货量在 2020 年9 月具备较高性价比优势的 Oculus Quest 2 发布后迎来了一波高潮,2021 全年出货量达到 1029 万台,同比增长 72%,但此后由于内容生态端的不完善导致增长乏力: 而AR 设备由于尚处技术早期阶段,产品定义和体验仍在探索,因此全年出货量仅有数十万台,但我们大家可以发现 AR 设备的季度出货量正在稳步提升,体现出消费者的接受度也在逐步改善。根据 Wellsenn XR 的预测数据,其对未来的增长前景十分看好,预计未来5年VR、AR 的出货量将分别突破 4500、1000 万台。

  Apple Vision Pro正式对外发布,开启新一轮革命性创新。国内外大厂持续推出新品以提前布局,例如 Meta在 2020年9月推出Quest 2之后,又分别在2022年10月、2023年6月分别推出了 Quest Pro、Quest 3,其 Reality Labs 部门即使每年亏损百亿美元以上,Meta 仍在加大投入,表明了巨头对于 VR/AR 未来市场发展的潜力的坚定看好。再以苹果为例,其在今年 6 月的 WWDC 全球开发者大会上,终于发布了业内期待已久的 MR 头显 Vision Pro,虽然价格高于预期,但其强劲的性能仍然让我们正真看到了其高价背后的产品支撑力和苹果布局多年的技术积淀。

  1) 芯片: 搭载两块 5nm 主控芯片,主处理器 M2 芯片处理各种计算,核心频率达到 3.49GHz,而大多数 VR 头显搭载的高通骁龙 XR2 Gen1 芯片,其核心频率仅有1.8GHz: 另一块协处理器 R1 芯片负责传输数据,传输延迟低于 12ms。

  2) 屏幕: 配置了两块拥有 4K 分辨率的 1.42 英寸Micro OLED 显示屏,而其他竞品基本采用的都是LCD 屏幕。

  3)光学方案: 在业内普遍采用的 Pancake 2 方案的基础上,Vision Pro 使用全新的 Pancake 3P 方案,能轻松实现更低的色差和更高的画面像素。

  4)摄像头和传感器: Vision Pro 搭载 12 颗摄像头和5 颗传感器 (1XLiDAR+2X结构光深度传感+2XIR 红外传感),用来处理 SLAM 空间环境感知、手势识别、三维建模和眼动追踪等功能。

  空间视频功能已开启公测,iCloud 可进行同步。iOS 17.2 的公测版让空间视频成为了现实,iPhone 15 Pro和iPhone 15 Pro Max 只需在相机格式的设置里选择就可以在更新后开启这项功能。当拿到 Vision Pro 后就能够最终靠 iCloud 把用 iPhone 拍摄的空间视频无缝地传送到 Vision Pro 上,享受全新的视觉体验。

  控制方式简单,深度体验 iPhone 15 Pro 全景照片。在控制方式上,我们大家可以看向窗口边缘并模拟捏合与拉动下方出现的白色曲线来调整窗口大小,用手指捏合与拖动即可浏览照片和画廊。放大用 iPhone 15 Pro 拍摄的 24MP 和48MP 照片后,可以将它们填满视野,并通过捏合与拖动在图像中移动,观赏精细细节。

  空间视频体验遇真,音频效果自然。Vision Pro 照片应用中新增了一个“空间”类别,空间视频可以在窗口或全屏模式下观看,其边缘和使用的人的视角或沉漫式环境融合,用 360 度的图像取代使用者的真实世界。如下图的泡泡视频,使用Vision Pro 会感受到泡泡不仅在场景中飘动,而且更接近使用者的脸,音频也被完美捕捉,十分自然。我们大家都认为目前空间视频功能已开启公测,到 Vision Pro 正式面市还有一段时间,在此之前用户积累空间视频或将促进 Vision Pro 销量提升,除此之外,我们大家都认为苹果生态将赋能 Vision Pro,引领产业革新。

  Meta Quest 3正式对外发布,性价比再次凸显。此外,在今年9月28 日的 Connect开发者大会上,Meta 发布了新一代 VR 头显Quest 3,已于 10月10日真正开始发售,其中128/512GB 起售价分别为500/650 美元。总的来看,虽然 Quest 3 515g的重量相比 Quest 2 (503g) 有小幅提升,但得益于 Pancake 光学方案的采用,以及配重设计和佩戴细节上的改进,佩戴体验上要明显好于前代产品。

  性能表现上,Quest 3 单眼屏幕分辨率提高到了 2064X2208,最高支持 120Hz 屏幕刷新率。此外,通过在头显前部的“三胶囊”中放入更多高清摄像头 (左右两个摄像模组包含全彩透视摄像头,中间摄像模组包含深度传感器和RGB 摄像头),Quest 3 全彩视频透视的像素数是 Quest 2的10倍,也是 Quest Pro的3倍,视频时延低至 12ms。芯片方面,第二代骁龙 XR2 平台是专为 MR 和VR 设备设计的高性能空间计算平台,相比前代,GPU性能 2.5倍,AI 每瓦特性能提升8倍。

  美元。其中,高通是 SoC 芯片、电源管理芯片、WiFi 芯片供应商,价值量约为 98.8 美元,占比 23.1%;JDI 是屏幕供应商,价值量约为 80 美元,占比 18.7%; 舜宇智能是摄像头模组供应商,价值量约为 70 美元,占比 16.3%;歌尔是 OEM 供应商,价值量约为 30 美元,占比 7%;海力士是 RAM 供应商,价值量约为 18 美 元,占比 4.2%。

  腾讯与 Meta 达成合作,将在中国市场推出平价 VR 头显。据《华尔街日报》透露元宇宙领导者 Meta 将开发平价版头显,定价低于 Quest 3系列,预计2024 年底上市。根据财联社有关报道,Meta的VR 新品可能会被命名为 Meta Quest 3 Lite基本款售价预计为 199 美元 (折合人民币约 1500 元)。尽管定价较低,但 Meta将采用比 Quest 2中更先进的 GPU,性价比大幅度提升。腾讯将作为该头显在中国的唯一销售商,为中国用户更好的提供更多的 VR 体验。

  腾讯完整元宇宙版图有望深度赋能 Meta 头显,推动虚拟世界走向主流。此次合作中,Meta 将获得更大的设备销售份额(硬件端),腾讯将获得更多的内容和服务收入,例如软件订阅和游戏销售,这款头显将提供腾讯发布的游戏和其他应用程序,合作方式参考腾讯与任天堂的代理形式。我们正真看到腾讯的元宇宙版图究整具备完整的电子商务体系,去中心化、分布式和远程协作科技以及更真实、独特、高忠诚度的社会化媒体,加上丰富的游戏版图,生态端建设较为完善,有望携 Meta推动虚拟世界走向主流。

  高性价比+腾讯生态/渠道赋能有望推动 Meta 头显销量走上新台阶。我们此前已经分析过 VR 设备出货量在2020年9 月具备较高性价比优势的 Oculus Quest 2发布后迎来了一波高潮,但此后由于内容生态端的不完善导致增长乏力,此次Meta 推出更具有性价比的平价 VR 头显,加上腾讯在生态与渠道端的深度赋能,有望推动 Meta 头显销量走上新台阶。

  AnyMAL 实现图像/视频/音频/IMU 运动传感器数据等多模态数据转换,创造新的SOTA。Meta 推出经过训练的多模态编码器集合 AnyMAL(Any-Modality AugmentedLanguage Model),可实现各种模态 (包括图像、视频、音频和 IMU 运动传感器数据) 的数据转换至LLM 的文本嵌入空间,数据集包含包含 2 亿张图像、220 万段音频、50万 IMU 时间序列、2800 万段视频等多种模态数据,利用图像、视频、音频跨三种模式的多模态指令集对模型进行微调。AnvMAL 创造了新的 SOTA: 在VQAv2 上提高了 7.0%的相对准确率,在零误差 COCO 图像宇幕上提高了 8.4%的CIDEr,在AudioCaps 上提高了 14.5% 的 CIDEr。从 AnyMAL 的输出示例来看,除了简单的 QA 外,还能很好的解决灵感与建议、创新写作、图像字幕、隔行扫描形式、音频信号推理、运动传感器推理等多种不受拘束的任务。

  图像标题生成表现、多模态推理任务人工评估胜率优于基线。我们正真看到 AnyMAL13B 和 AnyMAL-70B 性能差距较小,底层 LLM 能力对图像标题生成任务影响较小, 两个变体在 COCO 和标有「详细描述」任务(MM-IT-Cap)的 MM-IT 数据集上表现均明显优于基线。在多模态推理任务的人工评估中,AnyMAL 性能强劲,与人工标 注的实际样本的差距较小,完整指令集微调的模型表现出最高的优先胜率。

  Meta 还推出测试版的聊天机器人 Meta AI,能支持在 Quest 3 上面使用。Meta AI 利用了 Llama 2 的技术和最新的大型语言模型研究,能生成文本回复及图像, 能够最终靠与微软必应搜索引擎的合作获得实时信息。能够正常的使用的 App 包括 Whats App、Messenger 和 Instagram 等。

  Meta 发布 AnyMAL,研究成果有望整合入元宇宙产品线 日发布,而 Meta Quest 3 于同日发布,两者在时间上相近,且 Meta Quest 3 可收集多模态数据,将真实世界和虚拟世界无缝融合,实现 Meta Reality 体验, 我们大家都认为 AnyMAL 相关研究成果有望为 Meta 的元宇宙产品线提供支持并应用到消费的人市场。

  MR为AI 最佳落地终端,高度赋能 MR 内容与硬件。近期 intiny 开发的《完蛋!我被美女包围了》火速霸榜 Steam 国区热销第一名、全球第四,销量破百万,真人互动游戏爆火下,我们大家都认为 MR是 AI 最佳落地终端,泛社交、B端应用拓展也拥有想象空间:

  Workrooms 是一个身临其境的虚拟办公室,无论是戴着 Meta Quest 头戴式耳机还是从 2D 屏幕上加入,都可以在这里与队友会面、集思广益、分享演示文稿并完成工作。同时,Workrooms 还支持 Zoom,让连接更方便。

  ➢ 表情丰富的虚拟化身:让虚拟的形象看起来、行动起来和表现得与参会者一 模一样,并通过自然的面部表情和手势丰富非语言交流。

  ➢ 定制环境:用图像和徽标定制办公室。无论是在海滩边破冰,还是在城市上 空进行协作,都能为会议营造合适的氛围。

  ➢ 持久白板:在会议室或虚拟个人办公室使用虚拟白板,勾画想法或附加便笺, 下次签到时,白板上的内容依然存在。

  首尔市政府正式开展元宇宙服务,建立涵盖经济、教育、税务和行政等领域的行 政服务平台。该市还打算在接下来的五年里陆续推出更多涉及政府、商业、旅游 和文化的服务。首尔市政府向媒体透露,社会正在经历巨大的变革,非接触式服 务日益普及,信息通讯技术慢慢的提升,数字世代成为主导力量,首尔市政府就是 基于这样的形势,提出了“元宇宙首尔”这一创新的行政服务理念。该平台以自由、同行、联接为核心价值,旨在包含各种公共服务,创建创意与沟通空间、平 等的超现实空间、融合现实空间。

  海量/完整电子版/报告下载方式:公众号《人工智能学派》返回搜狐,查看更加多