横跨6种模态 Meta开源AI模型ImageBind 为虚拟世界打开大门

来源:

编辑宋梓侨

当地时间5月9日，Meta公布了一个全新的AI模型ImageBind的开源，该模型可以跨越六种不同的模式，包括视觉(图像和视频)、温度(红外图像)、文本、音频、深度信息和运动读数(由惯性测量单元或IMU生成)。目前相关源代码已经托管到GitHub。

横跨6种模态 Meta开源AI模型ImageBind 为虚拟世界打开大门什么是跨越六种模式？也就是说，以视觉为核心，ImageBind可以实现六种模式之间的任意理解和转换。Meta展示了一些案例，比如听到狗叫的时候画一只狗，并给出相应的深度图和文字描述；例如，输入一只鸟的图像+海浪的声音，就可以得到一只鸟在海边的图像。

横跨6种模态 Meta开源AI模型ImageBind 为虚拟世界打开大门但是，以前的多模态AI模型一般只支持一两种模式，不同模式之间很难交互和检索。ImageBind无疑是一个突破。Meta表示，ImageBind是第一个可以同时处理六种感官数据的AI模型，也是第一个在没有明确监督的情况下学习单个embedded 空的AI模型。

ImageBind可以做到这一点，核心方法是将所有模态数据放入一个统一的联合嵌入空，这样就不需要使用每一个不同的模态组合来训练数据。

首先使用近期大规模视觉语言模型，将近期大规模视觉语言模型的零样本能力扩展到新的模式，它们与图像自然配对，比如video & # 8211音频和图像& # 8211；深度数据，学个联合嵌入空。

但在以图像/视频为中心训练AI后，对于原始数据中不直接关联的模式，如语音、热度等，ImageBind表现出涌现并自发关联的能力。

一些行业观察家迫不及待地将ImageBind与元宇宙联系起来。

正如Meta的研究团队所说，ImageBind打开了设计和体验沉浸式虚拟世界的大门。该团队还表示，未来将增加触觉、语音、嗅觉和大脑功能磁共振信号，以进一步探索多模态大模型的可能性。“人类可以用多种感官学习和理解世界。在ImageBin的帮助下，机器离人类更近了一步。”

值得注意的是，Meta还表示，ImageBind可以利用DINOv2强大的可视化功能进一步提升其能力。DINOv2是Meta开源计算机视觉领域的预训练模型，也与Meta的元宇宙愿景密切相关。Meta的CEO扎克伯格此前强调，DINOv2可以极大地加持元宇宙的建设，让用户在元宇宙的沉浸体验更好。

虽然ImageBind目前只是一个研究项目，并没有直接的消费用户或实际应用。但可以想象的是，随着ImageBind模型的逐步完善，AI应用场景将进一步拓展，元宇宙的构建将更进一步。

例如，当ImageBind被集成到虚拟现实设备中时，用户可以获得更身临其境的体验。玩家进入游戏后，不仅能感受到游戏场景的温度，还能感知到身体层面上的运动。

郭盛证券分析师刘高昌大胆预测，1-5年内，随着多模态的发展，AI的泛化能力将得到提升，通用视觉、通用机械臂、通用物流搬运机器人、工业服务机器人、真正的智能家居将走进生活。未来5-10年，大规模模型结合复杂多模态方案有望具备完整的与世界交互的能力，并应用于通用机器人、虚拟现实等领域。

温馨提示：注：内容来源均采集于互联网，不要轻信任何，后果自负，本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权，请给我们来信(j7hr0a@163.com)，我们会及时处理和回复。

原文地址"横跨6种模态 Meta开源AI模型ImageBind 为虚拟世界打开大门"：http://www.guoyinggangguan.com/qkl/149983.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码

横跨6种模态 Meta开源AI模型ImageBind 为虚拟世界打开大门

栏目最新

栏目推荐

贷款平台