来源:
编辑宋梓侨
当地时间5月9日,Meta公布了一个全新的AI模型ImageBind的开源,该模型可以跨越六种不同的模式,包括视觉(图像和视频)、温度(红外图像)、文本、音频、深度信息和运动读数(由惯性测量单元或IMU生成)。目前相关源代码已经托管到GitHub。
什么是跨越六种模式?也就是说,以视觉为核心,ImageBind可以实现六种模式之间的任意理解和转换。Meta展示了一些案例,比如听到狗叫的时候画一只狗,并给出相应的深度图和文字描述;例如,输入一只鸟的图像+海浪的声音,就可以得到一只鸟在海边的图像。
但是,以前的多模态AI模型一般只支持一两种模式,不同模式之间很难交互和检索。ImageBind无疑是一个突破。Meta表示,ImageBind是第一个可以同时处理六种感官数据的AI模型,也是第一个在没有明确监督的情况下学习单个embedded 空的AI模型。
ImageBind可以做到这一点,核心方法是将所有模态数据放入一个统一的联合嵌入空,这样就不需要使用每一个不同的模态组合来训练数据。
首先使用近期大规模视觉语言模型,将近期大规模视觉语言模型的零样本能力扩展到新的模式,它们与图像自然配对,比如video & # 8211音频和图像& # 8211;深度数据,学个联合嵌入空。
但在以图像/视频为中心训练AI后,对于原始数据中不直接关联的模式,如语音、热度等,ImageBind表现出涌现并自发关联的能力。
一些行业观察家迫不及待地将ImageBind与元宇宙联系起来。
正如Meta的研究团队所说,ImageBind打开了设计和体验沉浸式虚拟世界的大门。该团队还表示,未来将增加触觉、语音、嗅觉和大脑功能磁共振信号,以进一步探索多模态大模型的可能性。“人类可以用多种感官学习和理解世界。在ImageBin的帮助下,机器离人类更近了一步。”
值得注意的是,Meta还表示,ImageBind可以利用DINOv2强大的可视化功能进一步提升其能力。DINOv2是Meta开源计算机视觉领域的预训练模型,也与Meta的元宇宙愿景密切相关。Meta的CEO扎克伯格此前强调,DINOv2可以极大地加持元宇宙的建设,让用户在元宇宙的沉浸体验更好。
虽然ImageBind目前只是一个研究项目,并没有直接的消费用户或实际应用。但可以想象的是,随着ImageBind模型的逐步完善,AI应用场景将进一步拓展,元宇宙的构建将更进一步。
例如,当ImageBind被集成到虚拟现实设备中时,用户可以获得更身临其境的体验。玩家进入游戏后,不仅能感受到游戏场景的温度,还能感知到身体层面上的运动。
郭盛证券分析师刘高昌大胆预测,1-5年内,随着多模态的发展,AI的泛化能力将得到提升,通用视觉、通用机械臂、通用物流搬运机器人、工业服务机器人、真正的智能家居将走进生活。未来5-10年,大规模模型结合复杂多模态方案有望具备完整的与世界交互的能力,并应用于通用机器人、虚拟现实等领域。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"横跨6种模态 Meta开源AI模型ImageBind 为虚拟世界打开大门":http://www.guoyinggangguan.com/qkl/149983.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码