作者:
记者邵文
胜数科技成立于2023年3月,核心成员主要来自清华大学人工智能研究所。是国内最早布局多模态通用大模型的团队之一。本轮融资由蚂蚁集团领投,百度创投、卓远资本跟投,目前估值1亿美元。
我国多模态大模型发展出现新趋势。6月19日,清华大学计算机系教授、人工智能研究院副院长朱军带领的新团队完成了近1亿元天使轮融资。
澎湃科技(www.thepaper.cn)了解到,这家名为北京声数科技有限公司(以下简称“声数科技”)的多模态、大模式创业公司宣布完成近亿元人民币天使轮融资。由蚂蚁集团领投,有百度风投和卓远资本,目前估值1亿美元。本轮融资将主要用于打造R&D核心团队,加速多模态大模型和应用产品的研发。
多模态大模型是指结合文本、图像、视频、音频等多模态信息进行训练的模型。此前,OpenAI的联合创始人Ilya Sutskever曾表示,“人工智能的长期目标是建立一个多模态的神经网络,即AI可以学习不同模式之间的概念,从而更好地理解世界”。
数学科学技术模型支持的图像生成。
胜数科技于2023年3月由北京瑞来智能科技有限公司、蚂蚁集团和百度创投共同成立。原瑞来智能副总裁、清华大学计算机系毕业生唐佳宇担任CEO,致力于构建可控多模态通用模型。据悉,这是蚂蚁集团继火热的ChatGPT之后首次投资大模型公司,也是朱军继瑞来智慧之后的第二次创业。睿来智慧是人工智能基础设施和解决方案的提供商。
胜数科技团队核心成员来自清华大学人工智能研究所,主要是朱军带领的研究小组,研究小组致力于贝叶斯机器学习的基础理论和高效算法研究,是全球最早研究深度概率生成模型的团队之一。2022年1月,该团队提出的未训练推理框架Analytic-DPM被OpenAI应用于DALL E 2模型的处理策略,进而提出了采样算法DPM-Solver,现在被Stable Diffusion等大量开源项目采用,成为世界上最快的图像生成算法。
修改视频中的画面元素(提示:一只施华洛世奇水晶天鹅在一条河里游泳),最左边的原视频,中间的科技效果,最右边的跑道效果。
据介绍,胜数科技是国内最早布局多模态通用大模型的团队之一。2023年初,开放了全球首个基于Transformer的多模态扩散大模型UniDiffuser,首次实现了基于一个底层模型的图文高质量生成。联合生成图文,改写图文等生成任务。
Transformer模型是由谷歌的一个团队在2017年推出的。它是一个深度学习模型,可以根据输入数据的每一部分的重要性分配不同的权重。该模型主要应用于自然语言处理和计算机视觉领域。目前,GPT等主要大型车型都是基于变压器开发的。
“总的来说,业内做大规模图像生成模型的思路是一致的,都是基于扩散模型。我们的创新在于修改底层主网络,并率先在扩散模型技术中使用Transformer,实现多模态。”唐嘉瑜近日在接受媒体采访时表示。
唐嘉瑜认为,现阶段市场上的模型和产品只是解决了初始阶段的可生成性问题,但生成的结果仍然具有很大的不确定性和不可控性。该模型在把握用户意图和控制精确细节方面仍有很大不足。例如,很难精确控制生成图像中元素的位置和细节,生成的3D模型在表面精细度和颜色光影的准确性方面仍处于较低水平。
3D内容生成(提示:一张蓝色松鸦站在一大筐彩虹马卡龙上的dslr照片)。
胜数科技介绍到澎湃技术即在3D内容生成方面,开发了业界首个基于三视图的3D内容生成技术,以及无需任何3D训练数据的文生3D内容技术。效果可以细化到细节,可以接近工业应用。“训练好的大模型在图像生成方面已经超过了最新版本的稳定扩散基本模型,年内有望赶上最新版本的中旅。”
稳定扩散(stability Diffusion)是由初创公司StabilityAI、CompVis和Runway联合开发的文本到图像生成模型。2022年发布,现已开源。Midjourney是一款文本到图像的生成工具,于2022年3月问世。几经迭代,进入公测阶段,其现实效果引发中国网络热议。稳定扩散和Midjourney都是业界领先和全球评价很高的AI工具。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"布局多模态大模型:清华系团队完成近亿元天使轮融资,蚂蚁领投":http://www.guoyinggangguan.com/qkl/143110.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码