首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

返回首页　

设为首页　

加入收藏　

今天是:

网站首页音乐游戏家居汽车公益旅游体育文化美食

首个开源、原生多模态生成大…
酷开科技联合QQ音乐首推大屏…
网易云音乐K-POP版图再扩张 …
解锁选秀音乐经典回忆网易云…
4399又在谋划新的“小游戏转…
4399小游戏CEO遭美SEC起诉：…
游戏无障碍！4399游戏盒畅享…
家文化智慧：帮助我们拥有一…
一个在国外营收千亿的行业在…
《我的青春谁做主》演员家居…
雷克萨斯suv车型大全报价雷克…
五菱星光S纯电1198万元起和比…
吉利汽车熊猫清远地区火热促…
水电基础局花凉亭项目部资助…
践行社会责任业界探索多元公…
【微济阳】正安归来！勇士凯…
国庆国内游趋势：小众玩法扎…
“十一” 西安持续上榜十大热…
2023贵阳国庆去哪里旅游最好…
【8点见】热搜榜暂停更新一周…
“新闻资讯类”App个人信息收…
淘宝、新浪微博等被点名！国…
鹤壁：以新质生产力引领文旅…
文化赋能新质生产力的途径、…
以乡村文化建设赋能新时代乡…
滨江首家银泰百货正式开业众…
Babycare线下门店再创新在成…
打卡香港库洛米展！暑假必到…
告别格式限制！格式转换mp3畅…
付费音乐怎么转换mp3格式？试…
车载音乐去哪下载？这几个免…
狼人杀、直播答题后社交平台…
把小游戏关了该上班了
挂机就能赚钱？小游戏《Bana…
电视剧《前妻回家》分集剧情…
《情谜睡美人》19、20集电视…
《咱们相爱吧》全集及分集剧…
一大一小两个m的车标两个M的…
名车标志识别图片大全图片—…
长知识！一组图片认完汽车标…
中山日报2023年度媒体社会责…
中国新闻社社会责任报告（20…
陕西广电融媒体集团（陕西广…
勿忘历史珍爱和平——全国各…
世界最著名的12个“锁”住爱…
盘点中国民风最强悍的7个地方…
五星体育与上海市登山户外运…
五星体育德比屁股歪倒离谱
沪上双雄齐亮相！五星体育、…
文化软实力如何锤炼文旅硬功…

专题栏目

您现在的位置：资讯速递网 >> 美食 >> 正文

高级搜索

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

作者：佚名文章来源：本站原创点击数：更新时间：2024/9/1 22:04:34 | 【字体：小大】

　　索爱小逃妻AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：；

　　生成式人工智能研究实验室（GAIR，主页：）由上海交通大学刘鹏飞副教授2023年4月回国创建，是国内首个聚焦于生成式人工智能的高校研究组。汇聚了来自于CMU、复旦、交大（ACM班、IEEE试点班等）等顶尖高校的年轻本硕博人才。实验室专注于三大核心领域：大模型基础研究、对齐系统和社会影响，致力于培养顶尖人工智能人才（具有原创、批判精神等）、开发尖端的生成式人工智能技术，赋能人类解决复杂问题，提升人类生活质量。

　　自LLaMa自回归文本生成大模型耀眼登场以来，整个AI界翘首以盼，期待一个能够真正实现原生、自回归图文生成的开源大模型。17个月的漫长等待，我们见证了以文本为核心的LLaVa的崛起，目睹了基于Diffusion的Dalle的惊艳，却始终未能一睹那个能够完美融合文字与图像的模型真容。

　　直到今天，Anole的诞生，终于填补了这一空白，满足了AI研究者和开发者的殷切期盼，让每个人都可以用开发LLaMa的方式去开发多模态大模型。

　　想象一下，你只需敲击几个键盘，就能唤醒一位虚拟大厨，为你展示一道完美煎蛋的每一个精妙步骤。这不再是科幻，而是由上海交通大学GAIR团队带来的创新成果——Anole模型。

　　Anole是多模态大模型领域发展的一次重要技术突破，作为全球首个完全开源、自回归、原生的（文本与图片一起从头训练）多模态大模型。无需复杂的扩散模型，Anole凭借纯粹的token自回归预测，就能实现文字与图像的无缝交织。如图所示，当你在Anole的界面上输入用图片和文字讲解煎鸡蛋的每一步时，它会瞬间化身为你的私人厨艺导师。一系列生动形象的步骤图随即呈现，每一幅图都配有清晰明了的文字说明，仿佛一位耐心的大厨在为你量身定制教程。

　　这仅仅是Anole众多强大功能中的一个。接下来，让我们深入了解这个创新的多模态生成模型及其背后的技术。

　　Anole是首个能够实现交错图文生成的开源、自回归、原生训练的大型多模态模型（无需使用稳定扩散技术）。虽然它建立在Meta 开源的Chameleon[1]的优势基础之上，但Anole新增了生成连贯的交替文本和图像序列这一复杂任务。通过使用精心构建的的约6,000张图像数据集进行创新性微调，Anole以最少的额外训练实现了出色的图像生成和理解能力。这种高效的方法，加上其开源特性，使Anole成为加速多模态AI研究和开发的催化剂。初步测试表明，Anole具有卓越的能力，能够遵循细致入微的指令，产生高质量的图像和交错的文本-图像内容，与用户提示密切吻合。

　　除了具备常规多模态模型的“文本生成”和“多模态理解”能力外，Anole还展现了出色的图文交错生成和文本生成图像的能力。

　　近年来，多模态AI技术取得了显著进展，Meta AI推出的Chameleon模型便是其中的代表。Chameleon通过在预训练期间融合图像和文本语料的方法，展示了在视觉和语言整合方面的潜力。然而，尽管Chameleon具有突破性，其图像生成的关键网络参数并未开源，限制了其进一步的研究和实际应用。

　　Chameleon的预训练数据本身就包含了文本和图像两种模态，理论上赋予了它图像生成的能力。我们的目标是在不影响其文本理解、生成和多模态理解能力的前提下，激活这种能力。为实现这一目标，我们冻结了Chameleon的大部分参数，仅对transformer的输出头层中与图像token ID对应的logits进行了微调。

　　：通过创新的局部微调方法，只调整不到40m参数，在短时间内（8 个 A100 GPU 上大约 30 分钟），便成功激发出Chameleon的图像生成能力，使研究人员和开发者能够充分利用并基于Chameleon的架构进行后续的多模态AI研究工作。

　　：仅需5,859个图片样本便可有效激发Chameleon的图像生成能力，展示了在大型多模态模型中恢复复杂功能的高效性。

　　：提供了一整套用于微调、推理Chameleon和Anole的代码库，显著降低了开发和实验的门槛。

　　：提供了丰富的数据资源和详细的教程，旨在帮助各级别的研究人员更容易上手和实验。

　　值得注意的是，GAIR团队已经对 Anole项目进行完全开源（提供了开源的模型权重、推理与训练代码和详细使用教程），以确保每个感兴趣的研究者都能重现这些结果，可以微调模型，创建自己的风格变体。该项目旨在建立和共享一个具有完整图文理解和生成能力的多模态模型，并通过完全开源实现多模态技术民主化，让更多人可以加入多模态大模型的开发中。

　　更重要的是，Anole 为学术界开启了一系列重要且富有挑战性的研究方向。具体而言：

　　它为探索统一的基于分词器的多模态模型（token-based）的性能上限提供了新的途径，使得与扩散模型（diffusion-based) 等方法的比较成为可能。

　　同时，它推动了高效交错文本-图像解码技术的发展，这对实时应用至关重要（比如动漫生成、教材生成）

　　此外，Anole 为探索这类复杂模型的最优微调策略创造了契机，并提出了如何确保生成图像安全性和伦理使用等亟待解决的问题。

　　从根本上说，Anole 不仅是一个强大的工具，更是为未来研究提供了沃土，为 AI 社区构建了一个稳固的资源和基础设施平台，使其能够在此基础上不断创新和发展。这种开放的方法有望加速多模态 AI 的进展，有可能带来突破性成果，而这些成果在过去因缺乏先进模型和技术的获取途径而难以实现。

美食录入：admin 责任编辑：admin
	上一个美食：滨江首家银泰百货正式开业众多品牌首店扎堆进驻下一个美食：没有了

　栏目文章

首个开源、原生多模态生成大模型：一键生成「… (09-01)	滨江首家银泰百货正式开业众多品牌首店扎堆进… (08-30)
Babycare线下门店再创新在成都万象城打造“育… (08-30)	打卡香港库洛米展！暑假必到YOHO MALL形点商场 (08-30)
V1795051 (08-29)	如何让你的老公理解家庭主妇全职妈妈的艰辛？ (08-29)
打工人开始抢着去“健康食堂”吃饭了 (08-29)	80后写重庆童谣《火锅娃娃》入选儿歌推荐曲目 (08-28)
Selina任家萱唱响“我要上学”公益主题曲 (08-28)	做音乐从娃娃抓起炫娃狂魔周杰伦陪儿女听唱片… (08-28)
神陵武装小壁虎版本下载 (08-27)	《欢闹汉堡店2：艾莉的有机食品》免安装硬盘版… (08-27)
娃娃屋游戏完整版最新版 (08-27)	怪物猎人崛起海境s解锁攻略 (08-26)
我的城镇世界2024最新版(My Town ： World) (08-26)	威利大冒险白金门攻略白金门开启条件及过法攻… (08-26)
农村十二个家常菜_十二菜桌菜谱大全 (08-25)	贵州：弘扬多彩饮食文化 (08-25)
贵州：弘扬多彩贵食文化促进全民营养健康 (08-25)	早餐是最重要一餐7道超完美早餐大推荐【2】 (08-24)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	资讯速递网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！