机器之心原创
作者:泽南、杨文
一句话实时P图,网友又能整活了。
11月11日,字节豆包大模型再次上新了!
近日,字节跳动豆包大模型团队推出了最新图像编辑模型SeedEdit,主打一句话轻松P图。它是国内首个产品化的通用图像编辑模型,无需描边涂抹,仅使用简单的自然语言,就能换背景、转风格,或者在指定区域进行元素的增删和替换。
在处理玻璃裂纹、发丝等精细涂抹区域时,SeedEdit同样能够保持原图的完整性。作为一款通用图像编辑模型,它不仅具备单次编辑的能力,还支持多作,让用户对同一图像进行连续的创意编辑。
SeedEdit的推出,标志着字节在技术报告中也展示了其精准的图像编辑能力。AIGC图像的编辑一直是个难题,但SeedEdit采用Diffusion架构,不引入新参数的情况下将图像生成模型转换成了图像编辑模型。其秘诀在于在保持原始图像和生成新内容之间寻找平衡,最终实现了通用性、可控性和高质量的新突破。
目前,SeedEdit已上线豆包PC端和字节AIGC平台即梦网页端开始测试。实测中,SeedEdit的图像编辑效果令人惊叹,让人不禁要问:生成式AI的修图技术是否已经做到“毫无PS痕迹”了?
我们进行了一系列实测,来看看字节这款AI神器的实力。任意指令,精准编辑:一句话爆改世界名画。今年以来,Dall·E 3、Midjourney等AI绘图平台响应群众呼声,陆续上线了生图编辑功能。但相比业界之前的方案,编辑生图的质量和美感有了大大改善。而这次字节推出的SeedEdit,在通用性上做到了极致,不用涂抹编辑区域,只需一句简洁的prompt,就能实现任意指令的编辑。
我们尝试了让蒙娜丽莎抱只猫、换表情等操作,SeedEdit严格遵循指令进行了编辑。在多次尝试后,我们也总结出一套超实用的Prompt指南。与Dall·E3、Midjourney等AI图像生成与编辑工具相比,SeedEdit展示了其独特的优势和更紧密地跟随人们指令的特点。
从技术原理上看,SeedEdit基于扩散模型但又能够根据文本提示修订给定图像。它在大量成对数据上训练模型,以在图像重建和生成之间找到平衡。与以往的技术相比,SeedEdit能够实现更丰富的编辑效果和更高的连续性。这也标志着国内技术在生成式AI领域已经走在前面。
放眼国内AI领域,字节跳动在生成式AI特别是图像生成领域的优势明显。早先就开始关注相关技术并持续增加研发投入。其大模型在日常应用上的创新之外,也在不断挑战AI领域的技术难题。从社交网络上刷到的各种新成果来看,字节在工程层面和应用层面都有不俗的表现。
SeedEdit的推出再次展现了字节在AI技术领域的领先地位和不断创新的精神。未来,随着技术的不断进步和应用场景的拓展,我们有理由期待更多令人惊艳的AI产品问世。上周,字节豆包大模型研究团队发布了一项系统性的研究报告。该研究首次在业界通过大规模实验深入地探讨了视频生成模型是否能够真正理解物理规律。这一成果得到了AI领域学者谢赛宁、Gary Marcus以及图灵奖得主Yann LeCun等人的转发和点赞,引起了广泛关注。
通过长期的研究和积累,豆包大模型的影响力逐渐扩大。团队发表的论文和承担的项目不仅在学术界产生了深远影响,也在悄然推动着科技前沿的探索。这些努力不仅提升了豆包大模型的热度,也展示了团队在人工智能领域的专业能力和创新精神。
SeedEdit团队表示,虽然他们在复杂内容处理和精细控制方面已经取得了显著成果,但现阶段的模型仍有改进的空间。他们计划在未来的工作中,进一步提升真实图片风格的保持、ID一致性、编辑准确性以及长时序内容生成等方面的能力。SeedEdit团队还将开放多轮复杂编辑的功能,以满足用户更高级的需求。
我们期待着SeedEdit和豆包团队在未来能够带来更多的惊喜。他们的研究不仅将推动人工智能领域的发展,也将为我们的生活带来更多的便利和可能性。让我们一起期待他们的新成果,期待他们为人工智能领域带来更多的创新和突破。