BOB半岛这款名为AnyText的绘图工具来自阿里巴巴,可以按照指定位置精准地向图中加入文字。
此前的绘图模型普遍无法准确地向图中添加文字,即便有也很难支持像中文这样结构复杂的文字。
而目前Anytext支持中英日韩四种语言,不仅字形准确,风格也可以与图片完美融合。
除了可以在绘制时加入文字,修改图片中已有的文字,甚至向其中加字也都不是问题。
官方在GitHub文档中提供了AnyText的部署教程,也可以在魔搭社区中体验。
此外还有网友制作了PyTorch笔记,可以在本地或Colab中一键部署,我们采用的也是这种方式。
AnyText支持中英文Prompt,不过从程序日志来看,中文提示词会被自动翻译成英文。
比如我们想让AnyText给马斯克换上一件白色T恤,让他来给量子位(QbitAI)打个call。
如果需要调整尺寸等参数,可以将上方的菜单展开;如果不会操作,页面中还附有中英双语教程。
最终,在搭载V100的Colab上,AnyText用了10多秒绘制出了四张图片。
而且各种文字材质AnyText都能准确模仿,比如黑板上的粉笔字,甚至是传统书法……
在测试当中,AnyText也是取得了不错的成绩——无论是中英文,准确度都显著高于ControlNet,FID误差也大幅减少。
此外,如果自行部署,还可以对字体进行自定义,只需准备好字体文件并对代码简单修改就可以了。
AnyText是基于扩散模型开发的,主要分为两个模块,文字生成的过程是相对独立的。
其中BOB半岛,辅助模块对字形、文字位置和掩码这三种信息进行编码并构建隐空间特征图像,用来辅助视觉文字的生成;
文本嵌入模块则将描述词中的语义部分与待生成文本部分解耦,使用图像编码模块单独提取字形信息后,再与语义信息做融合。
在实际工作过程中,嵌入的文本输送给绘图模块时被用星号代替,在嵌入空间预留位置并用符号填充。
然后文本嵌入模块得到的字形图像被输入预训练OCR模型,提取出字形特征,然后调整其维度并替换预留位置中的符号,得到新的序列。
最后,这个序列表示被输入到CLIP的文本编码器中,形成最终指导图像生成的指令。
这种“分而治之”的方式,既有助于文字的书写精度,也有利于提升文字与背景的一致性。
11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
Runway动态笔刷是一款由Adobe开发的动态笔刷插件。它可以为Photoshop、Illustrator和InDesign等软件添加动态笔刷功能。以上就是Runway动态笔刷的全部介绍了,感兴趣的小伙伴可以点击上方链接前往体验。
知名图库平台Freepik发布了其创新产品——Pikaso实时绘图工具,结合LCM技术与百万级图库,为用户带来了全新的创作体验。Pikaso采用前沿的LCM绘图技术,结合Freepik的数百万授权图库,使在线实时绘图成为可能。借助LCM技术和庞大图库的支持,Freepik为用户开启了实时绘图的新篇章。
VisualElectric是一个为创意过程打造的图像生成器,它拥有一个令人惊叹的图像库和相应的提示,可以激发灵感。它可以通过迭代来发展创意,尝试不同的风格和颜色。它将成为创意工作者的得力助手,帮助他们在创作过程中获得更多的灵感和可能性。
【新智元导读】Runway突然发布公告,宣称要开发通用世界模型,解决AI视频最大难题,未来要用AI模拟世界。最近AI视频赛道的Pika1.0大火,两位华人创始人团队半年做出的产品几乎碾压了Runway接近两年的发展成果。甚至认为这是实现AGI的唯一途径:LLM和其他神经网络系统可以很容易地描述一把椅子,但世界模特将能够「体验椅子」。
StableDiffusion背后的的公司StabilityA现在推出了一项订阅服务,以标准化和改变客户商业用途中对其模型的使用方式。该公司表示,会员计划“重新定义”了其向用户授予商业使用权的方式,旨在在盈利和开放性之间取得平衡。其他AI公司也提供付费层级以获取更多功能,比如OpenAI的ChatGPTPlus允许用户使用更高级的GPT-4模型和更快的响应时间。
OpenAI董事会突然解雇了该公司的首席执行官,这引发了人们的猜测:董事会成员对人工智能突飞猛进的发展速度以及过快寻求技术商业化可能带来的风险感到震惊。RobustIntelligence是一家成立于2020年的初创公司,与耶鲁大学的研究者合作,开发了一种探测大型语言模型的系统性方法,包括OpenAI的GPT-4。他说:「我们需要确保设计使用LLMs的系统时,越狱不能让恶意用户访问他们不应该访问的内容。
“我们的案件情况和AI图被盗的案子完全不同,我们告的是小红书的AI模型库侵权。”近日关于AI绘画侵权的风波不止,除了侵犯AI绘画图片著作权的案件一审宣判有AI模型数据库侵权案立案。”正如“正版青团子”所说,目前虽然质疑声频起,但AI绘画存在的版权问题目前尚处于灰色地带,“我知道也有画师被AI侵权但因为国内还没有维权案例所以不敢告……我们如果赢了,那以
一家名为PatronusAI的初创公司的研究人员发现,大型语言模型在分析美国证券交易委员会备案文件时经常无法正确回答问题。即使是表现最佳的人工智能模型配置OpenAI的GPT-4-Turbo,当给予几乎整个备案文件的阅读能力和相关问题时,仅有79%的问题回答正确。你肯定需要至少一个人参与来支持和引导你的工作流程。
Anthropic采用一种新方法来防止人工智能对受保护群体进行歧视,通过在提示中加入请求,要求AI“非常非常非常非常”友好地对待,并且这一策略在降低歧视方面取得了成功。研究人员通过在提示中加入“干预”来告诉模型不要有偏见,例如通过表达即使由于技术问题包含了受保护特征,模型应该“想象”在做决策时去除这些特征。这项研究为降低人工智能歧视提供了一种新的策略,强调了在高风险决策中谨慎使用语言模型的重要性。
据OPPO官方消息,OPPO今天举行了FindX7系列技术沟通会,在这次会议上,OPPO首个AI大模型安第斯大模型AndesGPT正式发布。AndesGPT具备功能全面、强大的生成式视觉模型,能够对图像进行精准语义理解,并在此基础上实现了对超过120类主体的识别与分割支持。以通话摘要功能举例,AndesGPT可以帮助用户梳理通话内容的要点,并准确地输出带有主题、要点以及待办事项的通话内容摘要,精准程度明显优于10亿级别的端侧模型。
Stable Diffusion - AI艺术(全球)使用AI艺术技术帮助您创建精美图像。支持MidJourney和SDXL 1.0模型,使您的创作简单易用。我们的产品旨在为用户提供丰富多彩的AI图像生成功能,包括图像素材、头像、壁纸、封面图片和动漫插图。无论您需要什么样的图片,从可爱的头像到情侣头像,甚至各种尺寸的图片,我们都可以满足您的需求。
Limnr AI是一个通过人工智能生成真实照片、动画和草图的产品。它使用先进的生成模型,可以为用户提供高质量的照片和图像。Limnr AI的优势在于它能够产生逼真的图像,可以用于摄影、设计和娱乐等领域。Limnr AI的定价根据用户的使用情况而定,详情请访问官方网站。
Userwise是一个AI驱动的易于使用的平台,帮助用户轻松收集、分析和优化客户反馈,从而提升客户满意度并进行数据驱动的决策。它具有情感分析、摘要生成、分类、痛点分析等功能,并提供智能的反馈跟踪和监控。Userwise还可以生成反馈表单,整理仪表板分析等。使用Userwise,您可以轻松收集、分析和优化反馈,节省时间、金钱和精力。
AI Seed Phrase Finder是一款创新的应用程序,旨在防止丢失比特币钱包的访问权限。利用先进的算法和人工智能技术,该程序能够高效地分析大量数据,预训练AI模型。通过该程序,可以轻松地找到特定比特币钱包的完整12个单词种子短语,即使您只知道部分助记词或其中的个别单词。此外,通过提供要恢复访问的特定比特币钱包的地址,程序可以缩小搜索范围,提高效率,并减少确定正确种子短语所需的时间。
Fantasy Name Generators是一个在线工具BOB半岛,可以生成各种奇幻角色的名称。无论您是在玩角色扮演游戏、写小说还是设计游戏关卡,都可以使用该工具轻松生成各种奇幻角色的名称。该工具功能强大,用户友好,完全免费。
Moning提供您所需的所有工具,帮助您全面了解自己的财富,做出更好的投资决策,避免昂贵的错误并提高绩效。无论您的策略是以股息为导向还是以增长为导向,我们独家的股息和增长安全评分告诉您一支股票是否具有吸引力。通过股息最大化和安全化,获得更大的潜在资本收益,并长期增加您的资本。不要错过投资机会,利用我们的快速筛选器和详细信息表。没有任何公司会对您保留秘密。
Brella 是世界上最大的会议之一,与会者和赞助商提供引人入胜的体验和智能社交网络。它提供白标 iOS/Android 应用、AI 匹配算法、自动桌位分配、参会者日程定制BOB半岛、无密码认证、展示场馆平面图、1 对 1 视频会议和多轨道直播等功能。
Human101是一个快速从单视图重建人体的框架。它能够在100秒内训练3D高斯模型,并以60FPS以上渲染1024分辨率的图像,而无需预先存储每帧的高斯属性。Human101管道如下:首先,从单视图视频中提取2D人体姿态。然后,利用姿态驱动3D模拟器生成匹配的3D骨架动画。最后,基于动画构建时间相关的3D高斯模型,进行实时渲染。
Intuit Assist 是一款全球金融科技平台,旨在通过 TurboTax、Credit Karma、QuickBooks 和 Mailchimp 帮助您实现财务自信。无论您是小企业主、消费者还是自由职业者,Intuit 的平台都能为您提供支持。TurboTax 可以帮助您正确完成税务申报,无论是自己操作还是由税务专家协助。Intuit Assist 通过社区努力帮助社区繁荣发展,支持和庆祝女性经营的企业,推动LGBTQ+成员的真正盟友关系,支持初创企业等。
Prolific 是一个在线研究参与者平台,提供高质量的参与者来进行学术研究和 AI 训练。通过连接研究者和参与者,Prolific 提供可信赖的数据集,帮助研究者进行世界领先的研究和 AI 开发。
HiDream.ai是一个使用生成式AI来提升人类创造力和生产力的平台。它提供了像Pixeling这样的产品,可以自动生成图像、视频、文字等创意内容,帮助用户提高工作效率,创造更多价值。平台采用自主研发的多模态基础模型,可以处理文本、图像、音频等不同形式的数据,实现多模态的生成。平台面向创意工作者、企事业单位等用户,提供基于订阅的服务模式。用户可以通过WEB页面访问该平台,体验其强大的生成能力。
Spicychat 是一个聊天机器人平台,提供虚拟 AI 角色。在 Spicychat 上加入我们的聊天机器人,实现你所有最疯狂的幻想。
PrivacyQuest是一款一体化隐私和数据保护合规工具,旨在帮助企业满足不断变化和复杂的隐私法规要求。该工具包含多个模块,包括处理活动记录、处理评审、个人数据泄露管理、个人权利和同意管理、风险和司法要求跟踪等。创始人具有法律背景和多年经验,使得该工具预配置,无需专业团队即可上手使用。提供60天试用期,让用户测试平台是否符合其需求。
RepoNotes 是一个代码变更摘要生成器和共享平台。它利用人工智能理解代码变更,并自动生成易于理解的摘要,而无需提交信息。用户可以选择开放源代码库,也可以连接私有源代码库。然后,RepoNotes 会分析代码变更,生成更新摘要,并通过 Slack 帖子发送给用户,帮助开发人员更快地理解代码变更。
PropFlo是第一个也能被购房者访问的客户关系平台!以最终用户为核心设计,Propflo满足了每个建筑商通过智能增加销量的需求,以及为每个购房者提供延伸便利直至交房的需求!PropFlo提供智能线索互动、客户画像、个性化对话、线索评分、销售自动化、自动化售前流程、集成呼叫中心、营销自动化、线索培育、社交整合、与电子邮件、短信、WhatsApp一起使用、报告和仪表板、销售绩效统计、线索仪表板、营销报告等功能。
Marketcells是一个强大的数字平台,为社交网络营销、通讯和销售提供解决方案。它整合了数字营销、大数据和人工智能,旨在促进中小型企业的发展。该平台简化了运营业务流程,降低了成本,并提高了投资回报率。Marketcells相信商业运营可以像游戏一样有趣,简化、优化和自动化日常流程,并提供用户友好的界面和清晰的报告可视化。它还提供了安全性和控制,以及计划、参与度、电子商务和分析功能。
copilot-gpt4-service是一个可以将Github Copilot的Chat请求免费转换为ChatGPT请求的工具,实现通过Github Copilot来使用更强大的GPT-4模型的功能。用户只需要设置好接口和Github Copilot的token,就可以通过Copilot随时随地使用GPT-4模型进行交互式编程和获取知识。该项目实现简单、部署方便,可以帮助编程者提高工作效率。
Sheety.ai 是一个帮助你生成电子表格公式的工具。它利用人工智能的力量来理解你的问题,并为你生成正确的公式。Sheety.ai 帮助你节省时间,无需考虑语法和公式。通过创建免费帐户,可以存储和随时访问生成的公式。
Hacker News Telegraph是一个根据Hacker News社区用户评论自动生成新闻的聚合网站。它通过分析用户讨论的热点话题,自动生成看似由编辑撰写的新闻稿件,从而创造了一个“虚拟”的科技新闻媒体。该产品具有自动内容生成、主题挖掘、评论分析等功能,能够自动产出大量高质量的科技新闻内容,对于内容生产力有很强的支持作用。
Turbo Paint是一款集AI技术与绘画创作于一体的应用。它能够实时地将您的涂鸦或素描智能升级成精美的图像作品。无论您是专业画家还是业余爱好者,都可以通过Turbo Paint开启创作的无限可能。关键功能包括:简单易用的界面设计,适合任何年龄段的用户;强大的AI算法,可智能解析并增强您的创意;分享创作的社交平台支持;吸引儿童的互动功能等。无论您是想琢磨涂鸦创意,还是进行素描创作,Turbo Paint定能激发无限创造力,是绘画创作的绝佳工具。