幽默感不仅是一种与思维发展相联系的情绪体验,其本质也是一种创造力。因而,无论是段子或是梗图都是创意性劳动成果的呈现。曾有预言指出,创意性工作是最难以被AI取代的工作。但随着AI大模型的不断发展与迭代,这种固有印象似乎将很快被打破。
从基于模式和结构的纯文本式的笑料,到基于图像理解和要素提取的吐槽,AI随处释放的幽默感背后是多模态大模型点滴进阶的缩影。但取代纯文本创作的段子手,绝不是AI的核心竞争力和最终目标。
未来,AI不仅能写段子,大概率还能讲会演。即便暂时无法代替真人进行现场表演,但假以时日,生成真人脱口秀表演的视频将不成问题,而这对于花重金邀请喜剧大咖进行专场直播和录制的奈飞来说绝不是个好消息。当带着审视目光的观众最终一个个被AI戳中笑穴时,喜剧从业者们脸上的表情也必定耐人寻味。
(资料图片)
“行活”水准的吐槽文本
幽默感通常被定义为对于一事物的诙谐、滑稽或不合逻辑的理解和表达力,这需要人类具备情感、经验和文化背景等因素的综合作用。
正如很多脱口秀演员的早期生涯都是从模仿前辈开始,在对语义的理解和模仿的基础上,AI已经能输出完全贴合不同喜剧大师风格的段子。
例如,在GPT-4对人类笑话段子的理解测试中发现,其能正确解析英语、西班牙语、日语等语言中的谐音梗,能看懂双语梗和原创梗。
通过对不同演员的多个经典单口喜剧专场的文本训练,GPT-4可以精准模仿乔治卡林、路易CK、Joan Rivers、Kevin Hart、Chris Rock等单口喜剧演员的风格进行脱口秀文本创作,其创作思路、用语习惯与其模仿对象高度神似,经专业人士认证已经能达到通顺平稳的喜剧工业流水线水平。与同样水准的脱口秀编剧相比,GPT-4的优势还在于其可以高密度批量稳定输出,并按需求不断修改。
这意味着,若将GPT-4外接语音助手,用户将轻松获得足不出户即可收听业界中等水平的原创脱口秀专场的体验。
除了“文生文”,看图说话也是AIGC的看家本领之一。
最近,一款由网友制作的“meme梗图生成器”风靡外网。用户上传随手拍摄的照片,程序将自动识别图片并配上调侃文字,并一键生成梗图,其讽刺而不失风趣的风格令众多初次尝试的用户欲罢不能。令人惊叹的是,即便针对同一场景进行多次拍摄上传,生成器也会敬业地给出完全不同但同样辛辣有质感的吐槽文案。
“图生文”模型的顶级性能展现
GPT-4是由OpenAI潜心研发的大模型GPT-3.5的迭代版,其在自然语言处理方面的高度优化使其可用于从故事脚本、角色创作到游戏内容创作的所有领域。OpenAI论文显示,GPT-4已经能够理解图像中的逻辑和其中的幽默感。
而前文中另一个展现AI幽默感的工具——梗图生成器则是集成了GPT-3.5的文字生成能力和另一个视觉语言训练模型BLIP图像识别能力的成果(最终呈现的效果是用户上传的原图叠加AI生成的吐槽文字)。
2022年,Saleforce亚洲研究院的高级研究科学家Junnan Li提出了BLIP(Bootstrapping Language-Image Pre-training)模型,与传统的视觉语言预训练(vision-language pre-training)模型相比,BLIP模型统一了视觉语言的理解和生成,能够覆盖范围更广的下游任务。
BLIP基于编码器和解码器的多模态混合,可以与三个视觉语言目标共同进行预训练,即图像-文本对比学习、图像-文本匹配和图像-条件语言建模。通过对噪声图像和文本对比学习,BLIP模型能够在各种下游任务上取得了稳定的性能改进,包括图像-文本检索、图像标题、视觉问答、视觉推理和视觉对话。
今年1月,Junnan Li发布了新模型BLIP-2,目前代码已开源,在Github上已获得3.5k星。BLIP-2包含了图像编码器和大型语言模型(LLM)的解码器,并附加了可将视觉转换到语言的Q-Former,其使用的通用预训练框架可以任意对接自己的语言模型。
论文显示,在零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务等多项视觉语言任务的评估中,BLIP-2都实现了SOTA(研究任务中目前最好的性能和表现)。BLIP-2已具备图像信息检索、事实推理以及开放性生成问题等能力,而上文中的梗图生成器就是模型对于用户上传的图片进行上述任务处理的能力体现。
多模态大模型的下一站
当下,多模态大模型已在全球遍地开花。多模态预训练模型已开始向多模态通用生成模型转变,并有了一些初步的探索。除了上文中的GPT-4和BLIP-2以外,微软的Kosmos-1、谷歌的Flamingo、PaLM-E都是典型的多模态通用生成模型。
以上模型虽然可进行图像、文字等多模态输入,但其只能进行通用的语言生成。在此基础上,微软的VALL-E主打高质量的文本转语音。而“文生视频”则被视为多模态大模型的下一站,海内外多家科技公司已开始向视觉生成领域发起冲锋。
Meta的Make-A-Video可以把文字生成视频,也可以将静态图片生成连续图片并连接成一段视频;谷歌的两款文生视频产品中,Imagen Video主打高分辨率的高清视频片段,Phenaki基于新编解码器C-ViViT挑战有故事有长度的视频;曾参与奥斯卡获奖影片《瞬息全宇宙》特效制作的创业公司Runway发布的 Gen-1 模型可通过应用文本提示或者参考图像所指定的任意风格,将现有视频转换为新视频……
国内,百度的文心大模型开始提供文字生成视频功能、阿里达摩院的 “文本生成视频大模型”也在开源模型平台低调对外测试。
但总体而言,现有的文生视频模型效果还不太理想。因而,业界仍普遍期待OpenAI视觉生成能力的展现。当前,GPT-4的多模态能力仅限于图片处理,而GPT-5的视频处理能力则会将多模态的能力提升到可能接近人类的程度。
据预测,最快在今年6-7月,GPT-5的功能将陆续开放。除了更庞大的参数规模、更精准强悍的语言理解能力,GPT-5最具变革性的功能之一便是对包括音频和视频在内的多模态处理能力。未来,GPT-5创建和生成的内容将囊括文字、音频、3D模型和视频。
值得注意的是,在建立各种多模态大模型的过程中,通过生成指令微调使之与人类对齐是一大当务之急,否则模型将产生较多有害信息,降低其可用性。建立多模态大模型的意义在于不同让模态数据之间相互辅助与促进,使AI更好地感知和理解人类的情感和语言,提高其安全性与可靠性,从而更好地与人类进行交互和协作。
关键词:
-
让段子手失业?AI的野心不止于此
“文生视频”被视为多模态大模型的下一站。
-
全球时讯:如何制作红油?分享一款红油的制作方法
不管是做凉菜、热菜,还是面条调汤,都少不了红油,红油的好坏直接影响到了整个产品的风味,正宗的红油颜色红亮,香气诱人。今天,我们给大家
-
潞城区委审计委员会第二次会议召开
黄河新闻网长治讯:4月12日,潞城区委书记段尧刚主持召开区委审计委员会第二次会议,传达中央、省市有关审计工作会议精神,听取2022年全区审计
-
政协委员“到界别群众中去”,公益组织3万元到账了!
政协委员“到界别群众中去”,公益组织3万元到账了!
-
环球讯息:钉钉会议开启收费版
钉钉会议推出标准版、专业版、专属版。钉钉会议标准版(免费版)将在单场会议最多支持25人、45分钟,一家企业最多支持同时开5场会议,企业可购
-
【世界报资讯】联想科技有限公司南山分公司被罚 销售抽检不合格产品
深圳市市场监督管理局网站日前公布行政处罚决定书《北京联想科技有限公司深圳南山分公司销售抽检不合格产品案》(深市监南处罚〔2023〕蛇口33
-
美媒:大规模枪击事件是美国“国耻” 枪案频发暴露政治制度缺陷
金羊网
-
27.38万元起售 魏牌蓝山以高价值体验 让产品回归第一性_焦点讯息
魏牌新旗舰——蓝山DHT-PHEV(以下简称“蓝山”),以“共享大好时光”为主题在北京正式上市,共推出两驱长续航版、四驱
-
4月21日南宁青秀山风景区实行限额预约分时段入园
根据风景区三月三假日活动安全秩序维护工作需要,4月21日南宁青秀山风景区实行限额预约分时段入园。各门区限额入园人数方面,4月21日6:00—12:
-
什么材质的奶嘴最硬?
现在这些宝宝奶嘴材质都比较柔软:1橡胶安抚奶嘴优点:质地较柔软,有弹性,形似妈妈乳头,可耐一百零五摄氏度的高温。缺点:带有轻微的橡胶味
-
以太坊反弹强势 宏观基本面仍是重大制约因素|世界微速讯
继备受期待的Shapella升级完成之后,以太坊正在飙升。比推终端数据显示,按市值计算的第二大加密货币在过去24小时内上涨了近6%,盘中一度突破2
-
云南:打造更具魅力、更有温度的“诗和远方”
习近平总书记在今年全国两会参加江苏代表团审议时强调,高质量发展是全面建设社会主义现代化国家的首要任务。牢牢把握高质量发展
-
公告速递:南方通利债券基金限制大额申购、定投和转换转入业务 世界实时
4月14日南方基金管理股份有限公司发布《南方通利债券型证券投资基金限制大额申购、定投和转换转入业务的公告》。公告中提示,为保护基金份额持
-
丝路缘 泉昌情 文化润疆活动周在新疆昌吉举办 今日热讯
泉州网4月14日讯(记者谢曦)丝路同源,山海交响。近日,由泉州市委宣传部、泉州广播电视台、福建援疆泉州市分指挥部、昌吉市委宣传部主办的“
-
环球信息:HBO MAX改名为MAX 股价应声下跌
很快,当你去串流《继承》或《最后的我们》时,你将不再寻找一个名为HBOMax的应用程序。正如人们所传闻的那样,华纳兄弟探索公司(WBD)正在将
-
世界实时:年底突击交易?ST中基:不存在的!
凭借四季度大卖实现2022年整体扭亏的ST中基(000972),4月13日晚间
-
什么什么之歌小练笔的作文(汇总34篇)
什么什么之歌小练笔的作文第1篇亲情是一盏明灯,亲情是一首歌曲。说到亲情,我忽然想唱一首歌,一首关于爸爸的歌。记得在三年级的夏天,我正在
-
【争优争先争效】博士后频频进站!助力南安企业科研经济“双丰收” 全球即时看
【争优争先争效】博士后频频进站!助力南安企业科研经济“双丰收”
-
泰禾集团股东所持13224股股份被司法拍卖
泰禾集团股东所持13224股股份被司法拍卖,股权,泰禾集团,司法拍卖,重大资产
-
李坤城海葬,27岁林靖恩继承千万遗产,10年未回家,如今独自旅行
66岁台湾音乐人李坤城因病去世的消息,再次将网友拉回爷孙恋的热议中去,如今,大家最担心的就是林靖恩下一步该如何走呢?话说,涉世未深的17