最近听到谷歌提的比较多的是One network Moti-modelity,多模态是在一个神经网络里实现的。现在MoE 在训练万亿大参数的模型上是非常有效的方法,但下一步如果做多模态融合,方法上会跟以前有什么不一样吗? 闫俊杰:这个是两个维度,第一个是中间这步都是一堆巨大的 transformer,为了提升效率,不管训练效率还是推理效率,大家主流的选择都是一套 MoE,比如 GPT-4。据传 Gemini-1.5 也是长这个样子。如果你做一个大概几千亿参数的模型,基本上这就是必然的选择。 第二个,你有不同的模态,怎么样能够合到这个大的以 MoE 为基础的主干模型上,这就是多模态。现在已知的东西是,怎么把视觉的理解跟主干模型合在一起,比如说像 GPT-4v,你先有一个巨大的 MoE,再把视觉的东西对齐,就可以有比较好的视觉的理解。 未知的东西有这么两个: 第一,GPT-4o 里面展示的,把声音也对齐到里面去,这是 GPT-4o 干的其中一件事。 第二,生成的这部分,比如说图片的生成、视频的生成能不能合进来。至少现在,视频是没有实现的,比如说 Sora 是独立的模型。为什么会这样?原因是视频的 tokenizer(标记)是有损的压缩,基本上要通过 diffusion(扩散)才能恢复到一个比较正常的状态,现在还没法整。当然会有很多人做,可能明年才会整合一起。但是视频的生成目前还不知道怎么整合的。 图片的生成我不知道,比如说在上一代 DALL-E 3 的时候,其实也没有整合在一起的,也是独立的模型。但是这次看 GPT-4o 的话,我感觉它们似乎整合在一起了,但是我不是特别确定。我觉得基本上底层的技术就是这样了。 张鹏:那么紧接着多模态统一融合的能力,会不会成为下一个阶段大模型领域、尤其是中国的创业公司们要去提升的目标?这是不是所有人都必须要跟上、必须要解决的问题? 闫俊杰:我更觉得是必须要做的事。其实这分两个产品,目前AI产品有两种,一种是满足娱乐需求的,一种是满足效率的。娱乐的不说了,是运营的属性、产品的属性,更加偏综合产品能力的事。 偏效率的一定是需要做(多模态)的,因为从历史上来看,所有效率的产品基本上最终大家只会用最好的。比如说有两个产品,一个可以做很多东西,一个只能搜文字,那大家一定会用那个啥都能做的那个产品。当然这个前提是说,这个(多模态)赛道是存在的。关于这个赛道是不是存在,其实也是需要很多努力的。 张鹏:可不可以理解为 Sora 是「选答题」、可以不选,但是多模态的统一融合是「必答题」、如果答不好就会出局? 闫俊杰:我觉得你这个概述还是挺好的,之前没想到这样,确实更像是一个必答题。 Sora 这个东西其实有不同的用法,比如说有 PGC 的用法、作为工具属性的用法,也有 UGC 的用法、会涉及很多产品、内容的东西,不是 AI 都要做的东西。 但是在工具类、效率类、助手类的产品上,只要有公司做出来(多模态),其他公司必须跟上。因为基本上就这么点技术。 谈生态:「智能语音助理」争夺战,巨头和创业公司是复杂的竞合关系 张鹏:这次我们看到语音助理这个事,苹果想用到 Siri 里、谷歌想非常深层地用到安卓体系里,似乎它会是个很重要的入口级的东西,这个事最终会是巨头的 Game 吗?创业者还能干吗? 闫俊杰:首先,这个产品的所有用户体验几乎都来自于模型的能力。它不太取决于产品是巨头的产品、还是创业公司的产品,只是取决于背后是什么样的技术水平。它考验的是你能不能做出一个体验最好的模型。这里面涉及到你的技术模型怎么做、怎么做很好的对齐、怎么优化你的延时,怎么提高工程的效率、怎么降低计算成本等等。 其次,在商业层面,这个产品背后肯定要消耗成本。因为现在的AI产品跟早期移动互联网产品的本质区别是,以前我们不需要考虑每天维护用户的成本,现在我们都要考虑。所以这一代产品怎么变现是比较直接的。而手机上产品的商业价值有多大,几乎取决于它有多长的用户时间,因为用户时长总是有标准化的变现手段。 这样的产品,假设它能做到大部分的需求都在里面解决,比如说当我想要搜索的时候,我不需打开百度了。或者我需要看一个视频的时候,不需要在抖音里看了。只要它占有用户足够长的时间,那它的商业化效率就是足够高的,它的商业化跟时长是成正比的。 这个事最终会变成,产品的竞争力取决于技术能力,商业竞争力取决于你占有多少用户市场。 张鹏:我再具象一点,苹果属于完整的从硬件到软件的掌控者、安卓在操作系统上有天然的优势、OpenAI是新型的基于大模型能力的创业公司,如果未来这三家公司都在抢占语音助手这个最关键的入口,谁更有可能是赢家?创业公司能赢得这个位置吗? 闫俊杰:我觉得这里面有各种各样的博弈、竞合关系,在搜索里已经发生了。我们能看到苹果里集成了谷歌的搜索,谷歌每年给苹果很多钱,为什么谷歌愿意付钱?显然因为谷歌在苹果里做搜索的商业价值,要大于谷歌自己付的钱了。 但是我觉得不管怎么样,如果看第一性原理的话,那在这里面如果谁能把东西做出来、并且把体验做得显著地好,那至少在里面你应该会有一席之地。 这件事我觉得更利好于拥有设备的公司,为什么?比如说我买一个小米的手机,只要给小米付一次钱,之后这个小米手机创造多大的价值,其实都跟小米没有关系了。唯一有关系的是,小米商店里面的分发里面会有分成,其他的基本上没有关系了。 张鹏:也有一些负一屏的内容广告,都是比较薄了。 闫俊杰:负一屏的内容水平显然是没有抖音或者小红书高。其实手机提供了很多用户时间,比如说我在小米上装了一个抖音,一个用户在抖音上花了很多时间,但所有的钱跟小米一点关系没有,都被抖音转走了。 我觉得一个比较强的 AI 助手的好处是说,它确实能够让手机的操作系统这层占领很多用户的时间,因为可以满足很多多样化的需求。这个事相当于是说它其实是把很多价值从 APP 里拉到手机上。 张鹏:最近我们也看到传闻,苹果跟OpenAI有可能在智能助手这个层面产生合作。所以按照你的推理,一家在大模型里做的非常优秀的公司,和一个对生态硬件、软件有掌控力的手机巨头,最终大家合在一起、在未来的生态里产生新的价值分配,这是符合逻辑的? 闫俊杰:对,实际上就是用户时间的分配,而这又考验背后的技术和产品能力。 张鹏:反过来说,如果 OpenAI 没有跟苹果合作,而是成为最强的 Super APP,作为独立的力量去挑战现有的生态、甚至对原有价值链进行重构,你认为存在这种可能性吗? 闫俊杰:这主要看它的规模。现在 1000 万 DAU 的 APP 显然不够格。到 Mata 这种 10 亿 DAU 量级的,估计会有本质的变化。但即使是OpenAI,距离这个也有 100 倍的距离。...
初体验:AI超级应用,真全能“孤品” 去年8月天工AI发布了中国第一款AI搜索产品,引发四面八方的AI产品扎堆搜索领域。随着谷歌发布Genimi demo,可能就连昆仑万维都没想到AI搜索会成为全球AI大战的“炸子鸡”应用。 自天工第一款AI搜索产品上线已过去10个月,现如今的天工AI俨然已升级为AI搜索为主的多模态全能AI孤品。 大多数AIGC应用目前还只通过PC WEB页提供服务,天工AI则支持PC、App、小程序等多渠道,让用户在不同场景可随时随地免费试用: PC端:tiangong.cn; APP:在应用商店搜索App“天工”,支持手机号码一键登录使用; 小程序:在微信等平台,【天工AI智能助手】小程序使用也十分简单方便。 从网站、App主界面来看,天工AI平台集成了AI搜索、AI文档分析、AI画画、做PPT、音乐生成、视频转绘、AI写作、AI语音对话等主流AIGC应用,本质就是一个AI应用的超级平台。 天工AI支持文字、图片、声音、视频、文档处理等,是第一个真正意义上的多模态AIGC产品。可能很多用户对多模态是什么不大了解,其实多模态就是更自然更好用的人机交互,因为人可以任意多种形式(文字、图片、声音、视频)与机器交互,就像跟人和人交互一样自然。 那么,天工AI能力到底如何?作为一家新媒体机构的创始人,我每天的工作都有大量场景需要使用AIGC,我发现常见的AI需求在平台都有对应的服务可以满足,而且完全免费。 刚好我最近接到了一个体验2024年新款iPad Pro的任务,这个任务串联了天工AI的不少核心功能,给大家分享下我的实操案例。 首先,我试着让天工AI给我一些小红书的文案建议: 答案让人惊喜,天工AI不只是准确地把握了iPad Pro的特性,而且可结合小红书笔记文风加入表情,且每一个表情都不是随意添加的。在文末,天工AI还加入了对小红书推荐效果影响很大话题标签,这份文案给人感觉很“走心”,90%可用。 不过,相较于纯文字而言,小红书用户习惯看图文结合的内容,于是我试着让天工AI给我生成一张iPad Pro的画报用于笔记。 结果也不错,画面简洁大方,颜色明亮鲜艳,还真有一点我要求的“金属质感”。 刚好雷科技今天的推文是关于微软AI PC的,于是我试着让天工AI帮忙制作一张封面图: 这个图剪裁一下就可以用了——美中不足的是logo成了苹果的,但瑕不掩瑜。 如果想要风格不一样的动漫图呢?我试着让天工AI智能体下面的二次元漫画给我制图,主题是乔布斯与iPhone同步出现,结果也同样能直接用。 前些年我们新媒体从业者最担心被图片版权机构敲诈勒索,现在有了天工AI,微信推文的封面图可以自己做了,感觉每年都可以省下一大笔钱了。 除了前面的图片生成功能,天工AI最近还上新了一个宝藏功能【AI视频转绘】,只需上传或者拍摄一段小视频,天工AI就能生成很多不同风格的视频,比如动漫、迪士尼等二次元风格,这个功能可太适合内容创作者了。 在白云机场,我拍摄了一则机场忙碌景象的小视频,想用来制作旅行Vlog。将视频上传到天工AI后,我只需指定“日漫”风格,它就能生成一则格调别致的小视频,还挺带感的(可在罗超Pro回复“天工”观看)。 天工AI让人惊喜的功能,不只是图片生成和AI视频转绘,它的AI音乐生成功能同样堪称惊艳。 让每个人都能创作歌曲的Suno一度很火,但Suno AI已开始收费,天工AI则支持免费创建音乐,且体验更接地气,支持选择不同曲风与情绪,一次可生成三个版本,均可免费下载。 我只花了几分钟时间就创作了两首歌曲,大家可以试听: 《明月几时有(电音版)》(可在罗超Pro回复“天工”观看)。 《互联网大佬凡尔赛之歌》(可在罗超Pro回复“天工”观看)。 特别值得一提的是,天工AI音乐不只是创作工作,也是AI音乐分享与发现社区,AI创建的歌曲可一键投稿到平台,参与相应的激励活动,说不定哪天你也可以作为AI kol在天工上变现了。 据了解,天工AI音乐生成大模型是完全自研的,当前AIGC音乐在国内外都没有公开可用的开源模型,suno也没公开任何技术架构。天工AI音乐生成在4月17日上线时,就对外公开了技术架构。 「天工SkyMusic」自研AI音乐大模型技术架构 「天工SkyMusic」是中国首个音乐SOTA模型,在人声&BGM音质、人声自然度、发音可懂度以及综合评分上超过AIGC音乐鼻祖Suno V3,这是中国自研大模型技术第一次在AIGC领域领跑全球。 在写作时,我经常需要阅读一些专业报告并快速提炼出信息,这是让人十分头疼的活儿,因为阅读一份报告需要很长时间,甚至比写稿本身的时间更多。使用天工AI的文档解析功能,我可以快速得到文档梗概重点,且可以生成脑图,这比传统目录更一目了然。 更强大的地方是,天工AI还能精准回答“手机相关内容在报告哪一页”这样的内容,我写稿要用到对应内容直接到对应页码精读即可,当然如果你不想自己精读,天工AI也支持一健AI速读。有一说一,天工AI的文档解析确实可以大幅节省编辑、记者、公关、研究员、分析师等人群的时间。 除了可以解析PDF等文档外,天工AI生成PPT的能力也不俗,比如我最近准备在公司内部展开一个新媒体内容风控的培训,它直接给我生成了一个框架,我还可以选择不同模版一健生成PPT,整个过程不到两分钟,基本覆盖我要培训的维度,我根据个人经验补充对应内容即可。 体验后我觉得天工AI算得上是真正意义上的全能AI助理。在搜索、写作、对话、文档分析、画画、音乐生成等基础能力外,它通过智能体整合AI PPT、翻译、百科、口语陪练、旅行规划、内容推荐、编程助理、AI识图、漫画、数据分析等应用,实实在在地帮用户解决工作、生活与学习中的诸多问题。 在全球范围内,AIGC产品百花齐放,ChatGPT、Midjourney、suno、Copilot、kimi、文心一言……有的擅长对话聊天,有的深耕办公场景,有的专注长文本。但对用户来说,不同类型的AIGC产品分散各处,需重复注册与付费,要解决一个问题则需在不同应用间切换,要用好AIGC往往需要系统的学习培训,这在无形中影响了大模型应用的普及。 天工AI让AIGC产品碎片化的问题迎刃而解。集成如此多AI功能、支持多模态的消费级AIGC平台,也只有天工AI一家,说其是“大模型孤品”不夸张。 天工AI让我想到了一个概念:“AI时代的微信”。 微信在移动时代扮演着“超级App”的角色,它像一个超级容器,基于小程序等应用形态,让用户可在平台内通信、社交、阅读、开会,还能玩游戏、支付理财、订机票、点外卖、购物。同样,天工AI也是一个真正的多模态AIGC应用平台,在这里用户可一站式获取所有主流AIGC服务,无需在不同App间跳转就能解决生活与工作中的诸多问题。 而且跟微信一样,天工AI将AIGC的使用做到了前所未有的简单:我体验的所有功能都是免费的,没有使用次数等额度限制,而且连注册登录都不需要。 移动互联网的普及微信功不可没,天工AI在AIGC走向亿万用户中也将发挥一样的作用,其将极大地降低AIGC应用的使用门槛,也将有望成为通用型AI时代的超级应用,成为“AI时代的微信”。 AI搜索鼻祖,如何重新定义搜索引擎? 搜索引擎建立在数据、知识与算法基础之上,与AI有着密切的关系,在深度学习阶段,谷歌、百度等搜索巨头就曾是主力玩家。 大模型给搜索带来的变革更加彻底,AI搜索也成了谷歌、百度等巨头的关注点,而在巨头外,还有AI搜索鼻祖【天工AI】这种基于自研大模型和自研搜索引擎的实力派产品。 2023年8月,天工推出中国第一款AI搜索产品——天工AI搜索,如今AI搜索依然是天工AI的核心功能。天工AI的搜索界面,跟百度、谷歌等传统搜索引擎截然不同。作为AI搜索引擎,其支持简洁、增强和研究等不同搜索模式。“搜索框”变大了不少,这是因为用户使用天工AI不再需要学习Query等搜索技巧,可直接用自然语言输入任何需求。 传统搜索引擎要求用户只能输入数十个字,天工AI支持长文本输入,且可以给出更加清晰的答案,比如我让天工AI与百度分别做一个数学题,天工AI不只是得到了正确答案,还给出了解题思路和延展问题建议: 百度最多只支持38个汉字,且只给出了数学题答案: 我的工作需要关注所有科技行业的发布会日程,团队小伙伴每个月也会手工制作科技行业活动日历,我试着让天工AI帮我做这件事情,Bingo!它给出的答案竟然全部正确,信息整理能力完全不输实习编辑,且还贴心地给出了“参考链接”让用户二次确认。 我是重庆人,喜欢吃面食,我让天工AI帮我对比一下重庆小面与兰州拉面,它直接提炼出了对比表格,图文并茂,结果超预期。我特意去看了参考链接里面的内容,都没有对比表格,可见这表格是天工AI自行提炼的结果。 ChatGPT、文心一言等大模型助理也可以回答以上问题,天工AI还有什么看家本领呢? 第一个让我种草的是“更强的时效性”。 此前ChatGPT等大模型应用因结果过时被诟病——很多大模型预训练数据是一年前半年前的,因此输出的结果无法与时俱进,不可用。天工AI则是国内唯一能够支持实时天气、股市、星座运势等信息查询的AI产品,能够同时生成特定卡片和对应文本分析,满足用户的高频需求。 比如我最近在关注贵州茅台,天工AI可给我最新的股价数据,且通过卡片展示K线图: 第二个超出我预期的是搜索增强。 在启动天工AI的“增强模式”后,我体验到了一种前所未有的“增强搜索”:它可以对我的复杂需求进行拆分再推理,通过引导提问摸清楚我的需求,再整合全网海量内容给出我最需要的结果。 比如我在计划去越南旅行时,在天工AI输入“越南旅游”这样的模糊需求时,它会推理我可能的需求,问我是想了解签证还是航班抑或是酒店?(图左)。当我明确要查询越南签证办理方式时,它给出了准确的总结(图右)。 更超出我预期的是,天工AI的增强搜索还支持“追问”,当我再问“哪一种签证更快,适合紧急出行”时,它同样给出了准确的答案,堪比专业导游: 在前几天的Google I/O上,谷歌展示了Gemini可以给用户规划旅行计划、给出健康食谱,这被一些媒体报道成是很“炸裂”的成果,其实天工AI早都实现了,且做得更好,比如针对我的越南旅行,天工AI除了可以回答签证等专业问题外,也能给出具体的行程规划,图文并茂,路线科学,基本可直接用: 很遗憾,国内科技(自)媒体对硅谷公司的科技成果习惯“炸裂式”报道,对国内科技公司的成果却往往视而不见,这种“偏见”真得改改了。 其实ChatGPT最初最被外界看好的也是“下一代搜索”,不过它想做全能AI助理,看上去什么都可以做,但却没有针对搜索、问答、文档解析、漫画、音乐等等场景进行优化。结果就是,在搜索上,ChatGPT存在训练数据与结果过时的问题,搜索结果存在较大不确定性,体验很不完整。反倒是天工AI,针对AI搜索进行针对性的设计优化,推出搜索增强模式,提高结果时效性,支持多模态交互,免费零门槛使用,快速构建了先发优势,在巨头入局AI搜索时构建起“人无我有、人有我强”的优势。 天工AI搜索让我体验了全新的搜索模式,也看到了搜索引擎的全新可能。 搜索的核心价值是加速信息的流通,精准地匹配人与信息/知识/服务。 传统搜索引擎基于PageRank算法对海量内容进行匹配再排序,核心比拼的是“排序”能力。 AI大模型本质是真实世界模拟器,其具备极强的认知能力,可更准确地理解用户需求、更自然地与用户交互、更好地理解内容,进而可对搜索结果进行整理、组合、过滤、筛选、排序乃至再创作等“增强”,基于此,用户不再需要在大量搜索结果中再筛选比对,而是可一步到位得到所求。AI搜索引擎比拼的将不再是“排序”,而是“需求理解、内容认知与结果生成”的综合较量。 假以时日,AI搜索将取代传统搜索引擎,成为人们获取信息与服务的新入口。 天工会成为AI搜索时代的谷歌吗? 当古老的搜索引擎市场爆发AI战事时,下一个谷歌正呼之欲出。 取代QQ的不是飞信而是微信,颠覆淘宝的不是京东而是拼多多。虽然ChatGPT曾被视作将颠覆谷歌,但从产品形态与市场反馈来看,针对搜索进行特定设计与优化的AI全能助理,将更有希望赢得下一轮搜索大战。 当前市面上出现了不少AI搜索引擎,但要么是自研大模型+套壳搜索引擎——其中大多是微软Bing接口,随时可能被掐断,要么是套壳大模型+自研搜索引擎,甚至还有大模型与搜索引擎都是“套壳”的,只有百度、字节和昆仑万维的天工AI走的是大模型与搜索引擎“双自研”路线。 AI搜索比拼的是大模型的真实世界认知能力与搜索的产品化能力,赢得AI搜索大战的一定是“双自研”的玩家。而在屈指可数的“双自研”玩家中,天工AI已构建独特的优势: 首先,搜索基础好。天工AI出自昆仑万维,依托Opera等业务有着多年的内容与搜索服务沉淀; 其次,AI基础技术强。2023年4月,天工skywork首款国内自研大模型上线,与文心一言、通义千问、讯飞星火并列前四,是国内第一批双千亿级大模型;2023年9月,昆仑万维推出多模态大模型Skywork-MM,在多模态大语言模型测评MME中综合得分排名第一;AI产品化早。早在2019年昆仑万维就已在全球布局AIGC,在海外有多款成熟AI产品; 最后,布局AI搜索最早。2023年天工AI推出AI搜索,率先构建多模态的搜索能力并延展成全能AI助手,在产品完整度、体验与技术上均已形成先发优势。谷歌在I/O大会上展示的“炸裂级”AI搜索能力均是吃天工AI的“剩饭”,多模态搜索、图文并貌的结果以及搜索增强理念,天工AI早已具备,且还拥有结果实时性、中文理解能力等差异化优化。可以说,天工AI搜索已具备世界级竞争力,其将有望在新一轮的搜索大战中脱颖而出,换道超车。 从AI全能助理角度看,天工AI是AIGC时代的消费级超级应用平台,堪称AI时代的微信;从AI搜索的维度看,天工AI则有望成为AI时代的谷歌。不容回避的是,天工AI依然面临一些挑战: 第一是商业模式。当前天工AI可免费无限次使用,AI搜索结果纯净无广告,暂未商业化。此前Google母公司Alphabet董事长John Hennessy曾表示,基于大型语言模型的搜索的成本可能是标准关键词搜索的10倍,如今大模型成本指数级下滑,但AI搜索商业化仍是行业待解难题,其结果高度精准,很难再像传统搜索一样在结果中插入广告。 第二是内容生态。算法与内容是搜索的基础。PC时代,基于入口地位与“爬虫”协议,搜索引擎不缺内容;移动时代,腾讯、字节通过超级App聚拢海量优质呢日,百度一度因内容匮乏“无源可搜”,因而不得不战略布局百家号、并投资知乎、快手等平台来充实内容生态;AIGC时代,内容(包括人工创作内容与AIGC内容)同样是互联网的基石,天工AI基于Opera等业务有一定的内容生态积累,但当前结果也依赖对全网内容的聚集,其需要对内容生态进行前瞻布局。 第三是竞争激烈。虽然天工AI已占据AI搜索的先发优势,但AI搜索以及AI助理已被行业看好,微软、谷歌、Meta以及国内的百度、字节等巨头均押下重注。天工AI被市场验证的一些产品形态,也正在被巨头们跟进。因此,天工AI要持续保持先发优势绝非易事。 在天工AI推出后,其母公司昆仑万维股价一骑绝尘,一度进入市值百亿美元俱乐部,由此可见,投资者对天工AI的前景还是很乐观的,一方面是看好其有望赢得新一轮AI搜索大战;另一方面则是期待其可在AI大模型时代成为AIGC版的超级应用平台。不论是AI搜索的谷歌还是AIGC应用的微信,无不都是十分性感的故事,天工AI正在用不断迭代的技术与产品证明自己。 【熊猫出海 】海外广告媒体代理开户投放在美洲、欧洲、中东和非洲以及亚太地区16个国家拥有25位Regional...
