最近听到谷歌提的比较多的是One network Moti-modelity,多模态是在一个神经网络里实现的。现在MoE 在训练万亿大参数的模型上是非常有效的方法,但下一步如果做多模态融合,方法上会跟以前有什么不一样吗?
闫俊杰:这个是两个维度,第一个是中间这步都是一堆巨大的 transformer,为了提升效率,不管训练效率还是推理效率,大家主流的选择都是一套 MoE,比如 GPT-4。据传 Gemini-1.5 也是长这个样子。如果你做一个大概几千亿参数的模型,基本上这就是必然的选择。
第二个,你有不同的模态,怎么样能够合到这个大的以 MoE 为基础的主干模型上,这就是多模态。现在已知的东西是,怎么把视觉的理解跟主干模型合在一起,比如说像 GPT-4v,你先有一个巨大的 MoE,再把视觉的东西对齐,就可以有比较好的视觉的理解。
未知的东西有这么两个:
第一,GPT-4o 里面展示的,把声音也对齐到里面去,这是 GPT-4o 干的其中一件事。
第二,生成的这部分,比如说图片的生成、视频的生成能不能合进来。至少现在,视频是没有实现的,比如说 Sora 是独立的模型。为什么会这样?原因是视频的 tokenizer(标记)是有损的压缩,基本上要通过 diffusion(扩散)才能恢复到一个比较正常的状态,现在还没法整。当然会有很多人做,可能明年才会整合一起。但是视频的生成目前还不知道怎么整合的。
图片的生成我不知道,比如说在上一代 DALL-E 3 的时候,其实也没有整合在一起的,也是独立的模型。但是这次看 GPT-4o 的话,我感觉它们似乎整合在一起了,但是我不是特别确定。我觉得基本上底层的技术就是这样了。
张鹏:那么紧接着多模态统一融合的能力,会不会成为下一个阶段大模型领域、尤其是中国的创业公司们要去提升的目标?这是不是所有人都必须要跟上、必须要解决的问题?
闫俊杰:我更觉得是必须要做的事。其实这分两个产品,目前AI产品有两种,一种是满足娱乐需求的,一种是满足效率的。娱乐的不说了,是运营的属性、产品的属性,更加偏综合产品能力的事。
偏效率的一定是需要做(多模态)的,因为从历史上来看,所有效率的产品基本上最终大家只会用最好的。比如说有两个产品,一个可以做很多东西,一个只能搜文字,那大家一定会用那个啥都能做的那个产品。当然这个前提是说,这个(多模态)赛道是存在的。关于这个赛道是不是存在,其实也是需要很多努力的。
张鹏:可不可以理解为 Sora 是「选答题」、可以不选,但是多模态的统一融合是「必答题」、如果答不好就会出局?
闫俊杰:我觉得你这个概述还是挺好的,之前没想到这样,确实更像是一个必答题。
Sora 这个东西其实有不同的用法,比如说有 PGC 的用法、作为工具属性的用法,也有 UGC 的用法、会涉及很多产品、内容的东西,不是 AI 都要做的东西。
但是在工具类、效率类、助手类的产品上,只要有公司做出来(多模态),其他公司必须跟上。因为基本上就这么点技术。
谈生态:「智能语音助理」争夺战,巨头和创业公司是复杂的竞合关系
张鹏:这次我们看到语音助理这个事,苹果想用到 Siri 里、谷歌想非常深层地用到安卓体系里,似乎它会是个很重要的入口级的东西,这个事最终会是巨头的 Game 吗?创业者还能干吗?
闫俊杰:首先,这个产品的所有用户体验几乎都来自于模型的能力。它不太取决于产品是巨头的产品、还是创业公司的产品,只是取决于背后是什么样的技术水平。它考验的是你能不能做出一个体验最好的模型。这里面涉及到你的技术模型怎么做、怎么做很好的对齐、怎么优化你的延时,怎么提高工程的效率、怎么降低计算成本等等。
其次,在商业层面,这个产品背后肯定要消耗成本。因为现在的AI产品跟早期移动互联网产品的本质区别是,以前我们不需要考虑每天维护用户的成本,现在我们都要考虑。所以这一代产品怎么变现是比较直接的。而手机上产品的商业价值有多大,几乎取决于它有多长的用户时间,因为用户时长总是有标准化的变现手段。
这样的产品,假设它能做到大部分的需求都在里面解决,比如说当我想要搜索的时候,我不需打开百度了。或者我需要看一个视频的时候,不需要在抖音里看了。只要它占有用户足够长的时间,那它的商业化效率就是足够高的,它的商业化跟时长是成正比的。
这个事最终会变成,产品的竞争力取决于技术能力,商业竞争力取决于你占有多少用户市场。
张鹏:我再具象一点,苹果属于完整的从硬件到软件的掌控者、安卓在操作系统上有天然的优势、OpenAI是新型的基于大模型能力的创业公司,如果未来这三家公司都在抢占语音助手这个最关键的入口,谁更有可能是赢家?创业公司能赢得这个位置吗?
闫俊杰:我觉得这里面有各种各样的博弈、竞合关系,在搜索里已经发生了。我们能看到苹果里集成了谷歌的搜索,谷歌每年给苹果很多钱,为什么谷歌愿意付钱?显然因为谷歌在苹果里做搜索的商业价值,要大于谷歌自己付的钱了。
但是我觉得不管怎么样,如果看第一性原理的话,那在这里面如果谁能把东西做出来、并且把体验做得显著地好,那至少在里面你应该会有一席之地。
这件事我觉得更利好于拥有设备的公司,为什么?比如说我买一个小米的手机,只要给小米付一次钱,之后这个小米手机创造多大的价值,其实都跟小米没有关系了。唯一有关系的是,小米商店里面的分发里面会有分成,其他的基本上没有关系了。
张鹏:也有一些负一屏的内容广告,都是比较薄了。
闫俊杰:负一屏的内容水平显然是没有抖音或者小红书高。其实手机提供了很多用户时间,比如说我在小米上装了一个抖音,一个用户在抖音上花了很多时间,但所有的钱跟小米一点关系没有,都被抖音转走了。
我觉得一个比较强的 AI 助手的好处是说,它确实能够让手机的操作系统这层占领很多用户的时间,因为可以满足很多多样化的需求。这个事相当于是说它其实是把很多价值从 APP 里拉到手机上。
张鹏:最近我们也看到传闻,苹果跟OpenAI有可能在智能助手这个层面产生合作。所以按照你的推理,一家在大模型里做的非常优秀的公司,和一个对生态硬件、软件有掌控力的手机巨头,最终大家合在一起、在未来的生态里产生新的价值分配,这是符合逻辑的?
闫俊杰:对,实际上就是用户时间的分配,而这又考验背后的技术和产品能力。
张鹏:反过来说,如果 OpenAI 没有跟苹果合作,而是成为最强的 Super APP,作为独立的力量去挑战现有的生态、甚至对原有价值链进行重构,你认为存在这种可能性吗?
闫俊杰:这主要看它的规模。现在 1000 万 DAU 的 APP 显然不够格。到 Mata 这种 10 亿 DAU 量级的,估计会有本质的变化。但即使是OpenAI,距离这个也有 100 倍的距离。
张鹏:现在想着做所谓大一统的 Super App、超级入口还是很难实现的,今天更现实的是怎么把DAU从一千万涨到 1 亿,这也是 OpenAI 很头疼的事。
闫俊杰:我猜这也是它们为什么这么在意语音的原因,因为这个东西确实有可能会提高渗透率。
谈技术路线:投入通用基础大模型、打造通用产品,能看到真正的未来
张鹏:前段时间在整个创业者的圈子里,大家围绕基础模型和开源模型争论很大。本质上是说,你要么自己做一个智能引擎,要么就买一个自己改。其实模型、产品双轮驱动,自己同时做基础模型和产品,滚动着往前走是最好的。但很多创业者说这风险很大,模型的一次迭代跟不上、或者产品 PMF 的一次失败,就不行了。你怎么看这两种路线?
闫俊杰:我觉得这本身是风险很大的事。先不说同时做模型和产品,只做模型、或者只做产品,本身就是风险很大的事。
张鹏:创业其实就是生死游戏。
闫俊杰:对,确实是很残酷的事。比如我们看美国的公司,OpenAI 是都做,Aanthropic 之前只做模型、昨天他们把 Instagram 的 CTO 也招过去了,我不知道是不是它们也有可能做产品。我觉得至少对做模型的公司来说,自己做产品几乎是必然的选择。我们算是比较坚决的,有些公司后面变成这样了,这是必然的。
反过来,其实对做产品的公司也是一样的。比如说我们国内的开放平台上,有很多做产品的公司和客户,其实规模还挺大的,大概有接近一千家。这里面有大的公司,也有小的创业公司。其实坦白说,对所有这些公司来说,如果它们的产品得很大,他们也希望自己掌控模型的。这也是必然的一个路。
所以这里面核心的考虑还是说,如果你觉得这件事是对的,本质上是说你现在有多少资源、最大化优化你们想优化的目标。对我们来说,我们的目标是要最大化地优化用户体验,那我们觉得这两个东西(模型、产品)都是重要的,只能两个东西都做,才能最符合我想优化的目标。
不同的人定义的目标不一样、路径不一样,就会出来很多不同的公司。
张鹏:所以产模一体归根到底是我们追求的最终目标,只是很多人基于今天已有的资源,会发现烧钱太高、风险很大,但这只是阶段的选择问题。
闫俊杰:还有一个更底层的原因。举个例子,假设有个需求要满足,而这个东西需要通过模型来满足——那如果是(模型和产品都在)一家公司,你的路径是优化这个业务指标就可以了。但如果(模型和产品是在)两家公司,你们干的事是把这个指标转成一个对模型的要求,让给你提供模型的公司优化这个指标。
这中间本身损失了很多信息,并且让周期变长。这个事一定不是最大化业务指标的方式。
当然这个事上,微软例外。核心原因是,微软的这些场景,Bing 的搜索、还有 office,其实都是一些能够变得非常标准化的东西,基本上主要依赖于模型的通用能力。OpenAI 的通用模型是最好的,那就可以给这些产品用。在这种情况下(模型和产品分开)是合理的,但是大部分情况下不是最优的选择。
张鹏:你提了一个非常好的问题,就是我们到底是要根据模型能力造产品,还是要根据产品目标去改模型?我打个比方,如果模型是一把枪,产品是靶子,我们今天到底是要造更通用的机关枪、在更多领域命中靶子,还是应该造一把高精度的狙击枪、就打中某个具体的靶子?
闫俊杰:其实这个事背后有一层含义,咱们讲这个时间点,AI 背后是有一些技术红利的。这个红利是说,全世界有这么多聪明的人、这么多资源、这么多社区在做这件事。这件事的价值或者能力远大于单个公司,也大于 OpenAI 的,显然也大于任何一个中国的创业公司。
所以一家公司的研发水平不是一家公司封闭做出来的,而是这家公司的自身能力加上整个行业整合出来的。只是不同公司利用的效率不一样。包括 OpenAI 在内,它们很多的东西不是原创的,可能是谷歌做出来的,但是它们把它很好的整合在一起,扩大规模,就变成现在的状态。
其实把模型做通用这件事,是一个比较容易来吸收到整个社区进展的途径。这件事本身是有巨大的红利的。
张鹏:今天你应该站在那个位置上,把更多的能力拿出来,让更多的人跟你共创,也许是用户、也许是产业里面的其他创业者兄弟们,OpenAI有这样的感觉。但如果今天你只是做某一个产品、维系你自己的「菜园子」,你可能失去了世界与你共创的机会。
闫俊杰:客观的说不是世界与我们共创,是我们与世界共创。
张鹏:我看 Sam Altman也不断提醒,大家不要基于今天模型的一些具体问题去打补丁,这其实是浪费时间。因为技术在滚滚向前,你在这个时空刚把补丁打完,这件衣服可能都已经换了,会出现这样的问题。
闫俊杰:客观上说能够做什么产品,其实是由技术的周期决定的。
比如说目前这一代,我们见过的所有产品基本上是以文字的交互为主,产品的功能基本上是助理这个层面的。不管是娱乐还是效率,基本上都是 copilot(辅助助理)这个框架。只是不同的人基于不同的理解、不同的资源、不同的团队,组成了不一样的东西。
假设我们有更好的模型,能力比现在再显著地提升,比如所有的测试都可以做得非常好,它可以独立来工作了,就不是一个 copilot、可能是一个 auto-pilot(全能助理),这显然会产生更多完全不一样的产品形态。
但是这个东西不是产品设计出来的,而是当你把技术 Push 到某一个阶段的时候,这个产品自然就清楚了。
谈成本:技术成本两年内可能降 100 倍,这比探索技术上限容易多了
张鹏:我想把话题延展到很具象的东西,前些天我跟投资人算了算账,今天千万级DAU的产品,恨不得一天花掉 200 万的成本,很高的。比如今天 GPT-4o 如果容纳了更多用户、获得了更大的用户粘性,它每天的成本得有多高?你肯定掌握一些成本结构的判断,能不能帮我们算一算?
闫俊杰:其实语音比文字便宜的,因为语音慢。比如文字一秒要生成 20 个 token,但语音一秒只有 4-5 个 token。而且人听的时候也慢,我看一千个字只需要一分钟,但是我听一千个字应该是很长的时间。
所以假设使用相同的时间,语音其实更便宜的。
张鹏:这挺反常识的。
闫俊杰:你觉得声音更贵,其实更便宜,这是第一点。
第二,优化或者降低成本一直是学术界非常经典的研究领域,很多年前我自己也在这个领域做了很多工作。但它实际上不是业界最高端的领域,最高端的领域一定是说如何拓展技术的边界。
一旦你能够拓展技术边界之后,怎么把成本降低 10 倍这件事,其实从最早的机器学习时期,比如我当年读博士的时候,到 2012-2022 年这 10 年用 CNN 来做(卷积神经网络)的时代,怎么来量化、减值、增流是有一套非常标准的 pipeline。
在 Transformer 这一代里面,其实也可以复用上一代的 pipeline。比如说做量化;比如说当你有一个非常长的 context window(聊天框)的时候,如何做缓存,效率更高、时间更低;比如说如何优化你的 attention(注意力)……有很多方法来做这件事,这其实是没那么难的东西,你只需要把每步做得足够好,拼在一起就会带来很大的变化。
张鹏:也就是说,相比于探索新大陆,现在掘地三尺把矿挖出来其实挺容易的?
闫俊杰:这个事我们想一下就知道了,比如说去年 3 月份刚有 GPT-4 的时候,那个时候又慢又贵,但是我们现在其实看 GPT-4o,包括之前的 GPT-4turbo,又便宜又快,效果又好,这只是过去一年发生的事。价格可能降了 10 倍,但实际上 OpenAI 比这个价格的降低还要更多。
我们大概算过,如果有两年的时间,成本可以下降近 100 倍。其实我觉得,技术的上限这件事相对来说没那么确定,需要更多的探索。但是成本下降这事,一定是有办法的。这个事在学术界已经发生了三次了。
GPT-4o 成本|图片来源:OpenAI
张鹏:今天有的人在拼命地优化技术成本,有的人在拼命提升模型能力、想做到最 top,在你看来后者是不是更重要?
闫俊杰:我觉得从结果上来是这样的,但是从过程上两个事是相互转化的。这个其实是大模型里面一个非常重要的规律是,效率跟效果其实可以相互转化的。
假设训练精度一样,而你的算力是别人的 1/10,这意味着你能把效率做得很高,那你一定是能够把模型的上限变得足够高的。或者反过来说,如果你想要能力达到那个足够高的上限,那你一定只有把效率变得非常高,这个事才有可能。
所有人的资源都是有限的,一定是你的效率足够高、你的上限才能更高。实际上并不是我先冲到边界后再来做优化,实际上两边是要一起做的。
这也是为什么大部分研发越往上越难的原因,它要求你综合考虑。
张鹏:所以 Sam 说「给我多少万亿、我就能把 AGI 迅速实现」这种话,是不是太不现实了?
闫俊杰:如果类比的话,比如台积电现在是 7 纳米,那他接下来肯定是 5 纳米、3 纳米、2 纳米一代代往下做。他不可能把 5 纳米、3 纳米都跳过了,突然间说自己能做到 2 纳米。我觉得这个不太对,你很难把中间几步跳过去。
张鹏:远大的目标还是要一步步走,不能奢望直接通向目标,这也是创业的本质。
闫俊杰:当然可能它们太强了,我没有理解它们的精髓之处。不过正常情况下应该是这样的。
【熊猫出海 】海外广告媒体代理开户投放在美洲、欧洲、中东和非洲以及亚太地区16个国家拥有25位Regional Partner,全球合作伙伴覆盖五大洲,以众多的外媒资源,助力中国企业远洋海外。同时,多年来帮助无数中国企业通过海外媒体传播的方式走向世界。 <<<<<<<=========================================================================<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< 专注海外流量,提供Facebook&ins、Google、Twitter、TikTok、line日本&泰国&中国台湾、Zalo越南、Yahoo日本、Naver韩国、Linkedin等海外社媒广告开户,广告投放,海外代投,海外Telegram群发、WhatsApp群发、FacbookGroup群发工具、越南流量&网盟、越南开发者流量等合作,请联系熊猫出海。
【1】印度本土广告投放平台InMobi/Hotstar/AdColony【2】如何定制开发日本韩国印度金融资讯网站&APP?【3】Yahoo日本广告开户、投放指南此外,如果您有任何疑问或问题,请随时点击下面的联系我们与我们联系。
#FB不死号,FB不死主页,FB不死广告户,#FB白名单#,#FB三不限#,#Google老户#,#海外精准加粉#,#落地页加粉#,#广告投放加粉#,#FB精准粉#,#Facebook加粉#,#WhatsApp加粉#,line加粉,TikTok加粉,Instagram加粉,tinder加粉,#海外加粉#, #facebook代投放# ,#Google代投# #全球上粉,海外上粉,海外推廣,跨境營銷,海外營銷,全球營銷,全球推廣,海外引流,全球引流,流量引流,日本投资粉,欧美日本交友粉,日本line粉# #popin开户代投#,#dable开户代投#,#avivid开户代投#,#海外华为开户代投#,#Kwai开户代投# #日本精准粉#,#韩国投资粉#,#韩国line粉#,#韩国naver精准粉#,美国投资粉,#美国精准粉#,#交友粉#,欧美精准粉,#印度网赚粉#,#印度兼职粉#,台湾股票粉,台湾精准粉,新加坡交友粉,马来西亚交友粉,越南网赚粉,泰国网赚粉,印尼网赚粉,#台湾谷歌投放粉#,#海外股票精准粉#,#股票粉#,金融粉,币圈精准粉,表单精准粉#
官网: www.pandawm.com
微信群社区:facebook520.com