作者丨郭思 王悦
编辑丨陈彩娴
过去半年, 在openai 持续迭代,不断赚足大众视线之际,谷歌迟迟没有发声。直至今日凌晨,谷歌直接丢出了一个重磅炸弹,带着耗时一年之久的多模态模型 gemini 来了。
而早在今年年初,谷歌就在着手 lamda 提供支持的实验性对话式ai服务——bard,但因为准备并不充足,一经发布之后,便因性能表现不佳,市值蒸发千亿,如今来到年底,谷歌再次出击,也被认为是反击 openai 的再次力作。
据谷歌官方表示,gemini 1.0 针对不同尺寸进行了优化,分别是:ultra、pro 和 nano。这些是进入 gemini 时代的第一个模型,也实现了早些时候成立 google deepmind 时的愿景。
三个不同版本ultra、pro 和 nano在各自性能和适配任务上侧重点各有不同,具体而言:
gemini ultra —规模最大且功能最强大的模型,适用于高度复杂的任务。
gemini pro — 适用于各种任务的最佳模型。
gemini nano — 可以在端端侧设备上运行的高效模型。
谷歌拒绝回答有关 pro 和 ultra 的参数数量以及训练数据的规模或来源的问题。但其最小版本 nano 旨在在智能手机上本地运行,实际上有两种模型:一种用于速度较慢的手机,拥有 18 亿个参数,另一种用于功能更强大的设备,拥有 32.5 亿个参数。
谷歌表示,gemini 是包括 google research 在内的 google 各团队间进行广泛合作的成果。在大语言模型研究和开发中广泛使用的 32 项学术基准中,gemini ultra 的性能有 30 项都超过了目前最先进的水平。
首先在mmlu(大规模多任务语言理解)测试中,gemini的性能首次达到了超越人类专家水平。
在权威mmmu基准测试中,gemini ultra获得了59.4%的sota分数。
图像基准测试中,gemini ultra 在不使用对象字符识别 (ocr) 系统来提取图像中的文本进行下一步处理的情况下,表现优于gpt-4v。
此外,多模态的模型,这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。
据谷歌官方介绍,gemini 1.0 具有复杂的多模态推理能力,可帮助理解复杂的书面和视觉信息。这使得它具有独特的技能,可以在海量的数据中发掘难以辨别的知识内容。
经过训练,gemini 1.0 具备了同时处理、图像和音频等信息的能力,这使得它能够更深入地理解输入内容的细节,并能对复杂主题的问题进行回答。因此,对于数学、物理等复杂的学科问题,gemini 1.0 显示出了强大的推理能力。
以理解图像信息为例,在进行图像理解时,gemini基于图像就可以马上进行理解。但如果是非原生多模态结构模型上,就需要先借助ocr(光学字符识别技术)先“认出来”图里是什么——转成文本,再放到语言模型中进行语义理解。
gemini可以做到端到端的理解,信息不会在“转录”过程中丢失。得益于此强大的功能,谷歌展示gemini的应用实例演示显得尤为丝滑:
当演示者在画画时,gemini同时进行识别。他迅速辨认出了刚开始的曲线形状。在鸭子画完后,gemini也能立即确认:“这是一只蓝色的鸭子,正在水里游泳。”
gemini能够在几乎实时的情况下完成辨别,并用自然、流畅的语言与演示者进行对话。
在演示者拿出蓝色的橡皮鸭实物后,它甚至还会幽默地打趣:“看来蓝色的鸭子比我想象中更常见。”
在另一个实例中,当演示者向gemini寻求关于女儿生日派对的灵感时,gemini首先向他提问:“能否告诉我她对什么感兴趣呢?”
在获得足够的信息后,gemini自主编写了一份prd(产品需求)文档,并且不再以文本形式回应。相反,它迅速地编写代码,为用户定制了一个图文并茂的小部件。这个小部件包含了推荐的派对主题、活动和食品建议等,让演示者可以在上面滑动,查看自己最感兴趣的选项。
gemini 一经发布,便引起了行业人士的热烈讨论,细心的网友们发现,综合来看,谷歌在各个榜单之中,并不是所有版本都能完胜gpt-4,只有gemini ultra超过了gpt-4,而放于手机端的gemini nano 和bard 搭载的gemini pro则没有展露出可以与gpt-4对标的水平(gemini pro对标gpt-3.5,nano则版本更低)。这也侧面证明此次gemini的核心竞争毋庸置疑落于多模态能力之上。同时也让大众对谷歌各个版本上线的时间十分关心。
谷歌表示,从12月7日开始,bard 将使用 gemini pro 的微调版本来进行更高级的推理、规划和理解等。未来几个月,gemini 将应用于谷歌更多的产品和服务,如 search、ads、chrome 和 duet ai。此外,从 12 月 13 日开始,开发者和企业客户可以通过 google ai studio 或 google cloud vertex ai 中的 gemini api 获取 gemini pro。至于 gemini ultra 版本,谷歌在表示, 在明年初才会向开发者和企业客户提供gemini ultra,也将推出性能更强大的 bard advanced 版本。
此次反击 openai ,谷歌并非一蹴而就,而是抓住发力点,在更早的 palm 等大模型中就初露端倪 。
本次发布的 gemini 亮眼的地方在于,其 pro 版本击败了其他一些模型,例如 openai 的 gpt-3.5,但更强大的 ultra 超过了所有现有 ai 模型的能力,它在行业标准 mmlu 基准上得分为 90% 。在“expert level”测试中, ultra 预计能达到 89.8%,gpt-4 的得分为 87%,llama-2 的得分为 68%,anthropic 的 claude 2的得分为78.5%,而 gemini 在其他九项通用基准测试中有八项都击败了所有这些模型。
反观 gpt-4 ,此前就有论文称其性能下降,在解决数学问题、回答敏感问题、代码生成、视觉推理上均有薄弱之处。
比如在代码生成这一层面,gpt-4 的代码生成表现欠佳。在今年 6 月份的测试中,gpt-4在代码片段前后添加了额外的「引号」,导致代码无法执行。
在回答敏感问题方面,gpt-4 更倾向回答更少的问题,使得答案变得更加简洁,并且在拒绝回答查询时提供的解释也更少,可见 gpt-4 虽然更安全但缺乏理由。
而谷歌 gemini 在复杂问题上的推理能力是其核心优势之一,在一定程度上会带给使用者较 openai gpt-4 更优质的体验。尤其是在面对复杂的书面和视觉信息时,gemini 对内容的细节理解力更突出。
其实,谷歌此类的推理能力在 palm 模型中即有所体现。palm 在几个 big-bench 任务中展示了令人印象深刻的自然语言理解和生成能力。例如,该模型可以区分因果关系,理解适当上下文中的概念组合,甚至可以从表情符号中猜测电影。
通过将模型规模与思维链提示相结合,palm 在需要多步算术或常识推理的推理任务上显示出突破性的能力。palm 甚至可以为需要多步逻辑推理、世界知识和深度语言理解的复杂组合的场景生成明确的解释。
此外,palm 540b 在单个模型中的编码任务和自然语言任务中表现出强大的性能,即使它在预训练数据集中只有 5% 的代码。它的few-shot 性能特别显著,因为它与经过微调的codex 12b 相当,同时使用比python 少了50 倍的代码进行训练。
而放眼至整个行业,无论是谷歌的 palm 、 gemini 抑或是 openai 的 gpt-4 ,其实如今火热的大模型之争本质是在于信息流之争。
对于谷歌而言,chatgpt 对谷歌的最大的威胁也是在于信息流。
不过此次谷歌的反击,也给 openai 此前不断蚕食的信息流领域了一记当头之棒。具备多模态能力的不同尺寸和功能的 gemini 版本,后续会部署在谷歌不同的产品、应用和设备上。
更为重要的是谷歌已经允许一小部分公司使用 gemini 软件的早期版本,意味着谷歌即将将其纳入消费者服务,并通过公司的云计算服务出售给企业。
落于具体的商业模式和策略,谷歌的反击应了那句经典的“以子之矛攻子之盾”。
谷歌有天生的应用场景和十分庞大的用户基数大,但正因为体量十分大,具有大公司病。
此前,tony fadell(nest 创始人并已被谷歌收购),就曾在在访谈中提到了谷歌所面临的大企业问题。他用“恋爱和婚姻是两码事”来比喻,指出谷歌的运营方式正在阻碍创新。
具体来说,就是谷歌有着收入十分可观的广告业务,导致公司更多地从财务角度衡量创新(例如,谁会积极推动可能会侵蚀搜索业务利润的创新项目?)而不是出于生存与发展的迫切需要。
这也被认为是 openai 今年一直迭代,谷歌迟迟没有跟上节奏的一重大原因。但是仔细来看,任何一家公司到达谷歌的体量,都会面临这样的问题。
openai 是一家新锐公司,所以他能无负担地高歌猛进。但是我们无法忽视的是,他依托微软而生,在组织架构和商业模式上也仍处于成长期。所以才会出现此前出现的多次反转宫斗。
openai和谷歌之间的争斗,似乎并不止于这两家公司,而是可以定义成一个更普遍的问题:创业公司和大企业之间谁死谁生?
在微软将 openai 的模型整合到 bing 搜索引擎之后,公司首席执行官萨蒂亚·纳德拉(satya nadella)在接受 the verge 采访时表达了自己的看法。他认为人工智能技术的应用有望助力微软挑战谷歌在网络搜索领域的主导地位,并且预计这一举动将会引起谷歌的回应和应对策略。
萨蒂亚用了“要让谷歌跳舞”这一隐喻来说明自己的决心,今年gpt多次迭代,杀得谷歌措手不及。
但对于openai 的“快功”,谷歌 ceo sundar pichai则用了板球比赛中的“让球棒说话”来回答。
具体而言,谷歌作为一家大企业想做的或许也是在利用大企业的优势,借助强大的资本支撑和资源,走得慢一点,具体的实例可以从谷歌今年让deepmind 和 google brain这两个相互竞争的实体合并中看出端倪。
对于ai,sundar picha的策略是在将技术应用于产品之前,需要让技术更加成熟一些。让用户带着巨大的信任来找谷歌。
毕竟ai之战是一场长跑,如今虽然大模型已经掀起了千层浪潮,但是产品迟迟没有落地,对于用户的真正价值还没有具象到具体的日常生活中。
而对于整个行业而言,可以肯定的是多模态大模型时代已经来临,而openai与谷歌这两家企业的白热化之争,让我们对2023年底最强大模型王座充满了期待。
openai vs 谷歌,这场大模型之战还将在哪里爆发?欢迎添加作者微信(lionceau2046)或 (s1060788086)交流,互通有无。
雷峰网 雷峰网 雷峰网(公众号:雷峰网)
雷峰网 雷峰网 雷峰网