CMU研究：Google的双子座落后于Chatgpt的整体表现

CMU研究：Google的双子座缺少Chatgpt，向Google提前发出信号

** Google Gemini vs. Chatgpt：大语模型之战**

Google最近发行的双子座发行引起了人们的重大关注，这是第一个大型语言模型（LLM），据说与Openai的Chatgpt竞争了各种任务。报告表明，Gemini的“ Ultra”版本在各种任务上的表现优于GPT-4，而其“ Pro”版本与GPT-3.5相当。为了阐明这些著名语言模型之间正在进行的竞争，卡内基·梅隆大学（CMU）进行的一项新研究探讨了Google Gemini的语言理解和发电能力，并将其与OpenAI的GPT系列进行了比较。该研究揭示了有趣的发现，突出了Google Gemini和Chatgpt之间的性能差距。

**关键发现：**

*** Gemini Pro匹配GPT-3.5 Turbo：**在模型大小和类别方面，CMU的研究位置将Gemini Pro与GPT 3.5 Turbo相当。尽管Gemini Pro的准确性通常与GPT 3.5 Turbo的准确性相匹配，但它略短，落后于GPT 4的差距很大。值得注意的是，Gemini Pro的平均性能略有低于GPT 3.5 Turbo，尤其是在诸如在多项选择问题上订购偏见，多位数数学推理，代理任务的过早终止以及由于积极的内容过滤导致的答案失败等领域。但是，双子座在生成非英语语言和处理更长，更复杂的推理链中，尤其是在冗长而复杂的推理任务方面具有优势。此外，在没有答案过滤的情况下，双子座在利用各种语言方面表现出色。

***关键的大型语言模型能力：**研究研究了大型语言模型的几种至关重要的功能，揭示了以下具体发现：
***知识图问题回答：**比较模型的提问能力，Gemini Pro在大多数任务中表现不佳，如提供的图中所示。研究小组进一步分析了Gemini Pro落后/超过GPT 3.5的任务，得出结论，Gemini Pro滞后在“人_SEXAILITY”（社会科学），“正式_logic”（人文学科），“ ementimary_mathematics”（STEM）和“ Profession_Medicine”（STEM）和（专业领域）。同时，在Gemini Pro优于GPT 3.5 Turbo的这两个任务中，优势是边缘。

***推理能力：** Gemini Pro在推理任务方面的总体准确性稍微落后于3.5涡轮增压，并且远低于GPT 4 Turbo。但是，Gemini Pro在更长，更复杂的问题上挣扎，而GPT模型在处理此类挑战方面表现出更大的鲁棒性。该研究还确定了GPT 3.5 Turbo的性能显着超过双子座Pro的任务。

***数学能力：**从总体数学推理结果中可以明显看出，Gemini Pro在涉及多语言提示的GSM8K，SVAMP和ASDIV任务上的准确性略低于GPT 3.5 Turbo，并且明显低于GPT 4 Turbo。在MAWPS任务中，所有模型的精度超过90％，但Gemini Pro仍然略高于GPT模型。

***代码生成能力：**在代码生成方面，Gemini Pro在处理英语任务中更长的输入和输出方面展示了强度。分析表明，在大多数情况下，Gemini Pro在涉及“模拟”，“ Pandas”，“ Numpy”和“ DateTime”等库中的GPT 3.5表现不佳。但是，在涉及“ matplotlib”的任务中，它的表现均优于GPT 3.5和GPT 4，这表明Gemini通过代码执行执行数据可视化的功能增强了功能。

***机器翻译能力：** Gemini Pro在翻译能力方面以八种语言优于GPT 3.5 Turbo和GPT 4 Turbo。相比之下，Gemini Pro在针对GPT 3.5 Turbo和GPT 4 Turbo测试中的20种语言中表现出卓越的表现，在四种语言中取得了最佳效果。但是，Gemini Pro在大约10个语言对中表现出强烈的响应趋势。

CMU研究提供了对Google Gemini能力的宝贵见解，与Openai的Chatgpt相比，它突出了该领域不足的领域。尽管Gemini Pro在某些任务中表现出熟练程度，但它在匹配ChatGpt的整体表现方面面临挑战。这些发现强调了在大型语言模型领域进行持续改进和进一步研究的必要性，因为追求开发更有能力和多功能的AI系统的追求仍在继续。

See also 发现W.A.L.T：一种革命模型，生成图像或文本的视频

CMU研究：Google的双子座落后于Chatgpt的整体表现

Related posts: