来源:财通证券 编辑:管理员 时间:2023/10/9 |
过去,模型的表现被认为与模型 的规模之间服从 Power Law,即随着模型规模指数级上升,模型性能只能线性增长;但 Google 的研究者在 2022 年发现,当模型规模达到某个阈值时,模型对某些复杂问题的处理性能突然呈现快速增长,这种现象则被称为 Emergent Abilities,即涌现能力。例如,研究者发现当大语言模型规模达到一定程度时, 思维链提示(Chain of Thought prompting,CoT)可以显著提升大语言模型的性能,尤其适用于处理涉及数学或推理的复杂任务: 1、Zero-shot-CoT:在 prompt 提问的结尾只需附加“Let"s think step by step”这几 个词; 2、Few-shot-CoT:在 prompt 中给与一些关键推理步骤的示例,让模型学习相应的推理过程; 我们认为,CoT 的意义在于模型可能已经学到了底层的推理过程而非统计意义 上记住了输入-输出的概率分布,这是模型拥有“智能”的一个重要体现,也显著 打开了大语言模型未来应用的可为空间。
思维链提示可以显著提升大语言模型的性能
|
信息推荐 |
» 预训练语言模型成为NLP主流,用一个高维向量来表示一个token的全部特征 |
运用大语言模型做“预训练+提示”的范式,逐步取代了 BERT 时代“预训 练+下游任务改造”的范式,成为了 NLP 业内新的主流 |
» 传媒大模型标准-有效评估传媒大模型的能力,促进传媒行业智能化转型 |
传媒大模型目前生成的内容存在不确定性;其次,传媒大模型的生产作品 能涉及侵犯他人的著作权或其他相关权益的风险;探索传媒大模型标准和评测指标的构建 |
» 政务大模型标准-有效评估政务大模型的能力,促进智慧政务发展,提升政府服务能力 |
政务大模型仍存在多方面的挑战: 一是需要确保模型输出合法合规合理;二是政务大模型应用应避免偏见与不公;有必要探索政务大模型标准和评测指标的构建 |
» 文旅大模型标准-有效评估文旅大模型的能力,助力文旅行业发展,提升游客体验 |
在景区导游应用中,可利用文旅大模型对景区的历史、人文进行全方位的介绍;在文化推广应用中,通过对各类文化元素的分析解读;进一步提升游客体验 |
» 金融大模型标准-有效评估金融大模型的能力,促进金融行业智能化转型 |
金融大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展;具体能力项可分为数据加密性、模型的攻击防范性及输出准确性、服务的可扩展性 |
» Meta Llama2有望成大模型领域“安卓”,推动应用爆发 |
免费开源的Llama2降低了开发者门槛,成为大模型领域的安卓系统,推动应用的爆发;有利于移动端AI应用的普及,兼顾隐私与智能助理 |
» 首批国产大模型获批面向用户开放,含商汤,百度,智谱AI |
商量SenseChat拥有1230亿参数;智谱AI已具备通用问答、多轮对话、创意写作、代码生成以及虚拟对话等能力;文心一言让用户体验生成式AI的四大核心能力 |
» 通义大模型-开源社区:魔搭 |
魔搭”社区首批上架超 300 个模型,其中中文模型超过 100 个,覆盖了视觉、语音、 自然语言处理、多模态等 AI 主要领域 |
» Alicemind语言大模型表现优异 |
的阿里通义-AliceMind大模型在4项任务中的表现超过人类水平,同时实现了总 榜平均分的首次超越,意味着AI模型的中文语言理解水平达到了新的高度 |
» 通义-Alicemind语言大模型体系 |
覆盖全面:覆盖多语言、多模态、 结构化等多个预训练语言模型;将围绕 Pre-training+Finetuning(“预训练 + 精调”)语言模型 持续进行生态性的技术开源 |
» 阿里通义大模型主要包括M6/AliceMind/视觉 |
通用模型层:NLP模型“通义–AliceMind”;CV模型“通义-视觉”;多模态模型“通义 - M6;行业模型层:深入电商、医疗、 娱乐、设计、金融、工业、制造业等行业 |
» 阿里通义大模型:既通用多种任务,又容易落地应用 |
通义大模型不仅在NLP等单模态场景实现SOTA,在部分多 模态任务场景也实现了引领与突破,例如VQA challenge的准确率首超 人类表现 |