政务大模型标准-有效评估政务大模型的能力,促进智慧政务发展,提升政府服务能力

 来源:中国信息通信研究院     编辑:管理员      时间:2023/9/16
 

政务大模型标准可有效评估政务大模型的能力,促进智慧政务发 展,提升政府服务能力。大模型的出现为智慧政务注入了新一轮的发展动能,其更强大的理解与推理能力、更自然的交互与协作能力、更 精准的识别与预测能力等,都将进一步拓宽智慧政务的服务面,持续提升政务服务的效能与温度。政务大模型核心能力对于提高行政效率、 加强治理能力、优化资源配置、完善监督机制、促进经济发展等方面均具有广泛且深远的意义。

然而,政务大模型仍存在多方面的挑战: 一是需要确保模型输出合法合规合理;二是政务大模型应用应避免偏见与不公。为了更好推动政务大模型高质量发展,有必要探索政务大模型标准和评测指标的构建。政务大模型标准适用于指导第三方测评 机构对政务大模型能力的评估、验收等工作。

政务大模型能力评估标准可以围绕能力指标、应用场景两个部分开展。能力指标可涉及技术能力、保障能力和应用成效,具体可包括 生成能力、交互能力、推理能力、加密能力等,具体评测能力项可包括政务咨询准确率、响应率、公共服务优化性、政务数据分析效果、 互动满意度等。应用场景,可涉及通用和专用两大类场景,可包含问 询、检索、纳管、党建、监督、行政等场景丰富度,具体评测能力项可包括是否覆盖政策文件生成、政策文件的理解与解读等能力。标准 可围绕上述指标体系构建体系化评估方法,包含每个评估项的设置目的、评估方法、分级标准等


 信息推荐
» 文旅大模型标准-有效评估文旅大模型的能力,助力文旅行业发展,提升游客体验
在景区导游应用中,可利用文旅大模型对景区的历史、人文进行全方位的介绍;在文化推广应用中,通过对各类文化元素的分析解读;进一步提升游客体验
» 金融大模型标准-有效评估金融大模型的能力,促进金融行业智能化转型
金融大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展;具体能力项可分为数据加密性、模型的攻击防范性及输出准确性、服务的可扩展性
» Meta Llama2有望成大模型领域“安卓”,推动应用爆发
免费开源的Llama2降低了开发者门槛,成为大模型领域的安卓系统,推动应用的爆发;有利于移动端AI应用的普及,兼顾隐私与智能助理
» 首批国产大模型获批面向用户开放,含商汤,百度,智谱AI
商量SenseChat拥有1230亿参数;智谱AI已具备通用问答、多轮对话、创意写作、代码生成以及虚拟对话等能力;文心一言让用户体验生成式AI的四大核心能力
» 通义大模型-开源社区:魔搭
魔搭”社区首批上架超 300 个模型,其中中文模型超过 100 个,覆盖了视觉、语音、 自然语言处理、多模态等 AI 主要领域
» Alicemind语言大模型表现优异
的阿里通义-AliceMind大模型在4项任务中的表现超过人类水平,同时实现了总 榜平均分的首次超越,意味着AI模型的中文语言理解水平达到了新的高度
» 通义-Alicemind语言大模型体系
覆盖全面:覆盖多语言、多模态、 结构化等多个预训练语言模型;将围绕 Pre-training+Finetuning(“预训练 + 精调”)语言模型 持续进行生态性的技术开源
» 阿里通义大模型主要包括M6/AliceMind/视觉
通用模型层:NLP模型“通义–AliceMind”;CV模型“通义-视觉”;多模态模型“通义 - M6;行业模型层:深入电商、医疗、 娱乐、设计、金融、工业、制造业等行业
» 阿里通义大模型:既通用多种任务,又容易落地应用
通义大模型不仅在NLP等单模态场景实现SOTA,在部分多 模态任务场景也实现了引领与突破,例如VQA challenge的准确率首超 人类表现
 
返回首页
AI大模型
AI自动驾驶
chatgpt智能
生成式AI应用
智能机器人行业
行业动态
行业资料
最新资讯
» AI时代来袭:中小企业如何抓住千载难逢的发展机遇
» 人工智能时代的制造业进展与期望-人工智能和高级分析可以助力做出更好的决策
» 从规则走向实践,2023 AI浪潮下的秘密武器:大模型治理的兴起与挑战
» 十大趋势重塑未来企业!超越想象的数字变革_2024年重要战略技术趋势
» 未来驾驶革命:2023中国智驾大模型应用研究报告
» IDC蚂蚁集团:2023安全平行切面白皮书-数字时代的原生安全架构(60页).pdf 报告预览 IDC&蚂蚁集团:2023安全平行切面白皮书
» 北京关于印发因地制宜开展以工代赈工作促进农民群众就业增收实施意见的通知
» OpenAI前CEO阿尔特曼被开除
 

人工智能协会