AI 实践
看起来都有一定的思路,跟普通开发没有区别,只是在原逻辑链路里加入AI大模型来输入输出,并没有什么特殊的。问题在于如何落地去实现似乎方法很多,但是不知道怎么选择。
比如如何封装、发布、对外到历史项目中应该如何使用
AI-Code Review
集成到 CI/CD 中推送代码自动触发
1、阶段:
- 静态代码检测(✅)
- 动态代码检测(?)
- 需求逻辑检测(未实现)
2、提示词思路 人员能力:利用大模型 + 编程经验补充(审稿);
大模型应用(提示词)测评思路:
1、大模型应用评测
2、评价方式
对评测对象的表现进行评价时,你可以选择由模型打分或人工打分。
评测方式 | 说明 |
---|---|
模型打分 | 裁判模型是专用于评估智能体输出质量的辅助模型,该模型在评测中充当裁判员的角色,对评测对象输出的生成结果进行质量评估,并根据评测规则对每一条回复进行打分。裁判模型也可以评测主观问题和开放性问题,只需要用户 Query 和模型回复,即可自动对评测对象的表现进行质量评估与评价,无需人工标注,流程高度自动化,可大幅提高评测效率。注意:选择模型打分时,需要指定明确、详细、清晰的评分标准。 |
人工打分 | 不设置裁判模型和评测规则,评测完毕后直接输出智能体回复列表,由人类评审员来打分、统计分数和评测结果。人工打分是基于人类偏好的评测方式,评测结果更接近预期,但可能耗费较多的人力资源和时间成本。 |
3、基于dify的应用评测平台