【A15】基于RAG和大模型的算术与数学问题解答【万维艾斯】
发布时间: 2024-12-12 17:22:54

1.命题方向

智能计算

2.题目类别

计算类

3.题目名称

基于RAG和大模型的算术与数学问题解答

4.背景说明

【整体背景】

近年来,人工智能和机器学习,尤其是自然语言处理(NLP)和知识获取领域,取得了显著进展。大模型在理解和生成自然语言方面的能力大幅提升。这些模型通过大量数据训练,能够捕捉语言的复杂性和语境差异。检索增强生成(RAG)方法的出现,进一步提升了模型在特定任务上的表现。RAG结合了信息检索和生成模型的优点,使系统不仅能生成文本,还能从外部知识库获取相关信息,从而提高回答的准确性。这种方法特别适用于需要高精度和专业知识的领域,如算术与数学问题的解答。RAG与大模型的结合为解决算术与数学问题提供了创新方案。通过检索相关知识和解题步骤,模型能够生成更系统、准确的答案。这种方法不仅提高了解题效率,还为教育和科研提供了重要支持,推动了智能教育工具的发展。随着研究深入,RAG和大模型在智能系统中的应用将更加重要。

【公司背景】

江苏万维艾斯网络智能产业创新中心有限公司由江苏省高等学校优秀科技创新团队(南京大学人工智能推理与学习团队)投资的人工智能产品研发和产业化平台。公司是国内首批以人工智能技术创新为核心价值的高新技术企业,旨在提高人工智能产业的自主创新能力,努力打造一个集国际技术转移、技术研发、国际合作、科技创业、咨询培训功能于一体的创新创业平台。

【业务背景】

基于RAG和大模型的算术与数学问题解答是江苏万维艾斯网络智能产业创新中心有限公司的重要业务方向。当前,面临一个任务,即梳理与算术与数学相关的数据,构建知识库,并通过大模型技术实现基于该知识库的算术与数学问题解答。该系统旨在为用户提供高效、准确的数学解答,帮助他们解决各种算术与数学问题,提升学习和工作效率。

5.项目说明

【问题说明】

参赛选手需解决代数计算方向的数学问题,通过网络、教材和其他资源整理和收集相关的算术与数学知识数据,包括但不限于基础运算、公式推导、常见定理、解题技巧等信息,构建一个全面的知识库。随后,利用大模型微调的技术,开发一个智能问答系统,能够高效解答用户提出的数学问题。对于大模型的选择,参赛选手可以选择一些开源模型,例如Qwen2-Math、GPT-3或LLaMA等,以确保系统具备良好的自然语言理解和生成能力。通过这种方式,参赛选手能够创建一个精准且实用的数学解答工具,帮助用户轻松解决各种数学问题。

【用户期望】

基于算术与数学问题的数据,构建一个知识库并进行大模型的微调,实现基于大模型的数学问题解答系统。通过该系统,用户可以输入以下类型的问题,示例如下:

基本回答:介绍勾股定理

解方程: 5(x + 2) = 30

解不等式: 3x + 1 > 10

简化: (3x^2 + x) + (2x^2 - 4x + 1)

解二次方程: x^2 + 4x + 3 = 0

解方程组:

x + 2y = 8

3x - y = 5

解高次方程: x^4 - 5x^2 + 4 = 0

解分式方程:(3/x) - (2/(x + 2)) = 1

6.任务要求

【开发说明】

收集与算术与数学问题相关的数据,进行知识库的构建(方法不限),并基于该知识库进行大模型的微调,最终实现一个基于该知识库的数学问题解答系统。通过整合数学公式、解题技巧和常见问题的解答,构建出丰富的语料库,以支持用户在各种数学计算和推理任务中的需求。该系统将能够高效响应用户提出的数学问题,提供准确的解答和详细的解题步骤。

【技术要求与指标】

1)方案内容详尽,具备良好的可行性和前沿技术应用;

2)模型支持至少两轮的问答交互,能够持续跟进用户的问题;

3)具备大模型的基本问答能力以及基于知识库的深入问答能力。评估方法将基于用户提供的知识范围,设计相应问题,并对模型的回答进行综合评估;

4)系统具有友好的交互界面,用户可通过浏览器访问,确保页面加载和问答响应时间不超过10秒;

5) 知识库的数据量不少于2000条,确保能够覆盖广泛的算术与数学问题类型。

【提交材料】

1)项目概要介绍;

2)项目简介 PPT;

3)项目详细方案;

4)项目演示视频;

5)企业要求提交的材料:

①知识库数据;

6)团队自愿提交的其他补充材料。

【任务清单】

1)完成算法设计与实验;

2)完成提交材料内容。

【开发工具与数据接口】

1)开发工具:自选。

2)数据接口:

接口名称:chat_completions

该接口用于与聊天模型进行交互,生成基于用户输入的自然语言响应。用户可以提交消息并指定使用的模型,接口将返回模型生成的回答。此接口广泛应用于聊天机器人、内容生成、问答系统等场景,是实现自然语言处理的核心功能。

字段

描述

请求方式

POST

URL

https://api.example.com/v1/chat/completions

请求头

Authorization: Bearer Token,用于身份验证

Content-Type: application/json

请求参数

JSON 格式,包含以下字段:

字段: model

类型: String

必填: 是

描述: 要使用的模型(如 " Qwen/Qwen2.5-Math-7B-Instruct")

 

字段: messages

类型: Array

必填: 是

描述: 消息列表,包含用户和助手的对话历史

 

字段: max_tokens

类型: Integer

必填: 否

描述: 生成的最大 token 数

 

字段: temperature

类型: Float

必填: 否

描述: 控制输出的随机性(0-2)

响应格式

JSON 格式,包含以下字段:

字段: id

类型: String

描述: 响应 ID

 

字段: object

类型: String

描述: 对象类型

 

字段: created

类型: Integer

描述: 创建时间戳

 

字段: model

类型: String

描述: 模型名字(如 " Qwen/Qwen2.5-Math-7B-Instruct")

 

字段: choices

类型: Array

描述: 生成的文本选项列表

 

字段: usage

类型: Object

描述: 使用的 token 信息

错误处理

自定

访问权限

该接口需要有效的 API 密钥,未提供密钥的请求将被拒绝。

备注

确保按照 API 文档的要求构造请求体,避免格式错误。请求中应包含有效的模型名称和消息内容。

 

接口名称:related_questions

该接口用于获取与用户提供的问题相关的问题列表。用户可以提交一个问题,接口将返回一系列与该问题主题相关的其他问题。这对于用户进行深入研究或获取更多信息非常有帮助。

字段

描述

请求方式

POST

URL

https://api.example.com/v1/related_questions

请求头

Authorization: Bearer Token,用于身份验证

Content-Type: application/json

请求参数

JSON 格式,包含以下字段:

字段: question

类型: String

必填: 是

描述: 用户输入的问题

响应格式

JSON 格式,包含以下字段:

字段: related_questions

类型: Array

描述: 与输入问题相关的问题列表

 

字段: status

类型: String

描述: 请求处理状态

 

字段: message

类型: String

描述: 状态信息,通常在出错时提供详细信息

错误处理

自定

访问权限

该接口需要用户登录,未登录用户将无法访问。

备注

确保传入的问题具有足够的上下文,以便系统能够返回相关的问题。

 

接口名称:reference_files

该接口用于检索与特定问题相关的参考文件。用户通过提供一个问题 ID,可以获取与该问题相关的文档、文件或其他资源。这对于用户查阅额外信息或支持材料非常有用。

字段

描述

请求方式

GET

URL

https://api.example.com/v1/reference_files

请求头

Authorization: Bearer Token,用于身份验证

请求参数

查询参数:

字段: question_id

类型: String

必填: 是

描述: 查询相关的问题ID

 

示例请求

GET /reference_files?question_id=123

响应格式

JSON 格式,包含以下字段:

字段: reference_files

类型: Array

描述: 与指定问题相关的参考文件列表

 

字段: status

类型: String

描述: 请求处理状态

 

字段: message

类型: String

描述: 状态信息,通常在出错时提供详细信息

 

错误处理

自定

访问权限

该接口需要用户登录,未登录用户将无法访问。

备注

确保提供有效的 question_id,以便系统能够返回相关的参考文件。

 

7.其他

8.参考信息

https://huggingface.co/spaces/Qwen/Qwen2.5-Math-Demo

https://kimi.moonshot.cn/

https://github.com/langgenius/dify

9.评分要点

赛题评分要点见附件一:A 类企业命题初赛统一评分标准。

 

订阅号