软牛PDF算法及模型备案公示说明

为依法保障用户对软牛PDF模型及算法服务的基本原理、目的意图和主要运行机制等的知情权,告知用户软牛PDF提供的模型及算法服务的备案情况,我们制定本《“软牛PDF”算法及模型备案公示说明》,帮助用户了解在使用产品和服务的过程中我们如何通过模型及算法技术向用户提供信息和服务,充分保障用户的合法权益。

一、大模型

1. 模型名称:求索对话DeepSeek Chat

1.1 模型备案编号:Beijing-DeepseekChat-202404280016

1.2 模型应用场景:求索对话DeepSeek Chat主要应用于软牛PDF产品基于上下文和用户的问题生成回答以及基于原文内容的引用标签,提供后续问题建议。

2.模型名称:通义千问大模型

2.1模型备案编号:ZheJiang-TongYiQianWen-20230901

2.2模型应用场景:通义千问大模型主要应用于软牛PDF产品基于上下文和用户的问题生成回答以及基于原文内容的引用标签,提供后续问题建议。

二、算法

1. 算法名称:DeepSeek 大语言模型算法

1.1 算法基本原理

DeepSeek 大语言模型系以 Transformer 架构为基础,自主研发的深度神经网络模型。模型基于注意力机制,通过海量语料数据进行预训练,并经过监督微调、人类反馈的强化学习等进行对齐,构建形成深度神经网络,并增加审核、过滤等安全机制,使算法模型部署后能够根据人类的指令或者提示,实现语义分析、计算推理、问答对话、篇章生成、代码编写等任务。

1.2 算法运行机制

运行机制为用户输入文本格式的自然语言数据,产品经过预处理和违法不良信息审核后,由算法模型根据语言的统计规律、知识和对齐要求进行推理和计算,通过预测下一个最佳词语来实现文本生成,最后产品将经过审核的生成内容输出返回给用户,以响应用户的指令。

1.3 算法应用场景:直接向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景。

1.4 算法目的意图:DeepSeek 大语言模型旨在通过智能问答、代码生成等应用场景为用户提供创作、工作和提效的工具。高效便捷地帮助人们获取信息、知识和灵感。

1.5 算法备案编号:网信算备110108970550101240011号

2.算法名称:达摩院交互式多能型合成算法

2.1算法基本原理:该算法是一个专门响应人类指令的交互式多能型AI技术。其基于生成式大模型技术、自然语言处理技术,通过海量文本的深度学习大模型预训练,陆续会实现撰写邮件、列举提纲、灵感写作、方案和建议回复等算法能力。通过大模型的语义理解能力,模型无需复杂的输入处理模块,即有能力理解用户的不同需求,产出写诗、讲故事、编剧本、机器翻译、表格生成、代码写作等不同格式的恰当回复,并可进一步延伸到多模态任务场景,完成图像处理&生成、语音处理&合成、办公文档处理等任务需求。

2.2算法运行机制:用户给定一段文本、一段代码、一张图片、一段音频、一段视频、或一个办公文档文件,作为自己输入;输入数据经过安全过滤判断是否通过安全筛选,若不通过则不进行数据生成,直接返回兜底安全结果;将各种模态输入内容,输入到预训练模型中,根据用户输入内容指令,生成对应模态的输出数据(可能为文本、代码、图片、音频模态);输出数据经过安全过滤判断是否通过安全筛选,通过则返回结果;将生成的文本、代码、图片或音频输出,并根据需要进行后处理。生成的图像可能需要进行一些修剪、缩放或调整分辨率等操作,以得到该轮交互最终的输出结果;继续进行下一轮交互,回到第1步。

2.3算法应用场景:智能文本创作、机器翻译、表格生成、图像合成、语音合成、办公文档处理等使用场景

2.4算法目的意图:可以通过文本指令调用预训练模型,产出写诗、讲故事、编剧本、机器翻译、表格生成、代码写作等不同格式的恰当回复,满足用户相关创作、办公、知识获取等需求;进一步可以通过文本指令,调用预训练模型,完成图像生成和语音合成,帮助用户解决多模态任务场景需求;同时,算法支持输入代码、图像、语音和办公文档,输出文本,从而支持代码辅助、看图说话、视觉问答、语音转文字、办公文档信息处理等目的。

2.5算法备案编号:网信算备 330110507206401230035号