国际税收杂志投稿须知
1.题目:中文简明确切地反映文章的内容,不超过20字,超过20字的建议用副题,用宋体小三号字。英文根据中文题目翻译而来,各实词的首字母大写,用Times New Roman小三号字。
2.作者署名:姓名、单位和邮编,可以署多个作者,其中同一作者有多个单位的,选其一,用宋体小四号字。
3.内容提要:中文用简单、明确、易懂、精辟的语言对全文内容加以概括,提取论文的主要信息。字数一般以200字左右为宜,用宋体小四号字,1.25倍行距。英文根据中文提要翻译而来,翻译时注意“信、达、雅”,用Times New Roman小四号字,1.25倍行距。
4.关键词:中文关键词是反映文章主题概念的专有名词或词组,3~5个为宜,尽可能用经济词表上的规范词,用宋体小四号字,1.25倍行距。英文根据中文关键词翻译而来,各词首字母大写,用Times New Roman小四号字,1.25倍行距。
5.正文:用宋体小四号字,1.25倍行距。
6.基金项目:要在篇首页题注处用*表示,注明基金项目标准名称,并在括号内注明其项目编号。
7.图和表:图和表应设计合理,按在文中出现的先后顺序分别给出图(表)序和图(表)题,图(表)题应该简明、贴切,具有准确的说明性和特指性,用宋体五号字。
8.脚注:正文中出现的数据等均需以脚注形式注明出处,脚注符号应符合规范,每篇文章使用1、2、3序号形式连续编号,用宋体小五号字。
9.参考文献:所有参考文献必须出现在文章的尾部,并按文中出现的先后顺序列示。
10.凡投寄该刊的稿件请勿一稿多投,若3个月内未接到用稿通知的,可自行处理。
进入期刊首页作者:刘哲泽;郑楠;张宁
作者单位:中国科学院自动化研究所;南开大学;中国科学院大学;公安部鉴定中心
关键词:大语言模型;检索增强生成;文本生成;上下文学习
摘要: 为了促进各行业的规范化发展,各领域都需要制定相应的标准化文件,例如国家标准、行业 标准。这些标准化文件不仅为行业提供了统一的操作规范,还为相关方提供了明确的指导依据。 中共中央、国务院在《国家标准化发展纲要》中明确指出,推进标准的数字化进程是实现行业现代化 的重要举措。因此,开展标准化文件的自动化生成研究显得尤为重要。随着人工智能技术的迅速 发展,尤其是大语言模型在文本生成任务中的突出表现,利用这些先进技术来实现标准化文件的自 动化生成成为可能。基于此背景,提出了一种两阶段生成标准化文件的方案。该方案首先通过大 模型生成标准化文件的大纲,然后在此基础上扩展生成完整的文档内容。通过结合上下文学习和 检索增强生成等技术,该方法不仅能够生成高质量的文本,还显著提升了生成内容的准确性和专业 性。为验证该方案的可行性,我们在自建的数据集上进行了系列实验,结果表明,该方法能够有效 地生成符合行业标准的文档,具有良好的实用性和推广潜力。
0 引言
目前,标准化文件的编写主要依赖人工完成,由于标准化文件涉及特定格式及领域知识,编写过程通常耗费 大量时间。随着数字化浪潮席卷各行各业,标准化文件的数字化进程也应受到积极推动。《国家标准化发展纲 要》明确指出,要推进标准数字化进程[1]。因此,迫切需要自动化方法来辅助标准化文件的编写,以适应时代发展 的需要并降低编写成本。
从零开始生成完整的标准化文件被认为是一项复杂的任务,面临着风格一致性和幻觉问题等挑战。在法庭 科学领域,标准化文件具有较高的专业化水平,要求用词严谨,因此需要解决生成文本与标准化文件风格一致的 问题,这也是本文关注的要点。
近年来,人工智能技术高速发展,相关技术也被应用到众多下游任务中。生成完整文档需要借助文本生成领 域的相关研究。文本生成旨在生成清晰可读的人类文本,即在给定一段文字作为输入的情况下,模型返回另一段 文字作为输出。文本生成相关研究包括基于模板的模型、统计语言模型、神经网络模型和预训练模型等。基于模 板的模型依赖于预定义的模板或词汇,适合处理高度格式化的文本生成工作,Mi等[2]对此进行了相关研究,但此 类模型的输出往往缺乏多样性和可变性。统计语言模型通过统计语料库中单词的词频进行建模,主要包括 Ngram 模型和 PCFG 模型等,但该方法受到数据稀疏性的困扰。神经网络模型利用神经网络对语言进行建模,代 表性工作有 LSTM,已被应用到多个领域[3]。然而,该方法在获取大规模标注数据时面临挑战,且计算复杂度 高,难以进行并行计算,尽管已有优化算法被提出[4]。预训练模型使用参数量巨大的模型进行文本生成,且可以 在大规模未标注数据集上进行无监督训练,Transformer [5]是该领域的代表性框架,在此框架下诞生了 BERT [6]、 GPT 等预训练模型。特别是,使用预训练模型生成有组织的文章被认为是一项颇具前景的研究领域,目前已有 一些相关研究工作[7 9]。
在神经网络模型的研究过程中,每个下游任务通常需要单独训练一个新的模型,这在涉及较大模型时,成本 往往高昂。预训练模型(Pre-Trained Models, PTMs),即大语言模型(Large Language Models, LLMs),在应用 于下游任务时,通常采用预训练—微调(Pre-train and Finetuning)的形式[6]。首先,LLMs在大量未标注文本数 据中进行无监督训练,以获得 PTMs;然后,再利用针对特定任务的少量标注数据集进行微调,最终应用于下游任 务。这种预训练—微调的模式显著降低了训练成本,并减少了标注数据集收集的开销。同时,各种高效的参数微 调[10 11]方法的出现,进一步降低了微调过程中的训练成本和模型存储需求。
然而,大语言模型在生成过程中仍然存在幻觉问题,即可能生成与事实不符的信息。为此,学术界和工业界 提出了多种技术方法来缓解这一问题,例如检索增强生成(Retrieval Augmented Generation, RAG)。同时,上 下文学习(In-Context Learning, ICL)使得模型能够理解任务的输入输出格式,从而更好地控制生成文本的格 式。这些方法主要通过在提示词中加入额外信息,为模型提供参考依据,从而实现指定形式的输出。
基于上述背景,本文提出了一种结合大语言模型、模型微调、检索增强生成和上下文学习的两阶段生成全文 的方法。我们收集了710份法庭科学领域相关的标准化文件,并对其进行了清洗和整理,构建成数据集,并按 7∶3的比例划分为训练集和测试集。在实验中,我们使用了一个拥有7B参数的预训练模型,并在训练集上针对 两阶段生成任务对该模型进行了微调。在生成过程中,结合了检索增强生成和上下文学习,第1阶段从给定主题 生成文章大纲,第2阶段则基于大纲进行扩展,最终生成完整的文档。最后,我们在测试集上对不同的方法进行 了评估,以验证方案的有效性。
1 相关理论
1.1 研究现状
目前,针对文档生成的研究主要集中在日志文件、法律文件和维基百科等方面,一些研究工作专注于章节和 段落等短文的生成,而另一些则致力于全文的生成。例如,Mi等[2]提出了一种自动化日志文档生成模型,由于其 工作偏向于模板化,导致生成的文档缺乏多样化。Shao等[7]研究了使用大语言模型从零开始撰写维基百科全 文,主要关注了预写作阶段。Lin等[8]研究了法律文件草稿的起草任务,侧重于法律文档数据集的收集和处理, 并将其用于微调大语言模型,以生成法律文档草稿,但其工作仅限于生成文章片段。Fan等[9]同样探索了使用大 语言模型从零开始生成维基百科人物传记全文,关注检索过程中可能存在的偏差。沈等[12]利用大语言模型对卫 生标准化文件进行标准程度检验,并自动生成修改建议,主要集中在卫生标准化文件的自动化质控。至今尚未发 现从零开始生成标准化文件全文的相关研究,本文的工作填补了这一空白。
1.2 大语言模型
大语言模型,也称为大型语言模型或大规模语言模型,是一种旨在理解和生成人类语言的人工智能模型,这 类模型通常具有数十亿以上的参数。一般而言,随着参数规模的增加,大模型的能力也会增强,这一现象被称为 拓展法则(Scaling Law)[13]。自2017年 Transformer模型[5]问世以来,其架构被广泛应用于各种下游任务,包括 但不限于机器翻译、文本生成、图像生成、视频生成等。近年来,针对大模型的研究迅速增长,国内外学术界和工 业界相继推出了多种大语言模型,如 Google的 BERT 模型、OpenAI的 GPT 系列模型、阿里云的 Qwen系列模 型以及深度求索的 DeepSeek-R1模型等。这些模型在几乎所有自然语言处理任务中表现出色,展现了在理解人 类语言和处理复杂问题方面的强大能力。
1.3 检索增强生成
尽管大模型在其参数中存储了大量知识,但它们仍然存在幻觉问题,即在进行下游任务时可能产生不符合任 务要求的输出。检索增强生成可以有效缓解这一问题。该方法通过提供外部知识来增强大模型的生成能力,这 些知识被编码为向量表示并存储在数据库中。借助检索器,大模型可以从知识库中提取与特定问题相关的信息, 最终将这些知识融入提示词中,输入生成器(即大模型)以获取输出。Lewis等[14]将大模型的参数称为“参数化 内存”,而外部知识库则作为补充,被称为“非参数化内存”。这种外部知识库使得大模型能够获取最新的知识或 特定领域的专业知识,从而缓解生成中的幻觉问题。
此外,越来越多的新型检索增强生 成 方 法 或 技 术 被 提 出。例 如,Balepur等[15]提 出 了IRP(Imitate, Retrieve, Paraphrase,IRP)方法,旨在确保输出的事实准确性,同时保留文档的样式。Semnani等[16]使用了少样本 提示的七步流程,通过检索实现几乎零幻觉。检索增强生成通过整合外部数据,摆脱了大模型的知识限制,显著 增强了模型的生成能力。
1.4 上下文学习
上下文学习是指给定模型提示词和一些输入输出样例的情况下,大模型能够在不进行参数更新的前提下,表 现出优于没有样例的性能。例如,在执行翻译任务时,提供一些翻译样例可以提升大模型的翻译能力。Brown 等[13]研究了上下文学习,对比了零样本、单样本和多样本情况下模型的表现。
上下文学习可以帮助大模型生成预期格式的输出。通过在提示词中加入示例,可极大提升大语言模型在下 游任务中的表现。在上下文学习中,提示词通常包括多个示例输入和输出对,以及要求大模型执行的具体指令, 这有助于模型理解特定任务的输入输出要求,从而提高其处理类似任务的能力。生成的文本不仅依赖于模型在 预训练中学到的知识,还基于模型对上下文的理解。Min等[17]研究表明,示例输入和输出的匹配程度对大模型 在下游任务中的表现影响有限。
1.5 微调
预训练-微调[6]策略被认为是将大模型应用到下游任务的有效手段之一,该策略能够实现模型的复用,节省训练 成本。在进行下游任务时,可直接使用他人预训练好的模型,也可以对其进行微调,使其更好地应用于特定任务。
大模型首先在预训练任务上进行预训练,如掩蔽语言建模(Mask Language Modeling,MLM)和下一句子预 测任务(Next Sentence Prediction, NSP)等。在此过程中,数据集中的知识被编码到大模型的参数中,即形成“参 数化内存”[14],使得大模型具有语义理解、知识问答和指令遵循等能力。掩蔽语言建模任务有助于模型学习单词 和句子之间的关系,而下一句子预测任务则使模型能够理解句子与句子之间的语义关系。
在将大模型应用到下游任务中时,通常会选择对模型进行微调。微调一般是在特定任务的标注数据集上进 行有监督学习,在此过程中,模型学习到针对特定任务的知识。针对文本生成任务的微调方法主要包括全参数微 调和参数高效微调[10 11]。全参数微调对大模型的所有参数进行调整,消耗更多的计算资源和存储空间,尤其在 训练参数量极大的模型(如 GPT 3 [13],约175B参数)时,其代价不可接受。
相比之下,参数高效微调仅对部分参数进行调整,从而在不损失性能的情况下,显著降低训练成本并节省模 型存储空间。Houlsby等[10]提出了适配器微调(Adapter Finetuning)方法,通过在 Transformer模块中加入适配 器,在微调时冻结其他参数,仅对适配器参数进行训练。Hu等[11]提出了低秩自适应(Low-Rank Adaptation, LoRA)方法,冻结预训练模型权重,并将可训练的秩分解矩阵注入到 Transformer模块的每一层,极大地减少了 训练参数量。相比于适配器方法,LoRA 在推理时没有额外延迟,成为目前比较先进的微调方法。
2 问题及解决方案
2.1 文档生成任务
本文所关注的任务是“标准化文件生成任务”,其目标是根据给定的标准化文件题目生成完整的标准化文件, 包括大纲及其具体内容。具体而言,本文旨在解决法庭科学领域的标准化文件生成问题。例如,给定标准主题 “疑似毒品中海洛因的气相色谱、气相色谱 质谱检验方法”,系统应能生成相应的标准大纲及其内容。 为便于后续讨论,本文定义了一些关键术语。标准文件主题(topic,简称To),大纲(outline,简称O),各级标题 (title,简称Ti),小节内容(content,简称C),向量数据库的文档集合(document,简称D,D={d1,d2,d3,…})。在生 成过程中,大纲O 经过层级化操作之后转化为各级标题Ti。向量数据库的建立将在3.1.4小节详细介绍。
2.2 检索增强生成的实现
检索增强生成包括索引(Indexing),检索(Retrieval)和生成(Generation)三个步骤,本小节将重点介绍检索 和生成的具体过程(见图1),索引的建立过程在3.1.4小节中进行详细说明。

检索过程涉 及 根 据 给 定 的 查 询 语 句 (Query,简称 Q)从向量数据库中检索与 之匹配的内容。首先,查询Q 会被嵌入模 型编码为向量,然后在向量数据库中进行 检索。该检索过程可归类于最大内积搜索 问 题 (Maximum Inner Product Search, MIPS),即通过计算查询向量与向量数据 库中各向量之间的相似 度 (本 文 使 用 L2 相似度),找到与查询向量相似度最大的k 个向量。该检索过程能够在亚线性时间复杂度下迅速找到这 k个向量,最终返回对应的文档集合 D={d1,…, dk}。表1展示了一个“大纲生成”的检索示例,显示了与查询 Q 最相似的5个结果,这些结果与图1右上部分 “topic: outline”中的“topic”相关性强,表明它们是与查询Q 相似度最小的k个结果。
生成过程则是将检索到的文档 D 与提示词结合,输入生成器(即 LLMs)以获取最终输出。在大纲生成中, 将表2的通用提示词与大纲生成的内容拼接,同时用文档 D 填充“rag_outline_information”字段;在内容生成 中,则是填充“rag_content_information”字段。“num”字段用文档数目填充,其余字段根据具体任务不同进行相 应填充。最后,将填充好的提示词输入生成器进行文本生成。
2.3 两阶段生成全文
由于一次性生成完整的标准化文件存在一定困难,本文采用两阶段生成的策略。第1阶段根据给定的标准 文件主题To 生成大纲O;第2阶段根据标准文件主题To 和大纲O 逐小节生成全文。
2.3.1 大纲生成
在大纲生成阶段,使用标准文件主题 To 生成大纲O,如图1中每半部分的上一行所示。首先进行检索,使 用标准文件主题To 从3.1.4小节的第一阶段向量数据库中检索得到文档集合D={d1,d2,…,dk},D 中包含k 个文档,且这些文档均与大纲内容相关;然后,结合提示词,将检索到的内容作为上下文为大模型提供输入输出样 例,用于生成大纲,见式(1)。提示词见表2的通用提示词与大纲生成。

2.3.2 内容生成
在内容生成阶段,使用标准文件主 题 To和大纲O 来小节生成全文,如图 1中每 半 部 分 的 下 一 行 所 示。大 纲 O 经过层级化处理后,得到若干个各级标 题 Ti,例 如,大 纲 “# 前 言 # 1 范 围……# 5 试剂和材料 ## 5.1 试 剂 ## 5.2 材料……”,经过层级化 操作后得到“# 前言”、“# 1 范围”… “# 5 试剂和材料 # # 5.1 试剂”、 “# 5 试剂和材料 ## 5.2 材料”等。 图1中的“topic | title”表示标准文件主题To 与层级化后的各级标题Ti进行拼接。

与大纲生成类似,内容生成的第1步是检索过程,使用拼接后的标准文件主题 To 和各级标题Ti,从3.1.4 小节的第2阶段向量数据库中检索得到文档集合D={d1,d2,…,dk},D 中包含k 个文档,且这些文档均与各小 节内容相关;然后,结合提示词用于大语言模型的生成,见式(2)。提示词见表2的通用提示词与内容生成。经过 以上两阶段的生成策略,本文旨在有效地生成标准化文件的完整内容。


3 实验
3.1 标准化文件数据集
我们收集了法庭科学领域的国家和行业标准化文件700余份,涵盖了法庭科学相关领域,包括强制性标准(GA,GB)、推荐性标准(GA/T,GB/T)及指导性技术文件(GA/Z)。在数据处理过程中,首先使用水印去除工具去除文档中的水印,然后使用光学字符识别(OCR)工具识别出每页的文本,经过人工校对后,我们最终获得了710份文件,并提取了文本中的结构化信息,保存为JSON 文件格式。接着,将结构化的JSON 文件转化为两个任务所需的输入输出文本形式,最后建立标准化文件向量库。
以下将详细介绍人工处理、结构化信息提取、输入输出文本转换及标准化文件向量库的建立过程。
3.1.1 人工处理
在这一步骤中,我们对 OCR识别出的文件进行了人工处理,主要包括纠错以及对标题、图表和公式等的处理。纠错主要针对水印去除不充分的文件,人工修正 OCR识别后产生的错误文本,确保文本的准确性。
为了提取文本中的结构化信息,我们使用标题正则表达式(见表4)匹配文本中的标题。在此过程中,可能会出现由于 OCR识别导致的错误情况。例如,某个不应被识别为标题的行符合我们的标题正则表达式(情况1),或者某行应为标题但是未匹配标题正则表达式(情况2)。针对情况1,我们为该行添加<not-title>的标签;对于情况2,我们为该行添加<title>标签,具体的样例如表3所示。
此外,我们删除了目次、附录等内容,针对图表公式,使用<figure>、<table>和<formula>进行替换,替换后的结果样例为“<figure>图1剪切工具刃部各部位名称”、“<table>表1流动相和梯度洗脱条件”及“<formula>”。

3.1.2 提取结构化信息
将经过3.1.1小节处理后的文本,提取为结构化文本格式,即从中提取出文件名、标准名、前言、各级标题及内容等,并以JSON 文件进行存储。具体而言,标题的提取依赖于表4中的“标题正则表达式”,而标准名则依据表4中的标准正则表达式进行匹配。标题以字典形式存储,格式为“title:{level,
content}”,其中level表示当前标题的层级,content表示标题的具体内容;内容采用“paragraph:['xxx','xxx',..]”的形式存储,其中“xxx”代表一句完整的句子
3.1.3 转化为输入输出文本形式
将3.1.2小节处理得到的JSON 格式数据转换为任务所需的输入输出形式。在这一过程中,我们提取了标准文件主题 To、大纲O、各级标题 Ti及对应的内容C。特别地,标准文件主题 To 经过格式统一和规范处理。需要注意的是,各级标题采用层级化方式与其对应内容一起存储。
3.1.4 建立标准化文件向量数据库
此阶段还涉及到索引建立。根据3.1.3小节处理得到的文件,我们依据训练集和测试集的划分,分别建立向量数据库。我们使用了 Chroma向量数据库,并采用bce-embedding-base_v1嵌入模型,向量维度设定为768维。对于第一阶段任务,我们使用标准文件主题 To作为索引,大纲 O 作为索引目标,建立第1阶段的向量数据库(训练集包含497组数据、测试集包含213组数据);对于第2阶段任务,我们使用标准文件主题 To和标题 Ti作为索引,内容 C作为索引目标,建立第二阶段的向量数据库(训练集包含11954组数据、测试集包含5551组数据)。两阶段的向量数据库的建立过程如图2所示。此外,训练集和测试集的向量数据库是分开建立的。

3.2 评价指标
为了评估生成的大纲质量,我们使用软头召回率(the Soft HeadRecall)[18]和 Rouge[19]指标。对于生成的全文质量,我们仅使用 Rouge指标进行评价。软头召回率中使用到了嵌入模型,这里使用 3.1.4 小节中提到的 bce-embedding-base_v1 模型。对于 Rouge指标,由于我们是在中文上进行操作的,因此使用 Rouge库的中文版本:RougeChinese库,此外 Rouge1和RougeL均采用 F得分。
3.3 基准模型及微调模型
本文使用的基准模型为 Qwen2.5-7B-Instruct,该模型是阿里云开发的大语言模型,它在多达18T 词元的数据集上进行了预训练。我们选择此模型主要是基于该模型对中文文本优秀的处理能力以及推理能力,并且模型大小合适。此外,该模型经过了指令微调,可以更好的按照用户指令执行任务。
我们分别使用第1、2阶段任务的训练集微调了两个模型:大纲生成模型和内容生成模型。我们使用 LO-RA[11]方法进行微调,使用LLaMA-Factory工具。对于两个微调模型,学习率均设置为1e 5并采用余弦退火,预热比例为0.1,训练轮数选择20轮,在八张 NVIDIA Tesla V100S PCIe 32GB上进行训练,每张卡的训练批次大小为1,梯度累计步数为8,验证集比例设置为0.1。
针对图3的训练结果,对于大纲生成模型,我们选择第120步处的检查点;对于内容生成模型,我们选择第200步处的检查点。

我们还训练了一个神经网络模型(Char-RNN)作为对比实验,但在面对本文的长文本生成任务时效果很差 (Rouge 1得分约0.257 81,Rouge L得分约0.094 37,且生成文本中存在很多噪点),出于篇幅考虑,本文不列出 结果。
3.4 实验设置
为了更好的彰显结果的有效性,针对大纲生成和内容生成两个阶段任务,我们分别进行了5组实验: 1)使用原始模型,输入为表2的提示词,但不带检索;2)使用原始模型,输入为表2的提示词,但带检索;3)使 用微调模型,输入为标准文件主题To(标准文件主题To 和标题Ti);4)使用微调模型,输入为表2的提示词,但 不带检索;5)使用微调模型,输入为表2的提示词,但带检索。
使用测试集进行了实验,检索的数据库为训练集向量数据库。表5和表6中的试验编号即代表上述5组实验,对于每个实验设置,均进行了3组平行实验,最终每组的实验结果取平均值。
3.5 结果与分析
3.5.1 主要结果
我们首先评估了大纲生成的质量,表5展示了软头召回率和 Rouge指标的得分。可以看出,小节2.3.1提 出的大纲生成方法(对应表5的实验(2)和实验(5))取得了最好的表现。接着我们评估了内容生成的质量,表6 展示了 Rouge指标的得分。可以看出,小节2.3.2提出的内容生成方法(对应表6的实验(2)和实验(5))取得了 最好的表现。这表明小节2.3提出的方案是有效的,我们将在3.5.2和3.5.3对实验结果进行详细的分析。

最后,展示标准文件主题为“GB/T 29361—2012电子物证 文件一致性检验规程”的生成结果。如图4所示,为大纲生成的 一个样例(选用实验(2)结果),可见预测大纲包含了真实大纲的 大部分内容,在内容丰富度上,预测大纲要更好一些;如图5所 示,为内容生成的一个样例(选用实验(2)结果,大纲使用真实大 纲),可见预测内容的专业化水平高,且与真实内容的文本风格相 似,但预测内容在细节上存在不足,如在“# 4 仪器设备 ## 4.2 软件” 中,预测内容只是给出了软件应具备的功能但缺乏实例,而 真实内容则是给出了具体的软件,提供了实际可用的选择。

3.5.2 消融实验
对于大纲生成和内容生成来说:
1)检索的作用。对比表5、表6中的实验(1)和实验(2)或 者实验(4)和实验(5)的结果可以得知,加入检索可以提高最终 的表现。这表明,通过检索相关示例,然后在提示词中为大模型 提供一些动态的输入输出示例,能有效的激活模型的类比能力,从而提高模型的性能表现,这验证了模型具有强 大的上下文学习能力,也验证了该模块的有效性。
2)微调的作用。对比表5、表6中的实验(1)和实验(4)的结果可以得知,经过微调之后,仅使用提示词能够 提高模型的性能表现。这表明当输入格式从结构化文本(微调阶段)调整为自然语言描述(推理阶段)时,经过微 调的模型(实验(4))较基线(实验(1))在各指标上有所提升,这验证了模型具有较好的格式鲁棒性。
3.5.3 讨论
对于大纲生成和内容生成来说(针对表5和表6):
1)提示词的影响。未经过微调的模型,在直接使用实验(3)的输入时,无法产生预期格式的输出,因此我们未 进行该类型的实验。然而通过实验(3)与实验(4)的对比,我们可以得知,经过微调的模型,即使不使用提示词给 出明显的输出格式定义,其性能表现仍能达到很高,因此,模型微调能显著提高在下游任务中的表现。
2)微调的影响。实验(2)和实验(5)的性能数据各有胜负,实验(5)仅在 Rouge 1指标上要高出实验(2),而在 其余指标上低于实验(2)。这表明,经过微调后的模型,在生成的文本中可能包含了更多与参考文本相同的词元, 这反映了较好的词汇匹配;然而,相比于未经过微调的模型,生成的文本可能并没有建立起相对完整或连贯的句 子结构,微调模型倾向于重复参考文本的高频词元,存在冗余问题。
为了进一步探究检索和微调对实验结果的影响,针对表5和表6,我们计算了使用检索或微调之后,各项指 标的提升比例(见表7和表8)。

3)检索机制的核心作用。实验(2)和(5)均显著优于无检索的对应实验(1)和(4),且指标的提升幅度较大,这 表明检索机制是性能提升的核心因素,无论是否微调模型,引入检索都能大幅增强生成内容的相关性和准确性。
4)微调策略的边际效应。实验(4)和(5)相比于未微调的对应实验(1)和(2),提升比例非常小,甚至有负提 升,这表明当前微调策略的优化有限,尤其在与检索场景相结合时。
表7和表8的结果表明,实验(2)和(5)的成功主要归功于检索机制的有效性,而微调模型的潜力尚未完全释 放。未来工作需优化微调策略,使其更紧密适配检索场景,以进一步提升生成质量。
4 结论
本文建立了法庭科学标准化文件数据集,并通过两阶段生成全文的方式,使用大语言模型和相关技术,开展 了法庭科学领域的标准化文件生成工作。通过一系列实验,结果表明,本文提出的方法在性能上取得了显著的提 升,验证了其有效性。本研究为法庭科学领域的标准化文件生成提供了有效的方法和实践经验,同时为后续研究 指明了方向,尤其是在微调模型与检索机制的结合应用方面。首先,微调模型在生成过程中存在冗余问题,这影响了生成文本的质量。虽然我们尝试使用检索增强生成技术来缓解幻觉问题,但未能对此进行深入分析。因此, 未来的研究应重点关注优化微调策略,以更好地适应检索场景,从而进一步提升生成质量。