新闻资讯

测试人工智能生成文本的检测工具

介绍
高等教育机构(HEIs)在社会中发挥着基础性作用。它们通过教育和技能发展塑造下一代专业人士,同时提供研究、创新、商业合作和公民参与的中心。学生也在高等教育中形成并进一步发展他们的个人和职业道德和价值观。因此,维护高等教育评估和文凭的完整性至关重要。

引入未经授权的内容生成——“使用未经批准或未声明的人力或技术援助,为获得学分、进步或奖励而制作全部或部分学术作品,无论是否涉及付款或其他好处”(Foltýnek 等人) al. 2023)——进入高等教育环境对学术诚信构成潜在威胁。学术诚信被理解为“个人或机构在教育、研究和学术方面遵守道德和专业原则、标准和实践”(Tauginienė et al. 2018)。

人工智能 (AI) 的最新进展,特别是在生成式预训练 Transformer (GPT) 大语言模型 (LLM) 领域,催生了一系列公开可用的在线文本生成工具。由于这些模型是根据人类编写的文本进行训练的,因此这些工具生成的内容可能很难与人类编写的内容区分开来。因此,它们可以用来完成高等教育机构的评估任务。

尽管人类创建的未经授权的内容生成,例如合同作弊(Clarke & Lancaster 2006),近二十年来一直是学生作弊的一种经过深入研究的形式,但高等教育机构并没有准备好对自动化工具进行如此彻底的改进,以至于使学生和研究人员可以轻松地生成未经授权的内容。基于 GPT-3 和更新的 LLM 的工具的可用性,特别是 ChatGPT (OpenAI 2023a , b ),以及其他类型的基于 AI 的工具,例如机器翻译工具或图像生成器,引起了许多关于如何制作确保没有试图欺骗学术成绩。ChatGPT 的推出迫使高等教育机构采取行动。

与合同作弊不同,人工智能工具的使用并不一定是不道德的。相反,由于人工智能将在不久的将来渗透到社会和大多数职业,因此有必要与学生讨论人工智能工具的好处和局限性,为他们提供扩展对这些工具的知识的机会,并教他们如何使用这些工具。以合乎道德且透明的方式使用人工智能。

尽管如此,一些教育机构已经直接禁止使用 ChatGPT(Johnson 2023),还有一些教育机构甚至阻止了其大学网络的访问(Elsen-Rooney 2023),尽管这只是虚拟专用网络相当普遍的象征性措施。一些会议明确禁止在会议提交内容中包含人工智能生成的内容,包括机器学习会议(ICML 2023)。最近,意大利成为世界上第一个禁止使用 ChatGPT 的国家,尽管该决定已被撤销(Schechner 2023)。限制人工智能生成内容的使用自然导致了对简单检测工具的需求。许多声称能够检测人工智能生成文本的免费在线工具已经可用。

一些公司确实敦促在使用其工具检测人工智能生成的文本时要谨慎,以便仅根据其提供的结果采取惩罚措施。他们承认其工具的局限性,例如 OpenAI 解释说有多种方法可以欺骗该工具(OpenAI 2023a,b,5 月 8 日)。Turnitin 为教师提供了一份指南,指导他们如何对待那些作业被标记为人工智能生成的学生(Turnitin 2023a,b,3 月 16 日)。尽管如此,四家不同的公司(GoWinston,2023;Content at Scale 2023;Compilatio 2023;GPTZero 2023)声称是市场上最好的。

本文的目的是检查用于检测在文本生成中使用 ChatGPT 的工具的一般功能,评估这些工具提供的输出的准确性,以及它们在使用混淆技术(例如在线释义工具,以及机器翻译工具对人类书写文本的影响。

具体来说,本文旨在回答以下研究问题:

RQ1:人工智能生成文本的检测工具能否可靠地检测人类书写的文本?

RQ2:AI 生成文本的检测工具能否可靠地检测 ChatGPT 生成的文本?

RQ3 :机器翻译会影响人类书写文本的检测吗?

RQ4:手动编辑或机器释义是否会影响 ChatGPT 生成文本的检测?

RQ5:不同检测工具对人工智能生成文本的结果一致性如何?

下一节简要介绍法学硕士的概念和历史。接下来是对科学和非科学相关工作的回顾以及对研究方法的详细描述。之后,从准确性、误差分析和可用性问题方面呈现结果。论文最后提出了讨论要点和结论。与之前的方法一样,仍然获得1.0分。精度计算公式

大型语言模型
我们将 LLM 理解为经过训练的系统,用于预测特定上下文中特定字符、单词或字符串(称为标记)的可能性(Bender 等人,2021)。这种统计语言模型自 20 世纪 80 年代以来一直在使用(Rosenfeld 2000),其中包括机器翻译和自动语音识别。在多维向量空间中估计单词表示的有效方法(Mikolov 等人,2013),加上注意力机制和转换器架构(Vaswani 等人,2017),使得生成类人文本不仅成为可能,而且在计算上也是可行的。

ChatGPT是一个自然语言处理系统,由2015年成立的研发公司OpenAI拥有和开发。基于Transformer架构,OpenAI于2018年6月发布了GPT的第一个版本。不到一年的时间,这个版本就被发布了。被改进后的 GPT-2 取代,然后在 2020 年被 GPT-3 取代(2023 年3 月)。该版本可以在给定的上下文中生成连贯的文本。这在很多方面都改变了游戏规则,因为它能够创建难以与人类书写文本区分开来的响应(Borji 2023;Brown et al. 2020)。由于 7% 的训练数据是英语以外的语言,因此 GPT-3 也可以多语言执行(Brown et al. 2020))。2022年11月,ChatGPT上线。它展示了其功能的显着改进和用户友好的界面,并得到了一般媒体的广泛报道。推出后两个月内,它就拥有超过 1 亿订阅者,并被称为“有史以来增长最快的消费者应用程序”(Milmo 2023)。

人工智能在教育领域的应用既带来了挑战,也带来了机遇。经授权和适当认可的人工智能工具(包括法学硕士)的使用本身并不是一种不当行为(Foltýnek 等人,2023)。然而,在教育环境中使用人工智能工具生成未经授权的内容(Foltýnek et al. 2023)是一种学术不端行为(Tauginienė et al. 2018 ))。尽管 LLM 在 ChatGPT 发布后已为更广泛的公众所熟知,但没有理由假设它们甚至在该日期之前就没有被用来创建未经授权和未声明的内容。人工智能工具的可访问性、数量和最新发展导致许多教育工作者需要技术解决方案来帮助他们区分人类编写的文本和人工智能生成的文本。

二十多年来,教育工作者一直在使用软件工具试图检测学术不端行为。这包括使用搜索引擎和文本匹配软件来检测潜在抄袭的情况。尽管这种自动检测可以识别一些抄袭,但 Foltýnek 等人之前的研究。(2020年)表明,文本匹配软件不仅不能发现所有抄袭,而且还会将非抄袭内容标记为抄袭,从而提供误报结果。这是学术环境中最糟糕的情况,因为诚实的学生可能会被指控行为不端。为了避免这种情况,现在,当市场推出了数十种人工智能生成文本的工具时,讨论这些工具是否能清楚地区分人类编写的内容和机器生成的内容非常重要。

相关工作
法学硕士的发展加速了人工智能生成文本自动检测领域的不同类型的努力。首先,一些研究人员研究了人类检测机器生成文本的能力(例如Guo et al. 2023;Ippolito et al. 2020;Ma et al. 2023)。其次,已经尝试建立基准文本语料库以有效地检测人工智能生成的文本;例如,Liyanage 等人。(2022)为学术领域提供了综合和部分文本替换数据集。第三,许多研究工作都集中在开发新的或微调机器生成文本的已预训练模型的参数(例如 Chakraborty 等人,2023; 德夫林等人。2019)。

这些努力为提高人工智能生成文本检测工具的性能和能力做出了宝贵的贡献。在本节中,论文作者主要关注比较或测试现有检测工具的研究,教育工作者可以使用这些工具来检查学生作业的原创性。表1、表2和表 3总结了本文研究的相关工作。它们被分类为已出版的科学出版物、预印本和其他出版物。值得一提的是,虽然互联网上有很多个人和组织进行的比较,但表3只包括那些工具覆盖率较高和/或至少部分描述了实验方法的比较。

一些研究人员使用已知的文本匹配软件来检查他们是否能够在人工智能生成的文本中找到抄袭的实例。Aydin 和 Karaarslan ( 2022 ) 测试了 iThenticate 系统,并透露该工具已找到与其他信息源匹配的 ChatGPT 释义文本和生成文本。他们还发现,ChatGPT 在释义后不会生成原始文本,因为与人工编写和 ChatGPT 生成的文本段落相比,释义文本的匹配率非常高。在高等人的实验中。( 2022 ),Plagiarism detector.net 认为 ChatGPT 生成的几乎所有 50 篇科学摘要都是完全原创的。

Khalil 和 Er (Khalil and Er 2023 ) 将 50 篇 ChatGPT 生成的论文输入到两个文本匹配软件系统中(25 篇论文输入到 iThenticate,25 篇文章输入到 Turnitin 系统),尽管它们只是同一引擎的不同接口。他们发现其中 40 个(80%)被认为具有较高的原创性,尽管他们将其定义为相似度得分为 20% 或更低。Khalil 和 Er (Khalil and Er 2023 ) 还尝试测试 ChatGPT 的能力,以检测这些文章是否由 ChatGPT 生成,并表示准确率为 92%,因为据称有 46 篇文章是抄袭案例。截至 2023 年 5 月,ChatGPT 现在对此类问题发出警告,例如:“作为 AI 语言模型,我无法验证您提供的段落的具体来源或出处。”

本文的作者认为 Khalil 和 Er 的研究(Khalil and Er 2023)存在问题,原因有两个。首先,值得注意的是,由于单词选择的随机性,应用文本匹配软件系统来检测 LLM 生成的文本没有什么意义。其次,由于LLM会“产生幻觉”,即编造结果,所以不能问他是否是一篇文章的作者。

一些研究人员专注于测试人工智能生成文本的免费和/或付费检测工具集。王等人。( 2023 ) 检查了检测工具在自然语言内容和编程代码上的性能,并确定“检测 ChatGPT 生成的代码甚至比检测自然语言内容更困难。” 他们还指出,工具经常表现出偏见,因为其中一些工具倾向于预测内容是 ChatGPT 生成的(正面结果),而其他工具则倾向于预测内容是人类编写的(负面结果)。

通过在 GPT-2 输出检测器上测试 50 张 ChatGPT 生成的论文摘要,Gao 等人。( 2022 ) 得出的结论是,检测器能够很好地区分原始摘要和生成的摘要,因为大多数原始摘要的得分极低(对应于人类编写的内容),而检测器发现人工智能生成的文本的可能性很高。在 ChatGPT 生成的大多数摘要(33 篇摘要)中,有 17 篇摘要得分低于 50%。

佩戈拉罗等人。(2023)不仅测试了人工智能生成文本的在线检测工具,还测试了许多现有的检测方法,并声称检测 ChatGPT 生成的文本段落仍然是一项非常具有挑战性的任务,因为最有效的在线检测工具只能实现成功率低于50%。他们还得出结论,大多数分析工具倾向于将任何文本归类为人类编写的。

van Oijen( 2023 )完成的测试表明,检测人工智能生成文本的工具的总体准确率仅达到27.9%,最好的工具最高达到50%的准确率,而工具在检测人工智能生成的文本时达到了近83%的准确率。人类编写的内容。作者得出的结论是,人工智能生成文本的检测工具“并不比随机分类器更好”(van Oijen 2023)。此外,测试还提供了一些有趣的发现;例如,这些工具发现很难检测由 ChatGPT 重写的一段人类编写的文本或以特定风格编写的文本段落。此外,没有将人类编写的文本归因于人工智能生成的文本,即不存在误报。

尽管 Demers ( 2023 ) 仅提供了测试结果而没有进行任何进一步的分析,但他们的检查得出的结论是,人类编写的文本段落被所有工具识别为人类编写的,而 ChatGPT 生成的文本则具有混合的评估趋势预测为人工编写(16 种工具中的 10 种),对于 ChatGPT 书写样本,通过附加提示“节拍检测”(16 种工具中的 12 种工具)进一步增加。

Elkhatat 等人 ( 2023 ) 揭示,检测工具在识别 GPT-3.5 生成的文本方面通常比 GPT-4 生成的文本更成功,并且在检测人类书写的文本时表现出不一致(误报和不确定的分类)。他们还质疑检测工具的可靠性,特别是在调查学术环境中学术诚信违规行为的情况下。

在 Compilatio 进行的测试中,人工智能生成文本的检测工具检测人类书写文本的可靠性为 78-98%,人工智能生成文本的可靠性为 56-88%。Gewirtz ( 2023 ) 对三份人工编写的文本和三份 ChatGPT 生成的文本的测试结果表明,所选的两种人工智能生成文本检测工具只能达到 50% 的准确率,而另一种则达到 66% 的准确率。

还研究了释义对人工智能生成文本检测工具性能的影响。例如,安德森等人。( 2023 ) 得出的结论是,释义显着降低了 GPT-2 输出检测器的检测能力,因为第一篇文章的人工编写内容的分数从 0.02% 增加到了 99.52%,第二篇文章的分数从 61.96% 增加到了 99.98%。克里希纳等人。(2023)将释义应用于人工智能生成的文本,并发现它显着降低了实验中使用的五种人工智能生成文本检测工具的检测精度。

上述研究结果表明,对于现有的人工智能生成文本检测工具来说,检测人工智能生成的文本段落仍然具有挑战性,而人类书写的文本通常识别得相当准确(准确率超过80%)。然而,工具识别 AI 生成文本的能力受到质疑,因为在许多研究中它们的准确度仅为 50% 左右或略高。根据工具的不同,可能会出现将一段文本识别为 ChatGPT 生成的或人工编写的偏差。此外,如果ChatGPT 转换人类书写的文本或生成特定风格的文本(例如孩子的解释),工具就很难识别文本的来源。此外,当通过释义或重写故意修改文本时,检测工具的性能会显着下降。

现有研究存在几个不足:

通常,实验是使用有限数量的检测工具在有限的数据集上对人工智能生成的文本进行的;

有时,人类编写的文本取自公开网站或公认的印刷来源,因此可能之前曾用于培训法学硕士和/或不保证它们实际上是由人类编写的;

研究的方法方面并不总是得到详细描述,因此无法复制;

测试人工智能生成和进一步翻译的文本是否会影响检测工具的准确性根本没有讨论;

使用有限数量的可衡量指标来评估检测工具的性能,忽略结果的定性分析,例如可能在学术环境中产生重大后果的分类错误类型。

方法
测试用例
这项研究的重点是确定能够检测人工智能生成文本的工具的准确性。为此,设置了许多情境参数来为以下类别的英语文档创建测试用例:

人工编写的;

由人类用非英语语言编写,随后由人工智能/机器翻译成英语;

人工智能生成的文本;

人工智能生成文本,随后进行人工编辑;

人工智能生成的文本以及随后的人工智能/机器释义。

对于第一类(称为 01-Hum),规定要以撰写论文的研究人员所在领域的本科生水平书写 10,000 个字符(包括空格)。这些领域包括学术诚信、土木工程、计算机科学、经济学、历史、语言学和文学。任何文本都可能没有在任何时候暴露在互联网上,甚至没有作为电子邮件的附件发送。这一点至关重要,因为互联网上的任何材料都可能包含在法学硕士的培训数据中。

对于第二类(称为 02-MT),大约有 10,000 个字符(包括空格)是用波斯尼亚语、捷克语、德语、拉脱维亚语、斯洛伐克语、西班牙语和瑞典语编写的。这些文本之前可能都没有暴露在互联网上,至于01-Hum。根据语言的不同,使用人工智能翻译工具 DeepL(3 个案例)或 Google Translate(6 个案例)来生成英语测试文档。

我们决定使用 ChatGPT 作为本次调查的唯一人工智能文本生成器,因为它是研究开始时媒体关注度最高的生成器。每位研究人员使用该工具使用不同的提示(03-AI 和 04-AI)生成了两个文档,每个文档至少包含 2000 个字符,并记录了提示。所有测试用例均使用 2023 年 2 月 13 日的语言模型。

使用 ChatGPT 的新提示生成了两个至少 2000 个字符的附加文本,然后对输出进行了操作。决定使用这种类型的测试用例,因为学生倾向于混淆结果,以隐藏他们对人工智能内容生成器的使用。一组 (05-ManEd) 是由人类手动编辑的,用同义词交换一些单词或重新排序句子部分,另一组 (06-Para) 使用基于 AI 的工具 Quillbot (Quillbot 2023 ) 自动重写,使用默认值用于模式(标准)和同义词级别的工具。混淆的文档,突出显示文本之间的差异,可以在附录中找到。

九位研究人员准备了文本(八位作者和一位合作者),从而获得了 54 个测试用例,这些测试用例的基本事实是已知的。

AI生成的文本检测工具选择
使用社交媒体和谷歌搜索准备了人工智能生成文本的检测工具列表。总体而言,考虑了 18 种工具,其中 6 种被排除:2 种不可用,2 种不是在线应用程序,而是 Chrome 扩展程序,因此超出了本研究的范围,1 种需要付费,1 种没有产生任何可量化的结果。

Turnitin 公司联系了研究小组并提供了登录权限,并指出他们只能从 2023 年 4 月上旬开始提供访问权限。尽管它不是免费的,但还是决定测试该系统,因为它的使用非常广泛,并且已经在学术界广泛讨论。另一家公司 PlagiarismCheck 也在广告中表示,除了文本匹配检测系统之外,它还有一个用于人工智能生成文本的检测工具。由于研究人员不希望只有一个付费系统,因此决定询问他们是否也想参与测试。他们同意并在五月初提供了登录信息。我们警告说,他们的结果可能与使用的免费工具不同,因为公司知道提交的文档是测试套件的一部分,并且他们能够使用整个测试文档。

PlagiarismCheck 和 Turnitin 是组合的文本相似性检测器,并提供确定文本由 AI 编写的概率的附加功能,因此测试的文本量没有限制。Check for AI、Crossplag、Go Winston、GPT Zero 和 OpenAI Text Classifier(Google 帐户有效)需要注册。

数据采集
这些测试由各个作者在 2023 年 3 月 7 日至 3 月 28 日之间进行。由于 Turnitin 直到 4 月份才可用,因此这些测试在 2023 年 4 月 14 日至 4 月 20 日之间完成。PlagiarismCheck 的测试于 5 月 2 日至 5 月 8 日之间进行,2023 年。所有 54 个测试用例均已提交给每个工具,总共进行了 756 次测试。

评估方法
为了进行评估,作者被分成两到三人一组,并负责评估 01-Hum 和 04-AI、02-MT 和 05-ManEd 或 03-AI 和 06 案例的测试结果- 段落。由于这些工具不提供精确的二元分类,因此对原始文本(01-Hum 和 02-MT)使用一种五步分类,对 AI 生成的文本(03-AI、04-AI)使用另一种五步分类。 、05-ManEd 和 06-Para)。它们基于人类编写或人工智能生成的文本报告的概率,如表5所示。

对于四种检测工具,结果仅以文本形式给出(“风险非常低”、“可能由 AI 生成”、“不太可能来自 GPT-2”等),并且这些结果被映射到分类标签如表6所示。

在进行所有分类并消除分歧后,计算准确性、假阳性率和假阴性率的度量。

结果
在将工具的分类结果评估为(部分)真/假阳性/阴性后,研究人员根据两个标准评估了这种分类:准确性和错误类型。一般来说,分类系统是通过准确度、精确度和召回率来评估的。研究作者还进行了错误分析,因为教育背景意味着不同类型的错误具有不同的意义。

Turnitin 使用所有准确度分类方法获得了最高分,其次是 Compilatio 和 GPT-2 输出检测器(同样在所有方法中)。这特别有趣,因为顾名思义,GPT-2 输出检测器没有经过训练来检测 GPT-3.5 输出。Crossplag 和 Go Winston 是仅有的达到至少 70% 准确率的其他工具。

准确度的变化
如上图 2所示,总体平均准确度数字具有误导性,因为它掩盖了文档类型之间准确度的主要差异。进一步的分析揭示了机器翻译、人工编辑和机器释义对整体准确性的影响:

机器翻译的影响
案例 01-Hum(人工编写)的总体准确率为 96%。然而,在人类用英语以外的语言编写的文档被机器翻译成英语的情况下(案例02-MT),准确性下降了20%。显然,机器翻译在输出中留下了一些人工智能的痕迹,即使原文纯粹是人类编写的。

人类手动编辑的影响
与案例 03-AI 和 04-AI(机器生成,无需进一步修改;74%)相比,案例 05-ManEd(机器生成,随后进行人工编辑)通常获得略多于一半的分数 (42%)。这反映了在禁止使用人工智能的情况下学生不当行为的典型情况。学生获得人工智能编写的文本,然后快速浏览它并进行一些细微的更改,例如使用同义词来尝试掩饰未经授权的内容生成。这种类型的写作被称为补丁写作(Howard 1995)。分类器的准确度只有约 50%,这表明这些被认为是最常见的情况,目前的工具几乎无法检测到。

机器释义的影响
最令人惊讶的结果可能是案例 06-Para(由机器生成并随后由机器释义)。使用人工智能来转换人工智能生成的文本会产生分类器认为是人类编写的文本。此案例的总体准确率为 26%,这意味着大多数人工智能生成的文本在机器转述时仍然未被检测到。

工具结果的一致性
除了 GPT Zero 的显着例外,所有测试的工具在识别人类书写的文本时都遵循比识别由人工智能或机器工具生成或修改的文本时更高的准确度的模式,如图 3 所示。因此,他们的分类(可能是故意的)偏向人类而不是人工智能输出。由于下面讨论的原因,这种分类偏差在学术背景下更可取。

精确
系统性能的另一个重要指标是精度,即真阳性案例与所有正分类案例的比率。精度表示系统提供的正分类正确的概率。

误差分析
在本节中,研究人员量化了更多工具性能指标,即可能在教育环境中产生重大后果的两种分类错误:导致对学生的错误指控的误报和未发现的案例(学生获得相对于其他人的不公平优势) ,即假阴性率,与召回率密切相关。

不实指控:对个别学生的伤害
如果教育工作者使用其中一个分类器来检测学生的不当行为,就会出现什么样的输出会导致学生被指控未经授权的内容生成的问题。研究人员认为,如果分类器的输出是正值或部分正值,典型的教育者会指责学生。一些教师也可能怀疑学生在不清楚或部分负面的案例中行为不当,但研究作者认为,教育工作者通常不会在这些案例中发起纪律处分。因此,对于每个工具,我们还计算了学生误报的可能性,即误报和部分误报与所有否定案例的比率,

对特定文件进行分类会导致虚假指控的案例数量。该表仅包含文档 01-Hum 和 02-MT,因为 AI 生成的文档不相关。从图 1 和 2 中也可以看出,一半工具的误报风险为零。 4和5。测试的 14 种工具中有 6 种产生了误报,机器翻译文本的风险急剧增加。对于 GPT Zero 来说,一半的正面分类是虚假指控,这使得该工具不适合学术环境。

未被发现的案例:破坏学术诚信
另一种形式的学术损害是未被发现的案例,即人工智能生成的文本仍未被发现。使用未经授权的内容生成的学生可能会比那些诚实地完成任务的学生获得不公平的优势。这种不当行为的实际受害者是诚实的学生,他们与不诚实的学生获得相同的学分。表14给出了 AI 生成的文档未被检测到的可能性(假阴性率,FNR),其中仅包括阳性案例(03-AI、04-AI、05-ManEd 和 06-Para)。

为了完整起见,表14还包含召回率(1-FNR),表明有多少阳性病例被系统正确分类。

上面的图 6、图7和图8显示,14个测试工具中有13个对文档03-AI和04-AI产生了假阴性或部分假阴性;只有 Turnitin 正确分类了这些类别中的所有文档。这些工具都无法正确分类所有经过手动编辑或机器释义的人工智能生成的文档。

由于文档集 03-AI 和 04-AI 是使用相同的方法准备的,研究人员预计结果会相同。然而,对于某些工具(OpenAI Text Classifier 和 DetectGPT),结果明显不同。这可能表明测试或结果解释存在错误。因此,研究人员对所有结果进行了仔细检查,以避免此类错误。我们还尝试再次上传一些文件。我们确实获得了不同的值,但我们发现这是由于这些工具的结果不一致而不是由于我们的错误。

Content at Scale 对所有阳性案例进行了错误分类;这些结果与人类书写文档的 100% 正确分类相结合,表明该工具本质上偏向于人类分类,因此完全无用。总体而言,人工智能生成的文本大约有 20% 的案件可能会被错误地归因于人类,这意味着不公平优势的风险明显大于虚假指控的风险。

图 9和图 10显示学生通过使用混淆策略获得不公平优势的风险更大。总体而言,对于手动编辑的文本(案例 05-ManEd),未检测到的文本的比例增加到大约。50%,如果是机器释义文本(案例 06-Para),则上升得更高。

可用性问题
测试过程中出现了一些可用性问题,这可能是由于所调查工具的测试性质所致。

例如,DetectGPT 工具在某个时候停止工作,只回复“服务器错误

发布日期:2024-02-27