AI生成内容的识别

在前一篇文章中,简单讲述了生成式大模型对一些行业造成了巨大的冲击,甚至可能导致这些行业退出历史舞台。

然而,毛泽东的《矛盾论》中指出“矛盾存在于一切事物的发展过程中”,每一个事物的发展,有了“矛”,就必定有对应的“盾”存在。

AI生成内容的识别

在生成式大模型兴盛的这个时代,有了AI生成内容这个“矛”,就必然会相应的产生对AI生成内容进行识别的“盾”的需求。

对于如何有效的检测AI生成内容,现在业界的研究比较有限,根据个人查阅的一些资料来看,大致的方向主要包括事前防御和事后识别两类。

事前防御

所谓的事前防御,就是在对大模型进行训练时,或者是在大模型生成内容时,增加一些类似“水印”的标记,然后采用和大模型对应的检测工具,可以很方便的识别出某段内容是否是该大模型生成的内容。

事后识别

所谓的事后识别,就是在大模型已经生成了内容,然后识别工具对内容的结构进行分析,判断其是否有AI生成。

事后识别最简单的有两种方法:

所谓对比法,就是使用不同的提示词,由大模型多次生成内容,然后将大模型生成的内容和待检测的内容进行对比,分析其相识度,从而对待检测内容做出判断的方法。

所谓句法分析,就是事先使用大量的AI生成内容对识别大模型进行训练,使识别大模型掌握AI生成内容的词语使用、句子构成、句子长短、段落长短等特点;然后,再使用大量的真人生成内容对识别大模型进行训练,使识别大模型掌握真人生成内容的词语、句子、段落等特点;最后,再使用训练好的识别大模型对待检测内容进行识别。

生成式大模型和识别式大模型之间必将会是一个长久的博弈过程,识别方法肯定也会不断地迭代出新,当前也有一些企业和机构在对AI生成内容的识别做研究,比如:copyleaks提供了人工智能内容检测器、抄袭检测器等,据称国内首个AI生成内容检测工具AIGC-X提供对文本的AI检测,斯坦福大学研究团队提出的DetectGPT通过分析大模型生成的文本在模型的对数概率函数分布情况进行AI生成内容识别。

最后,给出一个生成式内容识别的产品,以及对本文部分内容的识别结果,大家敢兴趣可以试试:

AI内容检测器 ➤ AI生成文本识别 | NeuralWriter


返回:AI生成内容的识别

本文由“公众号文章抓取器”生成,请忽略上文所有联系方式或指引式信息。有问题可以联系:五人工作室,官网:www.Wuren.Work,QQ微信同号1976.424.585