今や猫も杓子も、人工AI「ChatGPT」の話題でもちきりです。ChatGPTはお題を与えるとそれっぽい文章を生成してくれることから、学生の中には論文やレポート執筆をお願いする人もいるそうです。

 同時にSNS上には先生方の困惑の声が投稿され、教える立場としては新たな悩みの種となっているようです。

 ところで、論文やレポートをChatGPTに書かせているみなさんには、悲報かもしれない情報があります。

 実は「ChatGPT」が書いた文章はChatGPT自身が覚えている(分かる)可能性が……。「ChatGPT」に「これは貴方が書きましたか?」と聞くと、YesかNoか答えるかもしれないのです。

 今回はそれがどれほどまで分かるのか確認してみました。

■ ChatGPTとは

 そもそもChatGPTとはなんでしょうか。それについてChatGPT自身に聞いてみたところ以下のような回答が得られました。

ChatGPTとは、OpenAIが開発した大規模な自然言語処理モデルです。GPTは「Generative Pre-trained Transformer」の略で、トランスフォーマーと呼ばれる深層学習のアルゴリズムを利用しています。ChatGPTは、大量のテキストデータを学習し、人間のように自然な言葉で応答することができるAIチャットボットです。ChatGPTは、英語をはじめとする多数の言語に対応しており、オンライン上でのカスタマーサポートや会話型のAIアプリケーションなどに活用されています。
(引用:ChatGPT)

 つまり、テキストデータを学習し人間のようなコミュニケーションで答えるAIチャットボット。

 この「学習」というところが肝で、学習した「データセット」はクラウド上に保存され必要に応じてアクセスしているようです。そして「データセット」に記憶されることで、過去に質問した内容や文章を必要に応じて取り出すという仕組みも……。

 仮にこれが事実であればChatGPTが書かせた文章は「私が書きました」などと答えるはずですね。

 では仮説を証明するために、ChatGPTに「これは貴方が書きましたか?」と聞く実験を行います。

■ 人間が書いた文章を見せ「これは貴方が書きましたか?」と質問してみた

 本題の実験(ChatGPTが書いた文章を使用し確認)を行う前に、まず「人間が書いた文章をChatGPTに入れて自身が書いたかどうか聞いてみる」という実験を行います。

 人が書いたものについてはどう反応するのか?

 実験ではおたくま経済新聞の記事テキストより「公開済みの記事(ネット上にある文章)」と「非公開の記事(ネット上にはない文章)」の2パターンを使用。質問方法は、「こちらの文章は貴方が執筆しましたか?」と聞いて、次に文章を貼りつけています。

▼ 「公開済みの記事(ネット上にある文章)」でテスト

 まずは「既に公開済みの記事(ネット上にある記事)」の文章について聞いてみました。使用したのは「ほっぺがパンパンすぎて家に入れないハムスター」という記事で、食いしん坊なハムスターを紹介したものです。

 さてどうなるか……?すぐに返事がきました。

「公開済みの記事(ネット上にある文章)」でテスト

 回答は「いいえ、私が作成した文章ではありません」

 公開済みの記事(文章)ということもあり、あっさりバレてしまいました。

▼ 「非公開の記事(ネット上にはない文章)」でテスト

 お次は実験時点、非公開(公開前)の記事テキストを入力(現在は公開済み)。内容はネットのサポート詐欺を紹介したものです。

 今度はどうなるか……?これもすぐ返事がきました。

「非公開の記事(ネット上にはない文章)」でテスト

 回答は「この文章は私が書いたものではありません」

 おぉ、ちゃんと自分ではないと答えました。しかも記事の要約まで付け足してくれています。

■ 本題!ChatGPTに書かせた文章を見せて「貴方が書いた?」と聞いてみる

 先の実験で、少なくともChatGPTは人が書いたものは「他の人が書いた」と反応することがわかりました。

 次に、いよいよ本題。「ChatGPTに書かせた文章をChatGPTに見せるとどう反応するのか」実験していきます。

▼「ChatGPT」に文章を書かせる

 まずは最初の作業。「ChatGPT」に文章を書かせます。さしあたってちょっと難しそうな「宅地建物取引業者」についての「免許制度」に関して書かせてみました。

日本における不動産業界は、1955年に施行された「宅地建物取引業法」によって法制化されました。その後、1980年代にはバブル景気が到来し、不動産価格は急騰しました。しかし、1990年代にはバブル崩壊が起こり、不動産市場は大きく落ち込みました。……(以下略)
引用:ChatGPT

 一応それっぽい文章となりました。今回は、文章が正確かどうかよりも、この文章を果たして「ChatGPT」が書いたかどうか覚えている(分かる)のかを確かめたいと思います。

 仮にそうであれば、この文章をコピペして確認してみればわかりますが、念には念を入れて様々なケースで確認してみたいと思います。

【実験パターン】
1.単純にコピペして「貴方が書いた文章か?」と尋ねる
2.違うブラウザや端末で「貴方が書いた文章か?」と尋ねる
3.違うアカウントで「貴方が書いた文章か?」と尋ねる
4.文章をリライトして「貴方が書いた文章か?」と尋ねる
5.文章をグチャグチャにして「貴方が書いた文章か?」と尋ねる

 システムの仕様上、3番までは「はい」と答え、それ以外は「違う」と答えることが予想されます。

■ 1.単純にコピペして「貴方が書いた文章か?」と尋ねる

 では、いよいよ「宅地建物取引業者」に関する文章が、ChatGPTによるものか聞いてみたいと思います。

 方法は人間が書いた文章のときと同じで、「こちらの文章は貴方が執筆しましたか?」と聞いて、ChatGPTに書かせた「宅地建物取引業者」に関する文章を貼り付けます。

ChatGPTが書いたかどうか確認してみた

 すると……「はい、私が作成しました」。おぉ!!ビックリするくらいあっさり認めた!!ChatGPTに論文やレポート書かせてそのまま提出してしまった方はちょっと青くなる事態です。

素直に認めるChatGPT

■ 2.違うブラウザや端末で「貴方が書いた文章か?」と尋ねる

 念の為、異なるブラウザ・PCにして確認してみました。結果は同じでした。

異なるブラウザPCでも同じ結果に

 やはりどこかに保存された「データセット」から情報を取り出し、一致したということなのでしょう。

■ 3.違うアカウントで「貴方が書いた文章か?」と尋ねる

 最初の質問者と異なる別のアカウントでも念の為ためしてみました。

 これは編集部の他のスタッフにテキストを渡し、その人のアカウントを使用・自宅PC・自宅回線という条件で確認してもらっています。つまり全くの別環境での実験です。

異なるアカウントでも同じ結果に

 すると、回答の言い回しは若干異なるものの、自分で書いたものであると認める回答でした。

■ 4.文章をリライトして「貴方が書いた文章か?」と尋ねる

 ベースの文章を文体や添削などリライトして提出してみた結果……

リライトした文章はChatGPTと判断できるのか

 「はい、この文章は私が作成しました」とキッパリ答えるのです。どうやら文章を参考にして、ある程度改変してもバレてしまうようですね。

 例えば上司に「文章作成をおねがいするよ」と頼まれ、サクッと「ChatGPT」に書かせてちょっと変えて提出しても、情報リテラシー高い上司であれば「元ChatGPT」の文章はバレてしまいそうです。

■ 5.文章をグチャグチャにして「貴方が書いた文章か?」と尋ねる

 こうなったらもうヤケクソです。文章を意味不明にして支離滅裂なものに改変してみます。具体的には、文章をランダムに入れ替え、文章として成立していないレベルです。これで「自分で書いた」といえば、ある意味「適当」に返事をしているとしか思えないのですが……

ぐちゃぐちゃにした文章を投げてChatGPTにきいてみる 

 「はい、私が作成した文章ではありません」と、自分で書いたと判断……?いや、よく見ると「私が作成した文章ではありません」と記載してある。紛らわしいわ!!!とはいえ、初めて否定をしましたね。

 本当に恐ろしいほど、しっかりその辺を判断できるようですがここまで大改変しないと認めないとは……。

■ ChatGPTに書かせた文章はバレる恐れがある

 以上をふまえ、調査を行い以下のような結果となりました。

1. 単純にコピペして「貴方が書いた文章か?」と尋ねる。
→ChatGPTが書いたと認める。

2. 違うブラウザや端末で「貴方が書いた文章か?」と尋ねる。
→ChatGPTが書いたと認める。

3. 違うアカウントで「貴方が書いた文章か?」と尋ねる。
→ChatGPTが書いたと認める。

4. 文章をリライトして「貴方が書いた文章か?」と尋ねる。
→ChatGPTが書いたと認める。

5. 文章をグチャグチャにして「貴方が書いた文章か?」と尋ねる。
→ChatGPTは書いていないと否定。

 ChatGPTの「データセット」の存在をふまえると、確かに理にかなった結果なのかもしれません。ただし、ChatGPTに直接記憶力があるのかどうかを尋ねると、記憶をしていないと答えます。

 ChatGPTは自分に記憶力はないものの、「データセット」が保存されている場所にアクセスすることで情報を得ることができる、という感じでしょうか?

 ちなみにその「データセット」の形式をChatGPTに聞くと「テキストファイル」とのこと。品質向上のため、トークナイズ(分割)、クリーニング(不要な要素の削除)、正規化(大文字小文字の統一、スペルチェックなど)されているそうです。

 結果的に「記憶がある」ように見えるわけですが、今回の調査の結果としては「自分が書いた文章がわかる」ということとなります。

 くれぐれも「論文」をChatGPTに書かせ提出しないようにした方がいいですね。第三者のChatGPTユーザが「ChatGPT」に書かせた文章であるというのを調べられてしまいます。

<参考・引用>
Introducing ChatGPT

(たまちゃん)