ワシントン州プルマン – ワシントン州立大学のメセット・チゼク准教授率いる研究チームが行った調査によると,チャットGPTは科学的仮説の真偽を判断する際,不正確かつ不一致な回答を示すことが明らかになりました.研究では,科学論文から抽出した700以上の仮説を提示し,各主張が研究によって裏付けられているかを尋ねるテストが実施されました.同チームは10回ずつ繰り返して実験を行い,2024年の実験ではAIの正解率が76.5%,2025年の再実験では80%に上がりました.ただし,真偽をランダムに推測する場合,50%の確率で正解するため,AIの優位性は両年とも約60%程度にとどまりました.研究者らはこれを「低信頼性」と評価し,AIの判断を過信してはならないと警告しました.
チゼク准教授は「同じ質問を繰り返すと異なる答えが得られるため,正確性だけでなく不一致性も問題です」と述べました.研究結果は『Rutgers Business Review』に掲載され,経営者にAIの結果を検証するよう呼びかけました.チゼク氏は「現時点のAIは世界を私たちのように理解していません.脳を持たず,単に記憶を蓄積し,一部の洞察を提供するだけです」と語りました.研究では2021年以降のビジネス誌に掲載された論文から719の仮説を抽出し,2024年は無料版のChatGPT-3.5,2025年は更新版のChatGPT-5 miniで実験しました.結果は両バージョンで精度に差がなかったとされました.
研究チームは経営者にAIの結果を検証し,懐疑的に扱うよう呼びかけ,AIの長所と短所を教育することを推奨しました.
Twitterの共有: チャットGPTの科学的判断力に懸念 ワシントン州立大が不正確さと不一致を指摘


