AI“測謊儀”面世,比人類更善于發現謊言,準確率最高可達67%

你能分辨出謊言嗎?在最近的各種政治辯論之后,這個問題一直縈繞在很多人的腦海中。研究表明,我們通常不善于辨別謊言。
一些人認為,人工智能可以幫助提高我們的勝算,并且比測謊儀等不可靠的老式技術做得更好。
或許有一天,基于人工智能的測謊系統可以幫助我們從假新聞中找出事實,評估保險索賠,甚至可能發現求職申請中的謊言和夸大其詞。
不過更重要的問題是,我們是否會信任它?以及我們是否應該相信它?
在最近的一項研究中,艾麗西亞·馮·申克(Alicia von Schenk)和她的同事開發了一種比人類更善于發現謊言的工具。
德國維爾茨堡大學的經濟學家馮·申克(von Schenk)和她的團隊隨后進行了一些實驗,以了解人們是如何使用它的。
在某些方面,這個工具很有幫助,使用它的人更善于發現謊言,但這也導致人們提出更多的指控。
在發表在 iScience 雜志上的研究中,馮·申克(von Schenk)和她的同事要求志愿者寫下他們的周末計劃。
參與者可以通過撒謊獲得獎勵,但謊言只能占 50%。例如,他們可以編纂一個可信但不真實的假期計劃,來得到小額的金錢獎勵。該團隊總共收集了 768 人的 1536 份計劃陳述。
然后,他們使用了谷歌的人工智能語言模型 BERT,將其中 80% 的語句用來訓練分辨謊言和真相的算法。
當他們使用余下 20% 的陳述測試該工具時,他們發現它可以在 67% 的時間里成功判斷陳述是真是假。這比普通人要好得多,我們的判斷準確率通常只有 50%。
為了了解人們如何利用人工智能幫助他們發現謊言,馮·申克和她的同事將 2040 名其他志愿者分成了更小的小組,并進行了一系列測試。
一項測試顯示,當人們要花上一筆小錢才能使用這種可以幫助他們發現謊言并獲得經濟獎勵的人工智能工具時,他們就不太愿意使用它。
馮·申克說,只有三分之一的志愿者決定使用人工智能工具,可能是因為他們對這項技術持懷疑態度。她補充道,也可能是他們對自己的測謊技能過于樂觀。
但這三分之一的人真正信任這項技術。馮·申克說:“當你主動選擇使用這項技術時,我們發現人們幾乎總是遵循人工智能的預測……他們非常依賴它的預測。”
這種依賴可以影響我們的行為。通常,人們傾向于認為別人說的是實話。這一點在這項研究中得到了證實,盡管志愿者知道一半的陳述是假的,但他們只標記了 19% 的陳述為謊言。
但當人們選擇使用人工智能工具時,情況發生了變化,謊言的指控率上升到了 58%。
在某些方面,這是一件好事。這些工具可以幫助我們發現更多生活中遇到的謊言,比如我們可能在社交媒體上看到的錯誤信息。
但這并不全是好事。它還可能破壞信任,而信任是人類行為的一個基礎,有助于我們建立關系。如果準確判斷的代價是社會紐帶的惡化,這值得嗎?
還有準確性的問題。在他們的研究中,馮·申克和她的同事只對創造一種在測謊方面比人類更好的工具感興趣。考慮到人類在這方面本就不擅長,這并不難實現。
但在她的設想中,像這樣的工具還可以被用來評估社交媒體帖子的真實性,或者在求職者的簡歷或面試回復中尋找虛假細節。
在這種情況下,如果一項技術會做出更多的指控,那么僅僅“比人類更好”是不夠的。
我們是否愿意接受 80% 的準確率,即每五個陳述評估中只有四個是判斷準確的?如果 80% 不夠,那么 99% 的準確率夠嗎?我不知道。
值得注意的是,過去的測謊技術容易出錯。測謊儀是用來測量心率和其他“喚醒(arousal)”跡象的,因為人們誤認為有些壓力跡象是騙子獨有的,可它們不是。
我們早就知道這一點了。這就是為什么測謊儀的結果通常不被美國法庭所接受。
盡管如此,測謊在某些情況下仍然存在,當它們被用在真人秀節目中時,會對未通過測謊的人造成很大的傷害。
馮·申克說,不完美的人工智能工具將產生更大的影響,因為它們很容易擴大規模。
測謊儀一天只能對一定數量的人進行測謊。相比之下,人工智能測謊的范圍幾乎是無限的。
馮·申克說:“鑒于我們有那么多假新聞和虛假信息在傳播,這些技術是有用武之地的。然而,你需要測試它們,你需要確保它們比人類好得多。”
她表示,如果人工智能測謊儀產生了過多的指控,我們最好的選擇就是不要使用它。



