原文Computing machinery and intelligence

致敬图灵.侵删.

计算机器与智能

模仿游戏

​ 我建议考虑这样一个问题:“机器能思考吗?”要回答这个问题,需先给出术语“机器”和“思维”的定义。虽然可以用尽可能反映其普通用法的方式给出定义,但是这种方式是危险的,因为很难摆脱像用盖勒普调查那样的统计方式得出“机器能思考吗?”的结论及意义,显然这是荒谬的。因此,我不是试图给出这样的定义,而是提出另外一个问题,这个问题和原问题紧密相关,而且是用相对不含糊的词语表达的。

​ 这个新的问题可以通过一个游戏来描述,称之为“模仿游戏”。需要三个人来玩,一个男人(A),一个女人(B)和一个男女皆可的提问者©。提问者呆在一个与另外两人相隔离的屋子里,游戏的目标是提问者要判断出外面哪个是男人,哪个是女人。提问者用标签X,Y指称外面的两个人,游戏结束时,他要说出“X是A,Y是B”或者“X是B,Y是A”。提问者C允许向A和B提出下面这样的问题:

  • C:X,请告诉我你头发的长度。

现在假如X实际上是A,那么A必须回答。A在游戏中的目标是努力使C做出错误的判断,他的回答可以是:

  • 我的头发乌黑发亮,最长的一缕大概九英寸长。

​ 为了排除声音帮助提问者得出结论,问题的答案应该写出来,最好是打出来。理想的安排是,让两个屋子用远程打印通讯,也可以通过中间人传递答案。而B在这个游戏中的任务是努力帮助提问者,她的最优策略可能就是给出正确答案。她可以在她的答案中加入“我是女的,别听他的”这样的话,但是这并不能提供更多的帮助,因为男人A同样也能做出相似的评论。

​ 现在提出这样一个问题,“如果用机器代替A,将会发生什么情况?”同与两个人玩这个游戏相比,提问者判断错误的几率是否发生变化?这个问题取代了原问题“机器能思考吗? ”

对新问题的评价

​ 除了问:“新问题的答案是什么?”还会问:“这个新问题有研究的价值吗?”我们先考察第二个问题,避免进入无限循环。

​ 新问题的优势在于,把一个人的体力和智力完全区分开了。没有任何工程师或化学家宣称能够生产出和人的皮肤完全相同的物质。在未来的某天,这可能成为现实,但是让一个“思维机器”具有如人一般的皮肤对于让它更像人并没有多大的帮助。我们设置问题的方式考虑到了防止让提问者看到、接触到或听到其他的游戏者。所提议的标准的其它优势在下面的样板问题和回答中显示出来:

​ 问:请写一首以Forth Brige (译注:1890建成于英国,开现代桥梁建造的先河)为主题的诗。

​ 答:我无能为力,我从来不会写诗。

​ 问:34957加70764等于多少?

​ 答:(停了三十秒钟后给出答案) 105621。

​ 问:你玩象棋么?

​ 答:是的。

​ 问:我的王在K1,没有别的棋子了,你只有王在K6,车在R1。该你走,你走哪步?

​ 答:(十五秒钟的停顿后)车移动到R8,将军。

​ 这种问答方式似乎适用于我们希望考察人类能力的任何领域。我们不希望因机器不能在选美比赛中取胜而被惩罚,正如我们不希望因人不能在和飞机赛跑中取胜而被惩罚一样,我们的游戏设定让这些无能变得无关紧要,只要参与者认为合适,他们可以吹嘘他们的魅力,力量或勇敢,而提问者不能要求他们做实际的展示。

​ 这个游戏可能会被批评:机器在游戏的成败中占有过多的比重,如果一个人试图装成机器,他的表演显然非常糟糕,他会因为算术上的缓慢和不准确立即出局;机器可能不会做那些被认为是思考的事,与人的方式相差甚远?这个反对意见确实很棘手,但是,尽管如此,我们至少可以说,如果机器被设计得可以令人满意玩这个模仿游戏,那我们不必担心此异议。

​ 有人可能会建议,在玩“模仿游戏”时机器的最佳策略不是模仿人的行为,这是可能的,但我认为这种做法不可能有什么大的影响。在任何情况下,这里都不打算研究游戏理论,并且假定最优策略是努力提供和人一样的答案。

游戏中的机器

​ 只有当“机器”这个词的意义确定下来后,在§1中提出的问题才能明确下来。自然,我们希望允许一切技术都使用在我们的机器上;我们也希望接受这种可能:一个或一队工程师制造出一个可以工作的机器,但是却不能很好的描述其工作方式,因为他们使用了基于试验的方法来设计它;最后,我们希望从机器中排除以通常方式出生的人。要让定义同时满足这三个要求是困难的,例如,你可能会要求这些工程师都是同一性别,但这实际上也是无法满足的,因为通过个人的一个皮肤细胞产生一个完整的个体不是完全不可能的,这将是生物科技具有划时代意义的突破,但我们不会认为这是“建造思维机器”的案例。这就要求我们放弃允许一切的技术的打算,我们更愿意这样,因为目前“思维机器”的研究热点集中在一种特殊的通常被称为“电子计算机”或“数字计算机”的机器上,因此,我们仅仅允许“数字计算机”参加我们的游戏。

​ 此限制第一眼看上去过于严格,我会试图说明事实并非如此。要做到这一点,必须简要说明这些计算机的性质。

​ 人们可能会说:将机器限定在数字计算机,按我们的“思考”标准,如果机器(不能如我所愿)会令人失望,得出结论机器在游戏中不能表现出色。

​ 目前已经有许多数字计算机在工作,人们可能要问:“为什么不拿一台直接作实验?很容易就能满足游戏的要求。让许多提问者同时参加游戏,然后统计出判断正确的概率”。对这个问题的简要回答是:我们并不是要问是不是所有的数字计算机都能在游戏中表现良好,也不是要问现在的计算机中有没有能够通过实验的,而是要问:是否存在可想象的计算机能够通过游戏。这仅仅是一个简要回答,我们稍后将以不同的眼光看待这个问题。

数字计算机

​ 数字计算机背后的思想可以解释成,旨在执行任何可以通过人计算而完成的操作。一个计算员应该严格遵守规则,没有一点偏离规则的权力。我们可以假设这些规则写在一本书上,每次被分配新的任务时,将会改变执行步骤。他有无限的纸进行计算,也可以用“台式机器”进行乘法和加法运算,但这并不重要。

如果使用上述解释定义数字计算机,可能陷入循环论证,为此我们通过概述预期达到的效果来避免。一个数字计算机通常由一下三个部分组成:

  • (i)存贮器
  • (ii)执行单元
  • (iii)控制器

​ 存储器用来存贮信息,对应于计算员的纸,既在纸上计算,也在纸上记录计算规则。至于说计算员进行心算,那么一部分存储器将对应于他的记忆。

​ 执行单元是一次计算中各种操作进行的地方,这些操作随着机器而变化。通常相当长的操作可能是:“3540675445乘以7076345687”,但是一些机器可能只执行“写下0”一类的简单操作。

​ 上面曾经提到计算员的“规则书”由机器中的一部分存储器代替,不妨把它们称为“指令表”。控制器的功能就是保证指令按照正确的顺序执行,其设计使得这成为可能。

​ 存储器中的信息通常被分解成大小适中的数据块,例如,在一个机器中,一个数据块由十个十进制数组成,数据以某种系统方式被分配到存储单元中。一个典型的指令可以是:

  • “把存放在6890的数加上存放在4302的数,并把结果存入后面单元。”显然,此指令不会用英语表达,更有可能编码成6809430217这样的形式,这里,17表示对这两个数进行哪个操作,在此就是“加法操作。。。” 请注意,指令共占用了10个数字,因此正好是一个数据块,非常方便。控制器保证指令按照它们的存储顺序被执行,但是偶尔会碰到这样的指令:

  • “现在执行存储在 5606的指令,并从那里继续执行。”或者是:“如果 4505位置是0,那么执行存储在6707的指令,否则继续”。

​ 后面这种指令非常重要,因为它能重复执行一段指令直到满足某种条件,但不是通过每次改变指令来做的,而是一遍又一遍执行相同的指令。可以类比家庭生活:如果妈妈想让汤姆每天上学时都到修鞋匠那里看看她的鞋是不是修好了,妈妈可以每天都告诉他一遍;另一种方式是,在一个汤姆每天上学都能看到的地方贴个便条,告诉他到鞋匠那里去看一下,当汤姆拿回鞋时,就撕掉那个便条。

​ 读者必须接受数字计算机可以而且事实上就是按照我们所提出的原则建造的,几乎完全能够模仿一个计算员的行为。

​ 当然,上面描述的计算员所使用的规则书仅仅是一个方便设想,实际中计算员记住他要做什么。如果一个人想让机器模仿计算员执行复杂的操作,他必须告诉计算机如何做,并把结果翻译成某种形式的指令表。这种构造指令表的行为通常被称为”编程”,“给一个机器编程使之执行操作 A”,意味着把合适的指令表放入机器以使它能够执行A。

​ 数字计算机的一个有趣变化是“带有随机元素的数字计算机”,它们有特定的指令进行掷色子或者别的等价电子过程,例如一个指令可能是“掷色子并把结果存入 1000。”有时这样的机器被描述为具有自由意志(尽管我自己并不使用这种表达)。通常并不能通过观察判断出一个机器是否有随机元素,因为一个相似的效果可以依据Pi的小数部分进行选择来产生。

​ 大多数现实中的数字计算机仅有有限的存储空间,让一个计算机具有无限的存储空间并不存在理论上的困难,当然在任何时候都只有有限的部分被使用。同样,只有有限的存储空间被建造,不过我们可以想象越来越多的存储空间可以根据要求添加。这样的计算机具有特殊的理论价值,将被称为无限容量计算机。

​ 有关数字计算机的设想很早就产生了。1828至1839年担任剑桥大学的Lucasian数学教授的Charles Babbage(查尔斯.巴贝奇)设想了这样的机器,并称之为分析机,但是并没有实现。尽管 Babbage有了所有的关键思想,他的机器在那个时代却没有吸引人的前景,它能够达到的运算速度肯定比一个计算员要快,但仅相当于曼彻斯特机的百分之一,而曼彻斯特机也是现代计算机中相当慢的一个,分析机的存储全部由用轮子和卡片组成的机械实现。

​ 事实上,全部由机械实现的Babbage分析机帮助我们破除了一个迷信。现代数字计算机是电子的,神经系统也是电子的,这一事实常常被过份强调了。既然Babbage的机器没有使用电,而所有的数字计算机在某种意义上都是等价的,那么我们就会明白是否使用电在理论上并不重要。当然,通常高速运算需要电,因此,我们就会发现在这些地方使用电是理所当然的。在神经系统中,化学过程至少和电过程同样重要,某些计算机的存储器主要基于声学原理,计算机和神经系统都使用电仅仅是表面的相似,如果我们希望寻找这样的相似,倒不如寻找功能上的数学相似性。

数字计算机的通用性

​ 上章考虑的数字计算机可以被归类为“离散状态机”,这类机器可以从一个确定状态向另一个状态突然跳变。为了不会有混淆这些状态的可能,它们之间要有足够的差别。严格的说,这样的机器是不存在的,一切事件实际上都是连续变化的,但是有许多种机器能够被看作离散状态机器。例如在照明系统中的开关,我们可以把开关看成只有开和关两个状态,它们之间肯定有中间状态,但是在绝大多数情况下可以忽略它们。作为离散状态机器的例子,我们可以考虑一个每秒转120度的轮子,这个轮子可能因一个杠杆的阻挡而停下来,在轮子上有一个发光的灯。这个机器可以被抽象的描述为下面的形式,机器的内部状态 (通过轮子的位置来描述(可以是q1,q2和q3,输入信号是i0或i1(杠杆的位置)。任何时候的内部状态可以根据上一次状态和输入信号由下表描述:

​ 输出信号可以用下表描述,它是唯一能够被外部观测的内部状态指示器。

​ 这个例子是一个典型的离散状态机,只要它们的状态是有限的,就可以用这样的表格描述。

​ 可以看出,只要给出初始状态和输入信号,所有的未来状态都是可以预测的,这让我们想起了拉格朗日的观点,那就是,只要给出宇宙中任意时刻所有粒子的位置和速度,就能够预知未来的所有状态。我们考虑的预测和拉格朗日相比较更接近于实用性。“宇宙作为整体”的系统,只要初始条件的一个很小的误差,就会引起系统以后颠覆性的效应,某个时刻一个电子位置的亿万分之一厘米的偏移,将决定一个人会在雪崩中死去还是逃生。我们称之为“离散状态机”的机械系统的一个基本特性是,这样的现象不会发生。即使是考虑实际的物理机器而不是理想机器,只要知道了某个时刻状态的合理准确的信息,就可以相当准确的预测未来状态的信息。

​ 正如我们所提到的,数字计算机属于离散状态机,但是这样的机器所能够达到的状态通常是相当大的,例如,现在在曼彻斯特工作的机器可以有2165000个状态,也就是大约1050000。而上面描述的轮子,仅有三个状态。找到有如此多状态的原因并不困难,计算机具有一个存储器,对应于计算员的纸,这些存储器中应该能够写入任何能够写入计算员所用纸上的符号。为了简单起见,假设仅仅用从0到9的数字作为符号,忽略手写体的差别。假如计算机具有100张每张50行,每行30个数字的存储空间,那么状态的数目就会是10(100*50*30),即10150000,这大约是三个曼彻斯特机状态的总和。状态数的基数为2的对数通常被称为机器的“存储大小”,因此曼彻斯特机的存储大小是165000,而上面例子中轮子的存储大小是1.6。如果两个机器加在一起,他们的存储大小应该是原来存储大小的和。因此我们可以说“曼彻斯特机具有64个磁带存储器每个存储器的大小是2560,还有8个电子管,每个容量为1280。各种各样存储器加在一起大约是300个,总共174380。”

​ 只要给出对应于离散状态机器的表格,就能够预测出机器将会做什么。没有理由这样的计算不能通过数字计算机来完成,只要运行足够快,数字计算机就能够模拟任何离散状态机的行为。这样,模仿游戏就变成在当前机器(B)和数字计算机(A)之间进行,而提问者就不能区分它们。当然,数字计算机除了运行足够快,还必须有足够的存储空间,而且模仿不同的机器之前必须被重新编程。

​ 数字计算机可以模拟任意离散状态机器的性质被表述为“通用机器”,具有这样性质的机器带来一个重要结果就是,若不考虑速度,并不需要设计出不同的新机器来执行不同的计算,它们都可以用一个数字计算机来实现,只要根据情况适当编程。由此可见,所有数字计算机在某种意义上是等价的。

​ 我们现在可以重新考虑在第三章末尾提出的问题,暂时把问题“机器能思考吗?”用“是否存在在模仿游戏中表现出色的可想象的数字计算机?”代替,如果愿意,我们还可以问“是否存在表现出色的离散状态机?”,但是从通用性的角度,我们可以看出这两个问题都等价于“让我们把注意力集中在一个数字计算机C上,如果我们可以让其具有足够大的存储空间,足够快的计算速度,而且对它进行适当的编程。C扮演角色A,人扮演角色B,C能不能在模仿游戏中表现出色?”

关于主要问题的对立观点

​ 现在我们可以认为基础清理好了,准备就“机器能思考吗?”及上一章结尾的引申问题展开辩论了。我们并不能完全放弃问题的原始形式,因为对所替代的问题的合理性会有不同的意见,我们至少应该听取这方面的意见

​ 如果我先解释自己的信念,会让读者觉得简单些。首先让我们来看看这个问题更确切的形式,我相信,大约50年后计算机的存储量可达到10^9左右,使得在模仿游戏中会表现更好,这样以来一般提问者在提问5分钟后,能准确判断的概率不会超过70%。我认为,原来那个“机器能思考吗?”的问题就没有什么意义,不值得讨论了。尽管如此,我认为本世纪末,由于语言和一般受教育观点会改变,那时候人们又能重新谈论机器思维而不感抵触。我还认为,掩盖这些信念不会有益处,人们普遍认为,科学家进行科学研究工作总是从可靠的事实到可靠的事实,从来不受任何未经证明的猜想所影响,这种看法实际上是错误的,只要能清楚地划分哪些是经过证明的事实,哪些是猜想,就不会有害处。猜想往往是非常重要的,因为它们提示有用的研究线索。

​ 现在我来考虑与我的看法相对立的观点。

(1)来自神学的异议

​ 思维是人类不朽灵魂的一个功能,上帝赋予每个男人和女人一颗不朽的灵魂,但从未将它赋予任何其他的动物或机器。因此,动物或者机器不能思考。

​ 尽管我不能接受这种观点,但我试图用神学的语言来回复。如果将动物和人划为一个类别,我认为这个观点更有说服力,因为在我看来,生物与非生物之间的差别远远要比人和其他动物之间的差别大得多。如果站在其他宗教团体成员的立场看,这种正统观点的武断性会更明显。伊斯兰教认为妇女没有灵魂,基督教对此有何感想?但是,现在暂不管这一点,让我们回到问题的焦点上来。在我看来,上面所引的论点对上帝威力的万能性有很大的限制。承认上帝对有些事情也是无能为力,比如,他不能让1等于2,但是难道我们不应该相信,如果上帝觉得合适,他完全可以赋予一头大象以灵魂吗?我们可以期望上帝通过自己的威力产生变异,让大象有了一个较发达的大脑,用来满足灵魂的需求。形式相似的论点也可以用在机器上,这可能看起来不同,因为更难以“下咽”,但这只是说明上帝认为这些环境赋予灵魂不太合适,有关情况我们将在本文的其余部分讨论。在企图制造这样的机器时,我们不应该无礼地篡夺上帝创造灵魂的权力,就像不应该剥夺我们生儿育女的权力那样。在两种情况下,我们其实都是上帝意志的工具,为他所创造的灵魂提供住所。

​ 然而,这只是猜测,不管用什么神学的论据来证明,我仍不以为然。过去已经证明这样的论据漏洞百出,在伽利略时代,有人提出,“太阳一动不动地悬着……整天都不慌不忙,不想落下”(《约书亚书》,10。13)以及“他为大地奠定基础,使它不随时间移动”(《诗篇》,105。5)这些经文正好用来驳斥哥白尼的理论。从我们今天的知识来看,这种论据是徒劳的。当这些知识不再适合时,情况便大不一样了。

(2)“鸵鸟”式的异议

​ “机器思维后果太令人恐惧了,但愿机器不会思维。”这种观点不如上面的说法那样直言不讳,但对我们许多人有影响。我们都倾向于认为人类以某种微妙的方式比其他生物优越,要是能证明人一定是高一等的,那再好不过了,因为那样一来,就没有失去高居一切之上的地位的危险。神学论点的流行明显与这种情绪密切有关。这种看法在知识分子中会更强烈,因为他们比其他人更看重思维的力量,更倾向于相信人类在这方面能力上的优越性。

​ 我认为这个论点不足以反驳,安慰会更合适:也许这应该在灵魂轮回说中寻找。

(3)来自数学的异议

​ 数理逻辑中的一些结果可以用来指出离散状态机器能力的局限,其中最著名的就是哥德尔定理,此定理声称,在任何充分的逻辑系统中都能形成陈述,在本系统中既不能被证真,也不能被证伪,除非这个系统本身就是不一致的,丘奇、克利、罗瑟和图灵等人也得到了相似的结果。图灵的结果最容易理解,因为直接涉及机器,而其他人的结果相对来说是间接的:比方说,如果使用哥德尔定理,我们还需要某些附加手段,通过机器来描述逻辑系统,而描述机器又需要通过逻辑系统。此结果涉及一种机器,实质上是一台通用数字计算机,即使是这样一台机器,对有些事情也是无能为力的。如果计算机被设计成能在模拟游戏中回答问题的话,对有些问题要么给出错误的答案,要么答不上来,不管给它多长时间。当然,存在着许多这样的问题,但是也存在着尽管这台机器回答不了,但另一台机器却能给予满意回答的问题。我们现在假定,只要回答“Yes”或“No”,而不是“你认为毕加索怎么样?”这类问题。我们知道机器必定无法回答的问题是下述这类问题:“考虑有以下特点的机器。。。这台机器会不会对任何问题作出‘Yes’的回答?”这里省略的是如§5中对某台标准形式机器的描述。如果所描述的机器与那台被提问的机器具有某些相对简单的联系,那么,我们就能知道,答案不是错了,就是没有答案。这就是数学的结论:此结论认定机器能力有限,而人类智能则没有这种局限性。

​ 对这个论点的简短答复是,尽管已经确定任何特定机器的能力都存在限制,但人的智能不受限制,仅仅被陈述,并没有任何证明。我认为这个论点不能就这么轻易驳回,每当一台这样的机器被问及适当的关键问题,并给出确定的答案,而我们知道此答案一定是错的,我们无疑会产生一种优越感,这种感觉是错觉吗?毫无疑问,这是真实的,但我认为不应该过分重视它。我们自己经常会回答错一些问题,却会对机器的错误而沾沾自喜。而且,我们的优越感来自对付一台机器,但我们无法同时对付所有的机器而且不出差错。总而言之,人可能比任何特定的机器聪明,但是可能有更聪明的其他机器,等等。

​ 我认为,坚持数学论证的人大多愿意接受模仿游戏作为讨论的基础,那些相信前两个反对意见的人可能对任何标准都不感兴趣。

(4)来自意识的论点

​ 这个论点在Jefferson教授于1949年的Lister演说中有很好的表达,我引用他的一段话:“若要我们承认机器等同于大脑,除非机器能够因为感受到思想与情绪,而不是偶然碰到符号涂写十四行诗或协奏曲。也就是说,它不仅写了,而且知道自己写了。任何机器都感觉不到(不只是人工信号,一个简单的图谋)成功的喜悦,保险丝跳闸的沮丧,被奉承而沾沾自喜,因犯错误的痛苦,被X爱所迷惑,也不会因欲望得不到满足而生气或沮丧。”

​ 这个论点看上去否定了我们测试的有效性。按照这种观点的最极端形式,一个人确信机器思维的唯一途径就是成为那台机器,自己去感受思维活动,然后向世人描述这种感受,但是当然不会有人被证实。同样,依照此观点,要想知道某人是否在思维,唯一的途径就是成为那个人,这实际是唯我论的观点,这也许是所持的最有逻辑的观点,但若真是这样,那思想交流就太困难了,A相信“A在思考,而B不在思考”,而B相信“B在思考,而A不在思考。”与其为此争执不休,不如客气认为大家都在思考。

​ 我肯定Jefferson教授并不希望采纳极端和唯我论的观点,他也许愿意接受模拟游戏作为一个测试。模拟游戏(省略了游戏者B)在实际中经常采用“口试”的方式来发现某人是真的理解某事,还是“鹦鹉学舌”。让我们听听这种“口试”的一部分:

  • 询问者:你的十四行诗的第一行,“我欲比君为夏日?”若将“夏日”改成“春日”,是否更好?

  • 见证人:这样就不押韵了。

  • 询问者:改为“冬日”呢?这样会押韵。

  • 见证人:可以,但是没有人愿意被比作冬日。

  • 询问者:你说Pickwick先生让你想到圣诞节了?

  • 见证人:某种程度上。

  • 询问者:然而圣诞节是冬天的一天,我认为Pickwick先生不会在意这个比喻。

  • 见证人:我认为你在开玩笑,冬日是指一个典型的冬日,而不像圣诞节那样特殊的一天。

​ 不再赘述。如果那台写十四行诗的机器在“口试”中能够这样对答,Jefferson教授会作何感想呢?我不知道他会不会把机器的那些答复当作“人工信号”,但是,如果这些答复如上面所引的那样令人满意并且持续下去,我认为他不会将其形容为“简单的设计”。“简单的设计”是说用来播放一个人念十四行诗的录音,并可适时开关。

​ 总之,我认为大多数支持来自意识方面异议的人会被说服而放弃原来的主张,不致于陷入唯我论的困境,这些人因此也就有可能愿意接受我们的测试。

​ 我不想给人留下这样的印象:我认为关于意识的事情没有神秘感。例如,存在着与任何企图捕捉意识有关的悖论,但我认为在我们能够回答我们在本文中关注的问题之前,并不一定要解决这些谜团。

(5)来自各种能力限制的论点

​ 这些论点表述如下:“我担保,你可以让机器做任何你提到的事情,可你永远也不能使一台机器有X类特征。”这样的特征有许多,这里我列举若干:善良,机智,美丽,友善,有创新精神,富于幽默感,明辨是非,犯错误,坠入爱河,享受草莓和奶油,让某人爱上它,从经验中学习,恰当使用词汇,成为自己思想的主人,像人一样有多样的行为,做一些真正新颖的事情(其中一些能力限制在标出的页码处有特别的考虑)

​ 这些陈述通常未经证明,我相信它们大多是以科学归纳的原则为基础的。一个人一生中见过数千台机器,由此得出一般结论:它们形态丑陋,应用范围狭窄,只要范围略有变动,就束手无策,行为变化也小,等等。他很自然认为,这就是一般机器的必备特征。大部分机器的能力限制与机器存储量大小有关(我假设,存储量这个概念不仅仅限于离散状态的机器,还涉及到别的机器,既然目前讨论还不需要讲究数学的准确性,定义准确就不那么重要)。数年前,由于很少提及数字计算机,要是你光说其特征而不提其构造,就会以为你在信口开河。我想这也是因为人们使用了科学归纳原则的结果,这些应用很大程度上是无意识的。当一个被火烫过的小孩害怕蜡烛,从而回避蜡烛,我认为他这就是在使用科学归纳(当然,我也可以用许多别的方式来解释这一现象)。人类的行为和习惯是乎并不适合运用于科学的归纳法。如果你想获得可靠的结果,就要对大部分时空进行研究,否则我们会(像大多数英国儿童一样)以为世界上所有的人都讲英语,学习法语就很愚蠢。

​ 然而,关于刚才提到机器的许多能力限制,还要特别说几句,说机器没有能力享受草莓和奶油,会使读者觉得有点轻率。我们有可能使机器喜欢这些美味,但任何强迫这样做的企图都是愚蠢的。值得重视的是,这种能力限制会对解释其他能力限制有帮助,比如,难以使人与机器之间形成那种像白人与白人之间,或是黑人与黑人之间的友好情感。

​ 宣称“机器不能犯错误”,似乎是一个奇怪的说法,我们不禁要反问,“这样会更糟吗?”让我们抱持更加同情的态度,来看看这究竟是什么意思。我认为可以用模仿游戏来解释这种批评。有人声称,在游戏中提问者简单问几道算术题就能分辨出哪个是机器,哪个是人。由于极高的精确性,机器会屏蔽。对此回复很简单,(编程用于玩游戏的)机器不会试图给出算术问题的正确答案,而是故意算错,以蒙骗提问者。机器由于机械故障,会在做算术题时出现错误而作出不妥当的决定,因而暴露了自己。即使这种批评不太有同情心,但是限于篇幅不可能进一步讨论。在我看来,这种批评源于混淆了两个不同性质的错误,这两个错误我们称之为“功能错误”和“结论错误”。功能错误是由某些机械或电器故障引起的,这些故障导致机器不能够按照指令工作。在进行哲学讨论时,我们希望忽视发生这种错误的可能性,这样的话,我们实际上是在谈论“抽象的机器”,而这些抽象的机器与其说是实在的物体不如说是数学的虚构。从定义上讲,我们完全可以这么说:“机器从不差错。”只有当机器的输出信号有一定的含义时才会出现结论错误。比方说,机器能够自动打出数学方程或英语句子。当机器打出一个错误的命题时,我们就认为这台机器犯了结论错误。很明显,找不到丝毫理由说,机器从不犯这类错误,一台机器有可能别的什么也不能做,只会连续打出“0=1”。举一个不太反常的例子,可能有通过科学归纳得出结论的方法,但这种办法有时无疑会导致错误的结果。

​ 有人说,机器不能成为它自己思维的主体,如果能证明机器的某些思维是有主体的话,就能驳回这种说法。尽管如此,“机器操作的主体问题”确实有点意义,至少对于研究它的人来说是这样的。比如,如果一台机器试图解 X2-40X-11=0这个方程式,我们不禁会认为,这时,这个方式本身就是机器主体的一部分。从这种意义上说,机器无疑能够成为它自己的主体。这对编排它自己的程序,对预测因本身结构变化带来的后果都会有所帮助,机器能够通过观察自己行为的结果,修改自己的程序,以便更有效地达到某种目的。这并不是乌托邦式的空想,而是不久的将来可能办到的事。

​ 有人批评说,机器的行为比较单一,这也就是说,机器不能够有很大的存储能力,直到最近,达到1000字节的存储量都很罕见。

​ 我们这里考虑的批评,实际上都是来自意识的那个异议的改头换面。通常,如果我们坚持认为,一台机器有能力做完其中的一件事,并对机器所能采用的方法进行描述,不会给别人多深印象,人们会认为机器所使用的方法(不管是什么方法,总是机械性的)实在太低级了,请参见前面所引Jefferson演讲中括号内的话。

(6)Lovelace夫人的异议。

​ 关于Babbage分析机最详细的信息来自Lovelace夫人的回忆录,她写道:“分析机没有任何创作的意图, 它可以做我们知道如何指挥它的任何事”(她的斜体),Hartree引用了这段话(第70页),并补充道:“这并不意味着就无法制造能‘独立思考’的电子设备,用生物学的话说,我们能够在其中建立条件反射,用来作‘学习’的基础。此设想在原则上否可行,是一个令人刺激和兴奋的议题,但当时制造的机器是乎还不具备此特点。

​ 我完全同意Hartree的看法,值得注意的是,他并没有断言当时的机器不具备这个特点,而是指出洛夫莱斯夫人所能获得的证明还不足以使她相信这些机器已具备了这个特点。从某种意义上讲,这些机器很有可能已具备了这个特点,因为,我们设想某些离散机器有这个特点,分析机实际上是一台通用数字计算机,因此如果它的存储能力和速度达到一定程度,就能通过适当的编程模仿我们讨论的机器,也许伯爵夫人或Babbage都没有想到这一点。无论如何,他们没有义务陈述所有能陈述的事物。

​ 整个问题将在学习机器的标题下再次考虑。

​ 洛夫莱斯夫人的异议还有另外一种说法,即机器“永远不能创新”,这种说法可以用谚语“太阳底下无新事”抵挡一阵。谁能保证,他的“独创性工作”不是通过教育让身上的种子成长的结果,或者不是因循著名的普遍原则的结果?此异议还有另一个稍好的说法,即机器永远也不能“让我们吃惊”,这种说法是一个可以直接回应的更直接的挑战。机器经常令我吃惊,这主要是由于我对机器能做什么估算不足,更确切地说是由于即使我做了估算,也匆忙粗糙。我也许这样对自己说:“我认为此处的电压应与彼处相同:不管怎样,就假设一样吧。”自然我经常出错,结果我大吃一惊,一旦实验完成,这些假设就被忘得了。我坦诚自己这样的错误,我证实了所经历的吃惊,但人们并未失信于我。

​ 我的回答并不会使批评者就此缄口沉默,他也许会这样做,所谓吃惊都是因为我自己富于想象力的心理活动,与机器本身毫不相干。这样,我们重又回到来自意识的那个论证上去,而背离了吃惊不吃惊的话题。我们不得不认为这种论证方式是封闭式的,但是,也许值得一提的是,要将某事物认作令人吃惊,则需要许多“富于想象力的心理活动”,不管这件令人吃惊的事件是由一个人、一本书、一台机器还是其他任何东西引起的。

​ 我相信,那种认为机器不会令人吃惊的观点,是哲学家和数学家特别关注的一个谬误。它是这样一个假设,即心灵一接受了某个事实,由此事实所引起的一切后果都会同时涌入心灵。在许多情况下,这种假设十分有用,但人们太容易忘了这是个错误的假设,如果照这样做的话,其必然结果就是认为,仅仅从数据和普遍原则得出结论会毫无效力可言。

(7)来自神经系统连续性的论点。

​ 神经系统当然不是离散状态机器,撞击神经元的神经脉冲规模信息一个小的误差,就可能导致输出脉冲规模信息的很大差别。既然如此,就可以论证:不能期望用一个离散状态系统去模仿神经系统的行为。

​ 离散状态机器肯定与连续机器有别,但是如果我们遵循模拟游戏的条件,提问者就无法利用这种差异。如果我们考察一下其他一些更简单的连续机器,情况会变得更加清晰。一台微分分析机就足以胜任了(微分分析机是一种用作非离散状态计算的机器),有些机器能打出答案来,所以可以参加模拟游戏。一台数字计算机不可能猜准微分分析机对一个问题究竟作何答复,但它却能给出正确回答。比如,如果你要它回答π的值是多少(实际上约等于3.1416),它就会在3.12,3.13,3.14,3.15,3.16之间作随机选择,其选择概率依次分别为(比方说)0.05,0.15,0.55,0.19,0.06。这样的话,提问者就很难分辨微分分析机与数字计算机。

(8)来自行为非形式化的论点

​ 不可能制定一套旨在描述一个人在每种情况该做什么的规则,比方说,可能有这样一条规则:行人见到红灯止步,见到绿灯行走,但是,如果由于某种错误红绿灯同时亮了,该怎么办?我们也许会这样决定,为安全起见最好止步,但稍后这个决定还会有其他问题。试图提一套考虑到各种可能性的行为规则,即使是如红绿灯,似乎都是不可能的。对此我完全同意。

​ 由此可见,我们不能成为机器。我会尽力重现此论证,但我担心很难做到公正。似乎可以这么说: “如果每个人都有一套行动规则来调控其生活,那么他与机器就相差无几了。但不存在这样的规则,因此人不能成为机器。“这里不周延的中项显而易见,我认为没人这样论证过,但实际上用的就是这样的论证。然而,“行为规则”和“行为规律”之间可能存在一定的混淆,所谓“行为准则”,我是指诸如“见到红灯止步”这样的规则,你能采取行动,并意识到;而所谓“行为规律”则是指用于人体的自然法则,例如“如果你捏他,他会叫”。如果我们在引用的论据中用’规范他的生活的行为规律’来替代’规定他的生活的行为规则’,那么,这个论证中的不周延的中项就不再是不可克服的了。因为我们认为,受行为规律调控意味着人就是某种机器(尽管不一定是离散状态机器),而且反过来说,这样的机器意味着受这样规律调控。然而,我们很难轻易地说服自己,不存在完备行为规律,就像不存在完备行为规则一样。我们知道,找到这些规律的唯一方法是科学观察,而在任何情况下都不能说“我们已充分寻找过了,不存在这样的规律。”

​ 我们可以更有力地证明这种说法不合理,假定存在这种规律,我们肯定能够找到。然后给定一个离散状态机器,应该有可能通过观察找到规律,预测其未来行为,在合理的时间内,比如说一千年。 但似乎并非如此,我在曼彻斯特电脑上安装了一个只有1000个存储单元的小程序,其中配备有一个十六位数字在两秒钟内作出回答。我绝对不相信任何人仅从这些回答中就能充分了解这个程序,能对未试值预测回答。

(9)来自超感官认知的论证。

​ 我假设读者熟悉超感官知觉的概念,其四种方式为:心灵感应、千里眼、先知和心理动力。这些令人不安的现象似乎否认了一般的科学观念。我们多么想怀疑它们!不幸的是统计证据至少对心灵感应是压倒性支持的。人们很难重新调整自己已有的观念以接受这些新事物,一个人一旦接受了这些事物,就离相信鬼魂不远了。走向此方向的第一步是,相信我们的身体除了按照已知的物理学规律运作外,还按照未知的、但相似的规律运作。

​ 在我看来这是一个十分有力的论点。一个人可以这样回答,许多科学理论尽管同超感知觉有冲突,但实际上还是可行的;事实上,人若是对这些现象置之不理,依然能活得很好。这是一种甚为冷漠的安慰,人害怕思维与超感知觉现象可能有特殊的关系。

​ 基于超感知觉的更具体的论证大致如下:“让我们来玩模拟游戏,让一个善于接受心灵感应的人和一台数字计算机作参赛。提问者可以问‘我右手中的那张牌是哪个花色?’这样的问题。具有心灵感应或千里眼的人在400张牌中可以答对130张,而机器只能随机猜测,可能答对约104张,因此提问者就能正确的判断了。”这里开启了一个有趣的可能性。假使这台数字计算机有一个随机数字生成程序,那么,我们很自然就会用这个程序来决定给予什么回答。但是,这个随机数字生成程序又受提问者的精神运动的影响,这个精神运动也许就能让计算机猜对的次数比概率计算高,于是提问者就无法作出正确的判断了。而另一方面,提问者也能通过千里眼,不用提问就猜对。有了超感知觉,什么样的事都会发生。

​ 如果允许心灵感应介入模拟游戏,我们就有必要严格规定测试方式。此情景就好比在模拟游戏中,提问者在自言自语,参赛者正贴墙侧耳倾听。要是将参赛者置入一间“防心灵感应室”,就能满足所有要求。

学习机器

​ 读者会猜测我没有令人信服的正面论据来支持我的观点,否则,我就不会花费那么多精力来指出那些异议中的谬论。现在我就给出这样的证据。

​ 让我们暂时回到 Lavelace 夫人的异议,她认为机器只能做我们告诉它做的事,可以说,人给机器"注入"一个想法,机器在某种程度上反应,最后又重新静止,就像一个被锤子敲击的钢琴弦一样。另一个比喻就是一个低于临界体积的原子堆:输入的想法就像从原子堆外部轰击的中子,每个中子会引起一些反应但是最后将逐渐消失。然而,如果原子堆的大小变的足够大的时候,中子产生的反应很可能会持续的增加,直到原子堆解体。思维中是否存在这样的现象呢?机器中呢?这样的现象在人脑中应该是存在的。绝大多数思想都处于"亚临界"状态,对应于处于亚临界体积的反应堆,一个想法进入这样的思想中,平均下来只会产生少于一个的想法。有一小部分思想处于超临界状态,进入其中的想法将会产生二级三级越来越多的想法,最终成为一个完整的"理论"。动物的头脑显然是处于亚临界状态的。由于这种相似性,我们不得不问:“一个机器能不能做成超临界的?”

​ "洋葱皮"的比喻也有用。在研究思维或大脑的功能的时候,我们发现一些操作完全可以用纯机械的方式解释,我们说这并不符合真正的思维。但是在剩下的部分,我们发现还有洋葱皮需要剥除,一直这样下去。用这样的方式,我们是否能够达到真正的思维,或者最终发现皮里面什么也没有了?如果是后一种情况,那么整个思维都是机械的。(但它不是一个离散状态机,我们已经做了说明)

​ 上面两段并没有提供令人信服的论据,倒不如称作“为了产生信仰的背诵"。

​ 为第六部分开始时提出观点给出真正令人满意的支持,只能等到本世纪末再进行所描述的实验了。但是在此期间我们可以说些什么呢?如果实验将来会成功,我们现在应该采取什么步骤?

​ 正如我所解释,问题主要是编程,工程上的进步也是必要的,但所需不被满足的可能性似乎不大。估计大脑的存储能力在1010到1015之间,我倾向于下界,而且认为只有一小部分用来进行高级的思考,其余大部分用来保存图像。在模仿游戏中对付一个盲人,若所需要的存储量超过109,会让我惊讶(注:大英百科全书第11版的容量为2*109),即使采用现有技术,10^7的存储量也是完全可行的,也许根本不需要提高机器的运行速度。被视为模拟神经细胞的现代机器,其速度比神经细胞快1000倍,这在许多方面可以为补偿速度的损失提供“安全余地”,剩下的问题主要就是如何编程让机器能够完成游戏。按照我现在的工作速度,我一天大概能编1000字节的程序,所以大约60个工人在未来50年稳定工作,并且没有东西扔进废纸篓,就可以完成这项工作。似乎需要一些更快捷的方法。

​ 在试图模拟成人大脑的过程中,我们必须考虑大脑是怎么进入状态的,有三点:

  • (a)大脑的初始状态,即出生时的状态。

  • (b)大脑所接受的教育。

  • ©大脑所经历的经验,此经验不被称为教育。

    与其试图编程模拟成人大脑,不如模拟儿童大脑,如果让儿童大脑接受正确的教育课程,就可能获得成人大脑。儿童大脑大概就像一个刚从文具店买来的笔记本,只有简单的机制和许多空白的纸张(机制和写字在我们看来几乎同义),我们希望儿童大脑中的机制足够少使得容易编程。我们可以假设对机器进行教育的工作量和教育一个人类儿童基本相当。

​ 于是,我们把问题分为两部分:儿童程序和教育过程,两者密切相关。我们不能指望一下就找到一个好的儿童机器,我们必须对一个这样的机器进行教育试验,看其学习效果,然后再试另外一个,判断哪个更好。显然这个过程与进化有联系,通过这样类比:

  • 儿童机器的结构 = 遗传物质

  • 儿童机器的变化 = 变异

  • 试验者的决定的判断 = 自然选择

​ 然而,人们可能希望这个过程比进化更快,适者生存是衡量优势的一种较慢的方法,试验者的决定通过智能实验将会加快这一过程。同样重要的是,并不需要局限于随机的变异,如果能够找出某些缺陷的原因,就可能想到改进它的变异。

​ 对机器不可能应用与儿童完全相同的教学过程,例如,它没有腿,因此就不会被要求出去装煤斗;它也可能没有眼睛。但是不管聪明的工程师采取何种方法克服这些缺陷,只要这样的机器被送进人类的学校,其他的学生肯定会嘲笑它,它必须得到专门地训练。我们不比太注意腿眼等等,海伦.勒女士的例子表明只要老师和学生能够以某种方式进行双向的交流,教育就能进行。

​ 我们通常将惩罚和奖励与教学过程联系在一起,一些简单的儿童机器可以按照这种原则来构建或编程,使得遭到惩罚的事件不大可能重复,而受到奖励的事件则会增加重复的可能性。我已经用一台这样的儿童机器做了一些实验,并成功地教会了它了几件事情,但其教育方法太不正规以致不能被认为是真正成功的。

​ 惩罚和奖励的使用最好只是教学过程的一部分,大致说来,如果教师没有与学生沟通的其他方式,那么所传达的信息量不会超过所用的奖励和惩罚的总和。当学生只能通过“二十个问题”的方法学习重复Casabianca时,会感到非常痛苦,每个no都会是打击。因此还必须采用其他的“非情绪”沟通渠道,这样,通过惩罚和奖励就能让机器服从以某种符号语言给出的命令,此命令通过"非情绪"的渠道传达,这种语言的使用将会大大降低需要惩罚和奖励的次数。

​ 对于什么样的复杂度更适合儿童机器可能有不同的看法,有人主张尽可能简单以保持通用性,有人主张嵌入一个完整的逻辑推理系统。在后一种情况下,大多数存储空间将被用来存储定义和命题,这些命题可能具有各种各样的形式,例如,确定的事实,推测,数学上证明的定理,权威给出的判断,具有逻辑形式却没有确定值的表达式等等。一些命题可以被称作“命令”,机器应该设计成当命令确定时立即自动执行合适的动作。例如,如果老师对机器说“现在做你的家庭作业”,这将使“老师说‘现在做你的家庭作业’”成为确定的事实;另一个事实可能是“老师说的一切都是对的。”这两个结合在一起将使“现在做家庭作业”成为确定的事实。而根据机器的构造规则,这意味着立即开始做家庭作业,效果还是令人满意的。机器的推理过程并不需要像严格的逻辑家所为,例如可能没有类型的层次结构,但这并不意味着出现类型谬误的几率会比我们从悬崖摔下的几率高。合理的命令(在系统内部表达,并不是系统规则的一部分),比如“不要使用一个类,除非它是老师提到类的一个子类”就与“不要让他接近边缘”具有相似的效果。

​ 没有肢体的机器人所能执行的指令具有智力性质,就像上面的例子(做家庭作业)。在这些指令中,最重要的是调节逻辑系统规则的执行顺序,因为在使用这个系统的每一步,都会有许多不同选择,在遵守逻辑系统规则的情况下,任意选择一个都是允许的。如何选择将区分聪明推理者还是愚蠢推理者,而不是区分正确推理者还是谬误推理者。导致这类命令的命题可能是 “当提到苏格拉底的时候,使用芭芭拉的三段论” 或者“如果有一个方法被证明比另外的方法快,不要使用慢的方法。”这些命题可能来自权威,也可能来自机器本身,例如科学归纳。

​ 学习机器的想法对某些读者来说似乎有些矛盾,机器的操作规则怎么能改变呢?无论机器过去经历什么,未来会有什么变化,其操作规则都应该完整地描述机器会如何反应,即这些规则是不随时间变化的。确实是这样的,悖论的解释是,在学习过程中发生变化的规则是一类不那么自命不凡的规则,只声称短暂的有效性。读者可以将之与美国宪法类比。

​ 学习机器的一个重要特征是,老师通常对其内部发生的事情不了解,尽管老师仍然可以在一定程度上预测其学生的行为,经过实验而设计良好(或程序)的儿童机器的后期教育尤其如此。这一点与使用机器进行正常计算的过程形成鲜明对比:那里的目标是要清楚明白机器在计算中任意时刻的状态,而要达到此目标则需要付出艰苦的努力。如此,“机器只能按我们的要求做事”的观点就会显得很奇怪了,能够输入机器的大部分程序终归会做一些我们无法理解的事情,或者被认为是完全随机的行为。智能行为应该和完全服从命令的行为有别,但又不能太大,不应该产生随机的行为或无限循环。通过教育和学习使我们的机器能够进行模仿游戏的一个重要结果是,“人类犯错误”可能会被相当自然忽略掉,即不需要专门的“指导”(读者应该将其与第[454]页上的观点调和)。学习的过程并不会产生百分之百的确定结果,否则就不是学习了。

​ 在一个学习机器中加入随机元素应该是明智的(参见第[445]页)。当我们寻找某个问题的解时,随机元素相当有用。例如,我们想找到一个介于50和100之间的数,它等于各个数字的和的平方。我们可以从51,52开始一直试下去直到找到满足条件的数。另一个方法是随机的选数直到找到满足条件的数,这种方法的优点是不需要跟踪已经尝试过的值,但缺点是一个数可能重复试两次,如果存在多个,这点并不很重要。系统化方法的一个缺点,是可能存在很大一段数中并不存在解,但我们需要先判断它。现在的学习过程可以看成寻找满足老师的要求(或一些其他的标准)的行为,既然可能存在大量的可能解,随机方法可能比系统方法更好。应该注意到,在进化过程中有相似的方法,那里系统方法是不可能的,如何跟踪已经尝试过的不同基因组合,从而避免重复呢?

​ 我们希望机器最终能和人在所有纯智力领域竞争,但何处是最好的开端?甚至这也成为困难的选择。许多人认为抽象的活动,例如国际象棋可能是最好的选择;也有人认为最好用钱给机器买最好的传感器,然后教它听说英语,和教一个正常的小孩一样,教它命名事物等等。我并不知道正确的答案,但是我想两方面都应该试试。

​ 我们的目光所及,只是不远的前方,但是可以看到,那里有许多工作要做。