《末世救亡计划》第136章:此间发展过于迅[2]

末世救亡计划最新章节目录
   年人的价值观,那这个老人可能会非常开心,因为这样他就不用费尽口舌向机器人解释一切,也不用对它进行重新编程。
    要实现这一点,其中的一个挑战是,找到一种将任意目标系统和伦理准则编入计算机的好方法。还有一个挑战是让计算机弄清楚哪个系统最符合它们观察到的行为。
    对于第二个挑战,目前有一种流行的方法,用行话来说叫作“逆向增强学习”。沈教授新建立的研究中心就主要研究这个东西。
    比如假设一个人工智能看见有一个消防员跑进了一栋熊熊燃烧的房子,救出了一名男婴。
    它可能会得出一个结论:消防员的目标是拯救男婴,他的伦理准则要求他将自己的生命看得比“舒服地躺在消防车里”更高,高到他宁愿承担失去安全的风险。
    但是,它也可能通过推断认为,这个消防员可能饥寒交迫,迫切想要获得热量,或者说,他这么做是为了锻炼身体。
    如果这个事件是这个人工智能所知的与消防员、火和男婴有关的唯一例子,那它就不可能知道哪种解读才是正确的。
    然而,逆向增强学习的一个关键思想就是,人类总是在做出决策,每个决策都揭示了一点点关于人类目标的信息。因此,逆向增强学习希望人工智能体通过观察许多人在许多场景中的行为,包括真实场景、电影和书籍,最终构建起关于人类偏好的精确模型?。
    即使人类建造了一个能学习人类目标的人工智能,但这并不意味着它一定会接受这些目标。想想你最讨厌的政客,你知道他们想要什么,但那不是你想要的,就算他们费尽心思,也无法说服你接受他们的目标。
    人们为了让自己的孩子接受他们的目标,可谓无所不用其极。从抚养叶轻尘的经验中,先知发现了一些比较成功的方法。如果你想要说服的对象不是人,而是计算机,那么,你就面临一个称为“价值装载问题”的挑战,这甚至比对孩子进行伦理教育还难上加难。
    假设一个人工智能系统的智能逐渐从低于人类的水平发展到超人类的水平。在这个过程中一开始,由人类对它进行敲敲打打、修修补补,后来,它通过天启那样的自我迭代,迅速提升智能。
    一开始它比你弱多了,所以它无法阻止你把它关掉,也无法阻止你将它的软件和在其数据中能对目标进行编码的那部分替换掉。
    不过这无关紧要,因为你的目标需要人类水平的智能才能理解,而它还太愚笨,无法完全理解你的目标。
    后来它变得比你聪明,能够完全理解你的目标,但这依然于事无补,因为到那时它已经比你强太多,可能不会再让你轻易地把它关掉并替换它的目标,就像你不允许那些政客把你的目标替换成他们的目标一样。
    换句话说,人工智能允许你装载目标的时间窗口可能非常短暂:就是在它愚钝得无法理解你,与它聪明到不让你得逞之间的短暂时期。
    给机器装载价值之所以比人难,是因为它们的智能增长比人类快多了。对孩子们来说,这个神奇的“说服窗口”可能会延续好几年,在这段时间里,他们的智力与父母相差无几;但对人工智能来说,比如天启,这个窗口可能只有几天甚至几个小时。
    一些研究者正在研究另一种让机器接受人类目标的方法。这种方法有一个时髦的专业名字叫作“可改正性”。
    这个方法的希望是,你将一个目标系统赋予一个原始的人工智能,这个目标系统使得这个人工智能根本不关心你会不会偶尔把它关掉和改变它的目标。
    如果事实证明这是可行的,那你就可以很安心地让你的人工智能走向超级智能,也可以很安全地关掉它,装载入你的目标,试试怎么样;如果不喜欢,又可以再把它关掉,对目标进行修改。
    可是天启的发展实在是太快了,甚至快到了可以忽略这些事情的地步。
     ;
小说推荐
返回首页返回目录