北邮研一信息科学原理 – 期末总结

Sinkers 发布于 24 天前 69 次阅读


写在前面:

老师最后一节课会“透题”,透题的题目总结如下。结果最后发现透题根本不考根本不考根本不考,考的 80% 都还是往年题(指路这篇文章)。但是透题大致还是听一下,有可能有新题型,比如今天就多了个语法题和综合讨论题

一、概念题
信息有什么作用?信息有什么功能?
表征:描述事物运动状态及其变化⽅式;② 沟通:在时空上传递表征以消除不 确定性;③ 驱动:经知识 → 策略转化后驱动决策与控制;④ 评价:度量系统有 序化或熵变。
信息具有许多有用的功能。 比如,信息是一切生物进化的导向资源。信息是知识的来源,信息是决策的依据,信息是控制的灵魂,信息是思维的材料。
但是,最为重要的功能,是可以通过一定的归纳型算法被加工成为知识,并针对给定的目标被激活成为求解问题的智能策略,按照智能策略求解实际的问题。这是信息的最为核心最为本质的功能。信息-知识-智能(策略),这是人类智慧的生长链。
信息类型:本体论信息和认识论信息
任何事物的本体论信息,就是该事物所呈现(所表述)的运动状态及其变化方式。本体论信息的表述者是事物自己,因此,它只与事物本身的因素有关,而与认识主体的因素无关。在更技术化的场合,本体论信息也被称为“客体信息”。
任何认识主体关于某事物的信息,是认识主体所感知的关于该事物的运动状态及其变化方式,包括状态及其变化方式的形式(称为语法信息)、含义(称为语义信息)和效用(称为语用信息)。认识论信息的表述者是认识主体,它既与事物本身的因素有关,也与认识主体的因素有关,是认识主体与客体事物相互联系相互作用的结果。在更技术化的场合,认识论信息也被称为“感知信息”。
知识生态,生态链,内生态和外生态
知识的外部生态学规律。也就是知识生长的源泉和去向的规律。具体而言,知识由信息经过归纳而生成;知识又经过演绎而生成为策略。由信息到知识再到策略的知识生长和运用的规律,揭示的正是知识外部(一侧是信息,另一侧是策略)的生长规律。| 信息-知识-智能策略的转换规律
[图片]
知识的内部生态学规律。这个规律所揭示的是知识内部(而不是外部)在本能知识的支持下由欠成熟的经验知识通过完善而生长成为成熟的规范知识、又由规范知识和经验知识通过沉淀而生长成为过成熟的常识知识、以及由常识知识通过某种复杂的进化机制而生长成为新增的本能知识的规律。也就是说,这个内部的规律考虑的是知识内部不同形态之间的转化规律。| 经验知识-规范知识-常识知识的转换。
[图片]
从而,知识的内部生态学规律与知识的外部生态学规律两者的有机结合,构成了完整的知识生态学规律。
内生态:信息认知是怎么把信息变成知识的?
总体上,知识的生成有两个基本途径:归纳和演绎。归纳途径是从实践中逐步积累,把所观察到的现象的共性核心升华成为概念,把所积累经验 的精华上升成为理论。演绎的途径是由已有的知识通过推断产生新的知 识。前者是由信息到知识、由具体到抽象、由现象到本质的过程,在逻 辑上称为归纳;后者是从知识到知识、由抽象到抽象的过程,在逻辑上 称为演绎。
信息生态有很多知识类型,它们的关系、他们是怎么转换的?
信息科学特别强调,人的智力功能是由人的整体信息系统协同支撑的:当人们面对具体的问题、问题的环境约束和预期目标的时候,他首先要通过自己的感觉器官获得关于这些问题-环境-目标的信息(称为“原始信息”或“生信息”),并通过输入方向的传导神经系统把这些信息传送给思维器官,在后者这里,这些“生信息”首先经过非认知性的预处理(如排序、分类、过滤、去除冗余以及进行某些必要的数值计算和必要的逻辑处理等)变成有序的便于利用的“可用信息”或“熟信息”,然后通过认知过程把这些“熟信息”转换为相应的知识,进而在目标引导下把知识激活成为能够满足环境约束、解决问题、达到目标的智能策略,再通过传出方向的传导神经系统把智能策略传送到效应器官,在这里把智能策略转换为相应的智能行为,凭借这种智能行为对问题的作用实现对问题的求解,在满足约束条件下达到预期的目标。
全信息中语法、语义信息的关联和作用和区别?
语法层提供“形式结构”;语义层赋予“真实含义”。语义必须以语法为载体,但反过来可对同⼀语法表征作多重语义解释。两层统⼀于全信息却各⾃独⽴度量。
语法信息,指主体所表述的事物运动状态及其变化方式的外在形式。 语义信息,指...的内在含义。 语用信息,指...对于主体目标而言的效用价值。
[图片]
(1)当主体要表述本体论信息的时候(即要进入认识论信息范畴的时候),通常会用某种抽象符号及其序列(例如,常用的0,1序列)来表示事物的运动状态及其变 化方式(如图2.1.1的中间部分)。于是,这个抽象符号及其序列就表述了这个事物的语法信息。 (2)语法信息只是一个抽象的符号及其序列,没有具体的含义;只有当这个抽象的符号及其序列与它所代表的实际“事物”关联起来的时候(如图2.1.1的中间和左边部分),这个抽象的符号及其序列才有了具体的内容含义,这就是它的语义信息。 (3)而一旦语法语义和语义信息进一步与具体的主体关联起来的时候(如图2.1.1的右边部分),这个事物的运动状态及其变化方式的外在形式(语法信息)和内在含义(语义信息)对于这个主体的效用价值也就呈现出来了,这就是它的语用信息。
人们通常认为,研究语义信息要以语法信息为基础,因为“含义”是针对具体的状态和具体的状态变化方式来说的。同样,研究语用信息要以语义信息和语法信息为基础,因为“效用”是针对具体的状态及其变化方式所具有的含义来说的。在这个意义上,基于语法信息和语义信息的语用信息(称为“综合语用信息”)具有“全信息”的含义。
但是更加需要注意,在语法、语义、语用信息三者之间,语法信息是具体的,可以通过认识主体的感觉器官(或传感系统)直接感受到;语用信息是实在的,虽然不能通过感觉器官(传感系统)感受到,却可以通过认识主体的实际体验体会到;语义信息则是抽象的,既不能通过感觉器官感受到,也不能通过体验实践体会到,只能在具体的语法信息和实在的语用信息基础上通过思维器官的逻辑演绎才能得到。
信息熵在不确定性度量中的局限性?
作⽤:定量衡量“概率型语法信息”的不确定度,是通信容量与压缩极限的核⼼度量。局限:不涉及语义/语⽤,⽆法评价信息内容的真伪与价值,因⽽难⽀撑智能推理与决策。
香农信息熵用于度量离散有限随机事件集合(随机空间或随机试验)的不确定性。香农-维纳的概率熵公式,是全信息公式在相应条件下的各种退化公式。通过全信息的测度公式就揭示了现行各种信息测度公式之间的内部联系,并建立了一种统一的表达。全信息的度量公式,形成了语法信息、语义信息和语用信息度量的完整体系。
智能过程的感知、决策、执行形成的闭环,这个模型怎么理解?
感知:从本体信息提取语法信息→初级语义;决策:知识激活,将知识+⽬标转化为策略;执⾏:策略作⽤环境并通过反馈闭环优化。
当认识主体要与对象事物(即客体)交互时,主体就通过感觉器官的“信息获取”功能把本体论信息(即客体信息)转换为语法信息、通过传导神经系统的“信息传递”功能把语法信息从空间的某点传递到另一点、通过思维器官的“信息预处理”功能把语法信息转换为全信息(即认识论信息或感知信息)、通过思维器官的“信息认知”功能把认识论信息转换为知识、通过思维器官的“智能谋行”功能把知识转换为反作用于客体的智能策略、最后通过执行器官的“信息执行”功能把智能策略转换成为智能行为,完成认识主体对客体的作用。
[图片]
这一系列转换过程的实质就是:由本体论信息生成认识论信息,再由认识论信息生成知识,进而由知识生成智能策略,最后由智能策略生成智能行为。
信息科学原理的研究范围?(第十章)
对照信息过程典型模型,就可以把“信息科学基础理论”的研究内容比较合理地归纳为如下方面:1)探讨信息的定性本质和定量测度方法。2)阐明信息生态过程的基本规律,包括:本体论信息转换为认识论信息、认识论信息转换为知识、知识转换为智能策略、智能策略转换为智能行为的规律,以及误差信息转换为优化策略的规律。3)总结和提炼信息科学的方法论。
我们可以把信息科学定义为“研究信息现象及其运动规律的科学”。更精确地,我们可以把信息科学定义为:信息科学是以信息为研究对象、以信息的性质及其生态过程的规律为研究内容、以信息科学方法论为主要研究方法、以扩展人的信息功能(全部信息功能所形成的有机整体就是智力功能)为研究目标的一门科学。
信息学科的研究范式是信息学科科学观和信息生态方法论两者构成的有机整体。信息学科的科学观回答,信息学科这类研究对象的本质 是什么。方法论与科学观相适应,回答信息学科的研究在原则上应当怎么做。有什么样的科学观,就要求有相应的方法论与之相适应。
更具体地说,信息学科研究范式的科学观是整体(主体与客体对立统一) 意义上的科学观,具有如下观点。1)信息学科的研究对象是在主体主导 和环境制约下的主体与客体之间相互作用的信息生态过程(而不是像物质学科的科学观那样排除主体的主观因素)。2)信息学科的研究对象具有不确定性演化的性质(而不是像物质学科的科学观那样强调确定性演 化的性质)。3)信息学科的研究关注点是努力达成主体客体的双赢(而不是像物质学科的科学观那样仅关注研究对象的结构与功能)。
信息学科研究范式的方法论是信息生态方法论。它要求坚持实行生态演化的宏观处置方法(而不是像物质学科方法论那样实行“分而治之”的 处置方法); 坚持采用“形式-内容-价值”整体化的描述与分析方法(而不是像物质学科方法论那样采用纯粹形式化的描述与分析方法);坚持实行理解式的判断方法(而不是像物质学科方法论那样仅依赖形式比对的判断方法)。
与传统自然科学的差别是什么?
在科学观方面,一般认为,经典物质科学的科学观是机械唯物论(即把研究对象仅仅局限于物质客体),信息科学的科学观是辩证唯物论(即把研究对象理解为人类主体与物质客体的对立统一)。
在方法论方面,经典物质科学坚持的是机械还原方法论,信息科学的方法论是新近总结出来的信息生态方法论。经典物质科学坚持以“分而治之,各个击破,直接还原”为特征的机械还原方法论。信息生态方法论的本质特征就是:强调要研究和处理好信息系统内部各个分系统之间的相互关联的关系、以及研究和处理好整个信息系统与其环境之间相互关联的关系。
智能的本质在科学视角下如何定义?根据信息科学原理视角,结合你的认识,你怎么看待到底什么是知识/智能?
“知识激活原理”的实质是“知识-智能的转换”,“知识生成原理”的实质是“信息-知识的转换”,它们两者有机地结合在一起,就是完整的“知识外生态学规律”,也就是“信息-知识-智能的转换”。这正是智能生成的本质机制。
策略是智能(智慧能力)的集中体现,是智能的核心,可以称为“核心智能”或者“狭义智能”。知识激活的有效方法集中体现了求解问题的智能,因此,把知识激活成为智能,就是要在目标引导下由相关知识生成求解问题的策略。知识是由信息到达智能(策略)的中介:知识的下端是作为原始材料的信息,它的上端是体现人类智能的问题求解策略。所以,智能就是面对给定的问题信息,在目标的导控下、把“知识”激活为“策略”的能力。
知识激活的基本原理:以给定的问题为求解的起点,以预期的目标为求解的终点,以所拥有的领域知识为求解的工具和手段,寻求能够把问题的“起点”转换到预期的“终点”的最优策略。
信息生态失衡的表现和成因
形式信息爆炸≠全信息同步增⻓;价值维缺失→决策失真。
为了保证信息系统的多样性、各种信息系统之间的和谐性、以及所有信息系统的可持续发展性,信息科学的研究也必须遵循“信息的生态学”。于是,我们就发现了信息科学的方法论,这就是信息生态方法论。它的本质特征就是:强调要研究和处理好信息系统内部各个分系统之间的相互关联的关系、以及研究和处理好整个信息系统与其环境之间相互关联的关系。
信息生态方法论与经典物质科学的方法论构成“相反相成”的关系:经典物质科学方法论强调“分解”,信息科学方法论强调“关联”。传统科学方法论在信息科学领域失效的最典型例子就是“脑与认知科学”的研究。
认知决策的阶段化模型如何构建?
二、问答题
原理分析:
信息智能转换的必要性,举个例子说明为什么信息知识智能转换是必要的?
裸信息只是“现象”;解决问题需“规律+⽅案”。知识把⼤量信息压缩为可迁移的模型;策略再把知识定向为⾏动。例⼦(智慧农业):传感器采集温湿度、光照等 信息 → 数据挖掘归纳作物⽣⻓ 知识 → 根据⽬标产量推导灌溉/施肥 策略。
现代人类所利用的表征性资源是信息资源,与此相应,表征性的科学技术是信息科学技术,表征性的社会生产工具则是基于现代信息技术的智能工具。这是信息科学为什么要在我们这个时代崛起和迅猛发展的原因。
我们可以把信息科学定义为“研究信息现象及其运动规律的科学”。更精确地,我们可以把信息科学定义为:信息科学是以信息为研究对象、以信息的性质及其生态过程的规律为研究内容、以信息科学方法论为主要研究方法、以扩展人的信息功能(全部信息功能所形成的有机整体就是智力功能)为研究目标的一门科学。需要说明,定义中所说的“信息生态过程”指的是“信息转换为知识并进一步转换为智能”的过程。
信息获取的完备性条件,怎么保证信息获取不失真?
1.必要性:必须先将客体本体信息映射进传感域。 2. ⽆失真:感知链路的映射应保持“可区分性”,避免状态合并。 3. 相关性:注意-选择机制聚焦与⽬标相关的最⼩充分集,舍弃冗余。
如何比较信息处理和人的认知之间的差异?信息处理从计算机的角度是如何处理的?和人的认知的过程有什么样的关系和区别?
⾹农视⻆:统计熵,仅关⼼信号复现;⼈类认知:同时评估真值(逻辑)+效⽤(价值)+情境,可在不 确定符号下推理含义。
信息科学跟计算机、控制、信息通信之间的关系关联?
计算机 -> 关注数据结构、算法、算⼒;交叉于提供实现信息处理与 知识推理的硬件/软件平台。控制论 -> 关注动态系统稳态与反馈;交叉于提供策略-执⾏-反馈机理;信息科学补充感知与知识层。
讨论GPT这种生成式大模型在处理语用信息时,有没有什么样的缺陷?
语⽤信息需要对⽬标、价值、情境有显式建模;- LLM 主要在语法-语义统计相关层⾯学习,缺少可解释的⽬的驱动;- 因此在“为什么要做”“做了有什么后果”等价值判断上常输出失衡或冲 突的答案。
生成式预训练语言模型(GPT)的主要问题也正在于遵循了“形式化方法”,只在形式(语法信息)上做文章,所以没有理解能力,不能生成真实智能。本质上,形式化方法是丢弃概念(信息、知识与策略)的价值因素和内容因素,仅保留形式,成为空心的概念,于是难以理解,难以生成可理解可解释的智能。
香农信息有什么局限性,为什么难以直接应用于智能系统的构建?我们认为香农信息无法建立语法语义语用三位一体信息,举例说明
⽆语义/语⽤ → ⽆法⽀持推理与决策;- 将语义还原给⼈类⽤户,若收发双⽅是⽆智能机器则信息链条断裂;- 智能系统需“全信息”框架,补⾜语义和价值。
Shannon 信息是一种“统计型的语法信息”,是“全信息”的一种特殊情形。不仅如此,统计型的语法信息也只是语法信息的一类特殊情形。这很显然,因为“事物运动状态及其变化方式”在形式上可能是统计型的,也可能是“非统计型”的。Shannon 信息只涉及了统计类型的语法信息,不能有效处理非统计类型的语法信息。
⾹农奠定的信息传递理论成功之处在于巧妙地回避了语义和语用,聚焦于符号传递的技术问题 。他将“信息传递”严格定义为发送端符号序列到接收端符号序列的概率型语法信息传递,只要形式和统计特性⽆失真地传到,对通信系统来说任务就完成了 。这⼀思路极⼤简化了通信模型,使得数学上的严格推导成为可能(如导出通信容量、码⻓极限等)。但是,这种做法实际上把从语法信 息中恢复语义/语⽤信息的任务转嫁给了通信双⽅的⼈类⽤户 。如果通信双⽅都是没有智⼒能⼒的机器,那么仅传递语法符号并不能完成信息交流的最终⽬的。这可以说是⾹农理论的⼀个“巧妙妥协” ——从扩展⼈类思维能⼒的⽴场退到了扩展⼈类神经传导能⼒的⽴场。⾹农信息论取得了巨⼤成功 (⾼效可靠的通信技术),但也留下不⾜:它有意不涉及信息的意义,这意味着在⼈⼯智能等需要直 接处理意义的场合,⾹农的⽅法需作范式上的拓展。
算法(可以用文字描述,中间可以用符号去解释):
怎么获取语法信息?语义信息?语用信息?
获取语法信息的首要环节是传感,即由某种敏感器件把事物的本体论信息转换为认识论信息的语法信息,同时通过显示手段把转换得到的语法信息表示出来。
[图片]
本体论信息到全信息的转换称为“第一类信息转换原理”。第一类信息转换S→(X,Y,Z)的原理包含3个前后相继的步骤。步骤1,由本体论信息S生成语法信息X;步骤2,由语法信息X生成语用信息Z,情况(1):检索的方法:回忆(面对曾经经历过的外部刺激),情况(2):计算的方法:体验(面对完全陌生的外部刺激);步骤3,由语法信息X和语用信息Z生成相应的语义信息Y。
注意到语义信息的“抽象”特点,在获得了语法信息X和语用信息Z之后,为了获得与之相应的语义信息,在通常的情况下,就应当通过抽象的逻辑演绎的方法来获得相应的语义信息。在最简单的情况下,这个逻辑演绎算子就是“逻辑与”(这里的意思是语法信息和语用信息两者的“同时满足”):
[图片]
式中的符号Y代表语义信息,符号‘尖尖角’代表“逻辑与”运算符号,X和Z分别代表与Y 相对应的语法信息和语用信息。式(4.2.12)的意思是:语义信息Y可由语法信息X和语用信息Z的“逻辑与(意思是:X与Z同时成立)”来确定。对人类智能系统是如此,对人工智能系统也是如此。以上的讨论告诉我们:语法信息可以被感知,语用信息可以被体验,语义信息则只可以通过逻辑演绎(抽象思维)来推知。这样,由语法信息的生成到语用信息的生成再到语义信息的生成,就完美地体现了人类对信息认识的“由表及里”规律。
从本体论怎么生成语法信息?从语义信息怎么推断语用信息?
传感是通过事物之间的相互作用(传感系统与产生信息的源事物之间的相互作用)把事物的本体论信息转化为语法信息而实现的,- 传感映射 Ts:o↦x;- 包括取样、量化、编码等步骤,将连续物理量离散化为符号串。
结合⽬标函数,⽤语义真值 t 与⽬标偏好函数 u 聚合 f(t,u),输出 “效⽤度分布”即语⽤信息。
常识知识库怎么应用于策略的生成?
感知-动作系统可以感知N种类型的外来刺激模式,相应地生成N种对应的动作行为。从而,当外来刺激属于第i模式的时候,系统能够相应地生成第i类动作方式,i=1,...,N。外来刺激的具体模式类型由模式识别系统给出,常识知识库内存储着形如模式类型i-动作方式i的常识 知识,即“若外来刺激是模式i,则生成动作方式i,i=1,...,N”。依照常识知识库的指示,动作生成单元就生成相应方式的动作行为。
由此可见,感知-动作系统的关键技术单元包括:模式识别系统、常识知识库、以及动作生成系统。其中,动作生成系统属于专门技术;常识知识库的存储格式是“IF(刺激模式i),THEN(动作方式 i)”。
多源异构信息融合的方法怎么生成综合的语义信息?
1.统⼀表示(知识图谱 / 向量空间); 2. 对⻬实体与事件; 3. 基于逻辑或统计推断融合冲突,输出⼀致的语义视图。
跨模态语义对齐信息,比如语言、视觉信息、通信信息、语音信息
对⻬空间(共享嵌⼊) + 对⻬⽬标(任务标签) + 对⻬损失(对⽐/互信息)。
三、综合讨论题
信息科学如何革新你对自身研究领域(比如计算机领域)的理解?结合一些具体方向举例。
信息科学和你想的如何不一样?和这些年的教育相比,带给了你什么样的思想的改变?
信息科学如何帮助你解决自身的研究领域的核心挑战?信息科学原理怎么去知道你的研究、创新,给你带来了什么样的启发?
“第一类信息转换原理”也必将对信息科学技术本身的发展产生重要的影响。历来的信息科学技术(包括传感、通信、计算机、控制)都是建筑在 Shannon信息的理论基础上,它们都只考虑了信息的语法因素,忽略了信息的语义和语用因素,使信息科学技术成了一个只顾形式不问内容和价值的科学技术体系,成了一个智能程度低下的科学技术体系;现在,第一类信息转换原理不仅证明了全信息的“存在性”,而且阐明了全信息的“可生成性”和“可操作性”,因此,关于“全信息可能只是一个理论上虚构的概念”的担心就可以彻底消除了。
把“全信息理论”引入信息科学技术,直接的改变将发生在计算机的信息与处理和人工智能系统的知识生成和知识激活(策略生成),同时也必然发生在作为信息存储和知存储的信息库与知识库系统(需要存储全信息)。可以相信,只要正确引进全信息的概念和相关理论,那么,信息科学技术走向智能化的大门就敞开了。这将导致信息科学技术的历史性进步与变革。
人工神经网络是一类通过大规模信息样本训练 而逐渐积累“经验性知识”,进而形成“经验性智能策略”的人工智能系 统。它们是典型的通过经验知识的激活而获得策略的人工智能系统。既 然人工智能的原型是自然智能特别是人类的智能,那么,了解和学习自 然智能特别是人类的智能的奥秘便成为研究智能科学技术的重要途径。
人工神经网络通过训练学习的方法所获得 的智能问题求解(模式分类和故障诊断等等)的知识和能力,是一类经 验性的知识和能力。这样获得的知识和能力,可能因为训练样本的数量 不够或者训练样本的质量不高而受到损失。虽然人们可以通过各种改善 样本的质量和数量的方法来改进智能求解的智能水平,但是,前向人工 神经网络属于“经验知识支持的人工智能系统”这个属性不会因此而改 变,所改变的只是这种经验知识的成熟程度而已。