由于学校里的python课程长期咕咕咕,那么我来讲讲信息技术基础部分。
补课教学组老师:我滴任务,完成辣!
UPD 2023/3/11
信息技术基础概念-1
1 数据与计算
1.1 数字化
信息可以用模拟或者数字信号表达。模拟信号是连续变化的物理量存在,经过量化后可以得到数字信号。数字信号实际上是离散的,不连续的。香农(信息论奠基者)指出,在一定条件下,使用离散的序列可以甚至完全代表一个连续函数。也就是说,采样精度到达一定值之后可获得类似于模拟信号的体验,量化精度越高,越不会失真。采样定理确定了信号带宽的上限和采样频率的下限。
计算机和移动设备常用模数转换(ADC)实现信号的转化,电脑播放数字音频则是DAC(数字→模拟)。
wav文件大小的计算公式:量化精度(bit)× 采样频率(Hz)× 时间(s)× 声道数量(常数)
此处的单位是比特,如果要转换为常见的MiB,应除以8,再除以1024的平方。
BMP图片计算公式:总像素数×颜色位深度(单位:比特)
视频编码:中国(含港澳,PAL,25FPS)、欧洲/中国台湾/美洲/日韩(NTSC,30FPS)
不会考的视频编码:前苏联/法国/非洲大多数国家:SECAM(25FPS)。视频编码一般依照电源频率来选择制式。
未压缩的视频计算公式(试卷常用avi格式为例,忽略视频声音):总像素数×颜色位深度×时间(秒)×帧频(FPS)
1.2 编码
一般我们在高中阶段使用UltraEdit这款软件查看字符内码。
美国信息交换标准代码,简称ASCII,是一套基于拉丁字母的计算机编码系统,一个字符占用1字节。它只使用低7位编码,二进制范围从00000000到01111111。ASCII码基本部分只包含26个大小写英文字母(大写字符十进制编码是65至90,小写字母从97一直到122)、10个阿拉伯数字(十进制编码从48开始),33个控制字符和标点符号等。
国标汉字编码:GB2312-1980,一个汉字(含全角字符)使用两个字节表示。(注:2017年,此国标变为GB/T 2312-1980,因为汉字可以以其他方式编码了,如Unicode)
1.3* 大数据思维
大数据的特点是信息量大、速度快、种类多,但是价值密度低。它要分析的是全体数据,而不是抽象数据。
(提醒:处理大数据是计算机才有的功能,人类不具备这种能力,所以处理大数据不属于人工智能。)
大数据不再追求数据的精确性,而能接受数据的混杂型。它不一定强调对事物因果关系的探求,而是更加注重事情的相关性。
大数据处理时,采用分治思想。
分治思想,就是把一个复杂的问题分成两个或者更多相同或者相似的子问题,然后对它们分别求解,最后找出合适的解法把它们组合在一起。
大数据处理按照数据和类型可以划分为静态数据的批处理计算(如Hadoop)、对于流数据的实时计算(实时获取、传输和存储),以及对于图数据的图计算(包含图数据库和并行图处理系统)。
Hadoop分为HDFS(分布式文件系统)、HBase(分布式数据库)、MapReduce(分布式并行计算模型)。
1.4 人工智能
人工智能是以机器(计算机)为载体,来模仿、扩展、延伸人类智能。
人工智能的主要方法分为符号主义、联结主义和行为主义。
符号主义又称逻辑主义、心理学派、计算机学派,认为通过学习或者其他的智能特征原则上可以被符号精确的描述,从而被机器仿真,这个主意可以引申出一个概念——专家系统。就是基于一堆本地数据,然后给你一个AI自己认为准确的回答,这样的人工智能适合用在不需要经常更新数据的地方。但是呢,我们给出的数据,都要从事实出发,它的数据库中至少有一个事实,而且我们告诉它的必须是一个肯定的判断。
由于基于推理判断,这样的人工智能很容易给出错误的判断,例如我设定鸟事会飞的动物,那么会飞的动物一定就是鸟吗?
再而,如果我输入1+1=10,这是不符合客观事实的,那么结果可想而知。可见它的推理可能只是“if-then”模式。
举例:IBM的Watson,卡耐基梅隆大学的NELL,Dendral专家系统,医学专家系统MYCIN。
再来讲讲联结主义,它是一种理论和方法,试图用简单单元的互相连结网络来模拟和解释心理或行为现象(有点像神经元),又被称为仿生主义或者生理学派。联结主义体现了分布式的思想。这部分在学考中出现较少,所以有兴趣的可以自行了解。
行为主义,又被称为进化主义/控制论学派,从“交互——反馈”角度刻画智能行为,认为智能体可以在其与环境的交互中不断学习,从而提升智能水平,目前我们碰到的一些较为聪明的AI大多是这种形式。
关于AI的学习,这里有几个大家耳熟能详的例子:
数据驱动的人工智能:深度学习是其佼佼者,如Alpha Go。
问题引导下的人工智能:Alpha Go Zero的自我学习等。