1.什么是人工智能
人工智能(Artificial Intelligence):它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。1956年由约翰.麦卡锡首次提出,当时的定义为“制造智能机器的科学与工程”。人工智能目的就是让机器能够像人一样思考,让机器拥有智能。时至今日,人工智能的内涵已经大大扩展,是一门交叉学科。
基础设施层:回顾人工智能发展史,每次基础设施的发展都显著地推动了算法层和技术层的演进。从20世纪70年代的计算机的兴起,80年代计算机的普及,90年代计算机运算速度和存储量的增加,互联网兴起带来的电子化,均产生了较大的推动作用。到21世纪,大规模集群的出现,大数据的积累,GPU与异构/低功耗芯片兴起带来的运算力的提升,促成了深度学习的诞生,点燃了人工智能的爆**潮,其中海量的训练数据是人工智能发展的重要燃料。
算法层:机器学习是指利用算法使计算机能够像人一样从数据中挖掘出信息,而深度学习作为机器学习的一个子集,相比于其他学习方法,使用了更多的参数、模型也更复杂,从而使得模型对数据的理解更加深入也更加智能。
计算机视觉:计算机视觉的历史可以追溯到1966年,人工智能学家Minsky在给学生布置的作业中,要求学生通过编写一个程序让计算机告诉我们它通过摄像头看到了什么,这也被认为是计算机视觉最早的任务描述。计算机视觉借鉴了人类看东西的方法,即“三维重构”与“先验知识库”。计算机视觉除了在比较成熟的安防领域外,也应用于金融领域的人脸识别身份验证、电商领域的商品拍照搜索、医疗领域的智能影像诊断、机器人/无人车上作为视觉输入系统等。
语音处理:让机器学会“听”和“说”,实现与人类的无障碍交流一直是人工智能、人机交互领域的一大梦想。1920年生产的“Radio Rex”玩具狗可能是世界上最早的语音识别器,第一个真正基于语音识别系统出现在1952年,AT&T贝尔实验室开发的Audrey的语音识别系统,能够识别10个英文数字,正确率高达98%。比如Apple Siri,Echo等。
自然语言处理:人类的日常社会活动中,语言交流是不同个体间信息交换和沟通的重要途径。对机器而言,能否自然的与人类进行交流、理解人类表达的意思并作出合适的回应,被认为是衡量其智能程度的一个重要参照。
规划决策系统:人工智能规划决策系统的发展,一度是以棋类游戏为载体的。比如,AlphaGo战胜李世石,Master对顶级选手取得60连胜,机器人,无人车。
3. 人工智能应用场景
3.1. 语音处理
• 语音处理主要是自动且准确的转录人类的语音。一个完整的语音处理系统,包括前端的信号处理、中间的语音语义识别和对话管理以及后期的语音合成。
– 前端处理:说话人声检测,回声消除,唤醒词识别,麦克风阵列处理,语音增强等。
– 语音识别:特征提取,模型自适应,声学模型,语言模型,动态解码等。
– 语义识别和对话管理:更多属于自然语言处理的范畴。
– 语音合成:文本分析、语言学分析、音长估算、发音参数估计等。
• 应用:包括医疗听写、语音书写、电脑系统声控、电话客服等。
• 未来:真正做到像正常人类一样,与他人流畅沟通,自由交流,还有待时日。
3.2. 计算机视觉
• 计算机视觉指计算机从图像中识别出物体、场景和活动的能力,包含图像处理、识别检测、分析理解等技术。
– 图像处理:去噪声、去模糊、超分辨率处理、滤镜处理等。
– 图像识别:过程包括图像预处理、图像分割、特征提取、判断匹配,可以用来处理分类、定位、检测、分割问题等。
– 图像理解:本质是图像与文本间的交互,可用来执行基于文本的图像搜索、图像描述生成、图像问答等。
• 应用:
– 医疗成像分析被用来提高疾病的预测、诊断和治疗。
– 在安防及监控领域被用来指认嫌疑人。
– 在购物方面,消费者现在可以用智能手机拍摄下产品以获得更多信息。
• 未来:计算机视觉有望进入自主理解、分析决策的高级阶段,真正赋予机器“看”的能力,在无人车、智能家居等场景发挥更大的价值。
3.3. 自然语言处理
• 自然语言处理的几个核心环节:知识的获取与表达、自然语言理解、自然语言生成等,也相应出现了知识图谱、对话管理、机器翻译等研究方向。
– 知识图谱:基于语义层面对知识进行组织后得到的结构化结果。
– 对话管理:包含闲聊、问答、任务驱动型对话。
– 机器翻译:由传统的PBMT方法到Google的GNMT,流畅度与正确率大幅提升。
• 应用:搜索引擎、对话机器人、机器翻译、甚至高考机器人、办公智能秘书。
4. AI、机器学习、深度学习的关系