Issue #003 2019-06-26

本期导读:

  • 学术:自动合成数据集的方法、利用静态图像生成视频、预测 AI 效果的 AI;
  • 政治:不同阶段的 AI ,会如何影响人类政治进程?
  • 洞察:智能手机与 AI,如何制造一场有史以来最大规模的技术社会实验?
  • 政策:欧盟本周出台 AI 指导方针;
  • 案例:30 +个脸部识别技术的应用场景,两个医疗 AI 应用案例;
  • 报告:85% 的企业 AI 落地项目或失败;

学术·突破

梳理过去一周 AI 学术领域的研究突破。

MIT 研究者提出一种自动合成数据集的新方法。在上周加州长滩举行的计算机视觉学术会议 CVPR 上,来自 MIT 的研究者展示了这个方法,该方法对于分析大脑扫描的数据具有重要重要意义,只需使用单一标记或未标记的数据集,可以帮助机器形成快速定位大脑病变的模型,从而大大加快诊断效率,该项目已经在 Github 上开源。

利用静态图像形成视频。Facebook 与华盛顿大学的研究者们展示了如何将静态图像生成视频的研究成果,该算法会分析静态图片里的人物特征,从而建立起一个 3D 动画模型,可以将静态图片里「人物」走路、坐下或者跑步。你可以在这里查看其演示视频,如果还想进一步了解该算法,访问这里获取论文。

IBM 研究者们使用 GANs 自动生成图片标题。为了训练这个模型,研究者使用了 GANs(对抗生成网络),同时也构建了一个诊断工具,以避免训练数据集中的偏差(字幕系统中的常见问题)。根据研究人员的说法,该系统整体表现非常不错,你可以在这篇论文里了解更多。

基于 Alexa 的心脏检测。根据 Bloomberg 报道,华盛顿大学的研究者开发了一个 AI 工具,可以用在亚马逊 Alexa 设备上,用于收集心脏病病发时的呼吸生意,并会立即发出紧急提醒。

深度学习模型诊断儿童内脏疾病。来自美国弗吉尼亚大学医学院的科学家们训练了一个神经网络模型,其数据来自儿童环境肠病的影像数据,研究人员发现,利用该模型的检测准确率达到 93.4%,你可以在这里阅读研究人员发表的论文。

Google 研发了可以检验 AI 能力的 AI。根据 Google 发布的论文,这个模型使用了一种「Off-policy classification」机制,能够评估和预测机器学习模型的性能和效果,你可以在这里了解这个模型的详细情况。

政治哲学如何看待 AI?《新京报》的报道,在首都师范大学政法学院和首都师范大学人工智能哲学交叉学科平台主办的第一届人工智能哲学跨学科高峰论坛上,三亚学院马克思主义学院院长王志强做了「人工智能的政治哲学批判」的主题报告,探讨了人工智能对人类的政治体制可能造成的影响,他的核心观点:人工智能的崛起很有可能极大地冲击并改变人类的政治秩序的相对稳定性。

其论据包括以下几个方面:

  • 如何理解政治;
  • AI 的三个阶段,包括有限自主性的强 AI、纯知性超 AI 以及有目睹的强 AI,三个不同的阶段将在不同层面影响人、社会与政治结构,尤其是的有目的的强 AI;
  • 对于未来,自然人的终结或无法避免,但自然人的政治却可能被延续;

这个学术观点是否正确并不重要,其抛出的议题却颇具挑战性,当然所有的推演还有赖于技术的突破。

洞察·观点

智能手机与 AI,如何制造一场有史以来最大规模的技术社会实验

我一直不太愿意接受手机厂商发布新机时的邀请函。一方面,我的关注点无法覆盖消费电子领域,尤其是当下,手机已经成为一种快消品,其竞争早已超越了科技产品的范畴,已经演变为一场消费主义的狂欢,中间夹杂了明星、流量、粉丝、口水战等等。

其次,智能手机技术创新的步伐正在放慢甚至停滞,我在这周「iPad Power User」里谈到了其中的一个原因,那就是交互逻辑创新的停滞,从而也无法推动整个行业——包括硬件、系统、第三方应用——的突破。

但智能手机又是观察人机关系的最佳入口。下图展示了 a16z 的一个数据,在全球 53 亿人口里,智能手机的用户已经高达 40 亿,远超 PC、平板用户,换句话说,智能手机才是这个星球上人机交互的主要工具,甚至对于某些地区的用户而言,智能手机是唯一的计算工具。

img

与其他计算工具相比,智能手机对于新技术、新概念的拥抱也相当积极,这当然是因为上文提及的智能手机进入到快消品时代,厂商需要用新技术的标签来包装旧产品,而不管是 AI 还是 VR、AR,当一系列新技术进入到 40 亿用户规模的市场之后,也在制造一场史无前例的技术社会实验。

以 AI 为例,这场技术社会实验正在影响着你我身边的所有人。

其一,语音的流行。语音是一项古老的交互方式,但在智能手机流行与 AI 成为「主流技术」之前,语音无法承载起人机交互的艰巨任务。

img

上图展示了一个类似技术奇点的状态,在深度学习的帮助下,机器对于语音识别的准确率开始超越人类,而智能手机天然具备的便携性、随时联网的连接性以及丰富的第三方应用,加速了语音在人机交互里的普及和应用。一个无法忽略的现实是,在欠发达国家和地区,受限于教育水平,语音甚至成为人机交互的唯一方式。

更重要的一点,机器生成语音的能力也在显著提升。上周华为发布的一款面向年轻人的手机 Nova 5,其中一款与腾讯合作的「全民 K 歌」应用里,华为利用 AI 能力,可以快速学习、合成人类声音,从此所谓的五音不全成为历史,AI 可以实时帮你修音。

img

其二,影像。当下所言的 AI 技术,天然钟爱影像,这也是发展最快的一个领域,在 AI 对于智能手机影像的「改造」里,手机相册成为第一个被改变的产品。

2015 年,Google 发布跨平台的 Google 相册,这不仅是一个手机网络相册,更是 AI 改造相册的开始,在 Google 相册的设计逻辑里,机器可以自动识别图像里的元素,包括人、物、景,实现自动分类。

2016 年,苹果在 iOS 10 的相册加入 AI 识图功能。与 Google 相册全部云端的操作不同,苹果将这个 AI 处理图像的能力放在本地设备,考虑到功耗,苹果甚至只允许在充电的状态上进行识别归类。由此,大量国内手机厂商也开始跟进,不管是采用第三方算法供应商还是自研算法,相册里的 AI 能力俨然成为行业通用做法。

从相册 AI 到摄像头 AI,进一步展现了 AI 在图像领域的快速发展,Google 在其两代 Pixel 的单摄像头里加入大量 AI 能力,也将其做成了最强的单摄像头。在国内,数不胜数的「xxx 像素 AI 相机」的口号里,华为在摄像头 AI 领域最具竞争力,过去两年的两款手机,P20 和 P30 的超级夜景也成为业界的标杆。

然而这也留给行业一个价值观命题:到底是摄像头在「生产」照片还是摄像头里的算法在「生产」照片?不久前引发手机行业热议的华为 P30「月亮门」事件,撇开是否含有虚假宣传这样的法律争议,其本质上也是价值观争议,而从目前来看,这个争议短期内还无解。

某种意义上,智能手机就是现代人口袋里的一把武器,它延伸了人类的能力,将其纳入全球 40 亿个联网节点里,定义了一种更大众的人机交互方式。而在 AI 各项技术的辅助之下,智能手机正在模糊真实与虚拟的界限并颠覆了过往对于创造的认知,这场有史以来最大规模的技术社会实验,其最后的结局,或许也是人机进化的方向。

商业·应用

欧盟本周出台 AI 指导方针

WSJ 的报道称,欧盟委员会预计会在本周发布围绕 AI 的一系列政策计划和投资建议。透过 WSJ 获得文件副本来看,这个指导方针涵盖了 AI 的治理和监管、AI 资金使用和投资、以及围绕 AI 的数据使用和管理等。

根据这份标注为 6 月 15 日的文件,截止到 2018 年,欧盟地区四分之三的企业尚未采用 AI,不到四分之一的企业开始试用或测试 AI 技术,但在技术扩展性上有相当大的困难。

与此同时,欧盟委员会为发展 AI 提出了几个具体建议:

  • 创建欧盟企业孵化器,支持 AI 黑客马拉松等创业项目;
  • 欧盟委员会呼吁各国对于公民进行 AI 教育;
  • 在自动化面前,保护工人合法权益;
  • 推进女性就业;
  • 建议将每年的 6 月 23 日列为欧洲 AI 宣传日,这一天也是计算机先驱阿兰·图灵的生日。

AI Insider 也将持续关注欧盟 AI 指导方针的进展。

华为第二款 7 纳米制程 CPU 搭载自研 NPU

自 2017 年开始,华为为 9 系列的麒麟处理器配备了专门用来处理 AI 计算的 NPU,麒麟 970 和麒麟 980 都使用了寒武纪的 IP 授权。上周,华为发布了旗下第二款 7 纳米制程处理器麒麟 810,在这款主打中高端的处理器里,华为第一次将自研的 NPU 集成在其中。

根据华为麒麟的官方资料,麒麟 810 的 NPU 基于华为内部研发的达芬奇架构,这「是华为在2018年推出的全新自研AI计算架构,针对AI计算特点进行设计。不同于以往的二维运算模式,达芬奇架构以高性能3D Cube计算引擎为基础,针对矩阵运算进行加速,大幅提高单位面积下的AI算力。」

站在用户的角度去看,NPU 的架构如何并不是重要的事情,如何能将强大的计算能力、AI 处理能力通过更友好、创新的方式提供给用户,才是当下手机 AI 领域最应该面对的问题,苹果与华为在过去两年的探索,并没有带来真正意义的突破,用户唯一可以感知到的,或许就是各式各样真真假假的「AI 相机」。

30 +个脸部识别技术的应用场景

尽管脸部识别技术备受争议,但是基于其强大的应用潜力,越来越多的行业开始拥抱这项技术,在 CBinsights 的这份报告里,列举了 30 多个脸部识别的应用场景,包括政府、自动驾驶、能源、银行保险以及生命科学等多个领域。

不谈争议,脸部识别技术的确在一步步改变这些或新或旧的行业的行为规则,比如在能源领域,Chervon 公司将脸部识别技术引入对于卡车司机疲劳状况的检测里。与此同时,随着工厂门禁加入脸部识别,可以大幅提升授权的安全性。

再比如在零售领域,沃尔玛与 Target 尝试通过脸部识别来打击门店盗窃和欺诈。值得一提的是,沃尔玛在 2018 年获得一项专利,该专利可以利用包括脸部识别在内的各项追踪技术来分析顾客在店内的行为逻辑,以此来优化上架产品类型以及产品摆放的方式。

你可以在这里详细查看这份报告。

文思海辉新报告:企业 85% 的 AI 项目无法实现其目标

这份来自中国 IT 咨询公司的报告引发海外媒体的广泛热议,该报告主要聚焦在自然语言处理领域的落地实践,讨论了基于神经网络的机器翻译的技术进展和应用情况,并列举了大量失败的案例,你可以在这里获取这份报告的 PDF。

另一方面,文思海辉的结论和此前 Dimensinal 的调查结果类似,该调查通过对全球 20 个主要行业的数百名数据工程师和其他 AI 人员的调查,指出企业在内部的机器学习实践中并没有达到预期,你可以在这里申请这份调查的最终报告。

面向孩子的免费机器学习编程项目

普通孩子可以接触机器学习吗?答案当然是肯定的。在 Google 创立的 JS 框架 Blockly 的基础之上,MIT 媒体实验室开发了一个面向孩子的机器学习项目 Scratch,这个项目旨在将机器学习的基本理念和方法融入到寓教于乐的在线编程里。

目前有两个机构在推动 Scratch,比如 Dale Lane 基于 IBM Watson 将可视化的命令和逻辑引入到该项目里,帮助孩子快速上手,你可以在这里了解这个项目。另一个是 Dalton 实验室的机器学习教育工具,内置了大量有趣的机器学习模块,你可以在这里了解这个项目,需说明一下,上述两个项目都是免费的。

阿里云首席科学家闵万里离职

根据闵万里在阿里内部的告别信里所言,闵万里未来将进入 VC 行业,聚焦传统产业(制造也、农业、医疗),将云、智能技术注入和资本坚持「两位一体」的组合型赋能,推动传统产业实现数字化转型和智能升级。

公开资料显示,1992年,14岁的闵万里考入中国科学技术大学少年班,本科毕业之后,前往芝加哥大学深造,1999年转型做统计学研究。

博士毕业后,先后进入IBM T.J. Watson研究所、IBM新加坡及谷歌担任研究员,从事大数据理论研究与应用算法研发。

2013 年闵万里加入阿里巴巴,首先从大数据解决方案研发开始,两年后,他加入阿里云,并开始在数据垂直应用领域探索 AI 落地的可能性,2017年,闵万里负责创新方向和业务战略。先后带领团队打造了ET城市大脑 、ET工业大脑、ET农业大脑等等。

两则 AI 医疗领域的应用案例

根据 Engadget 的报道,IBM 开发了一个可提前一年预测恶性乳腺癌的算法,准确率达87%。据了解,相较于其他系统要么采用医疗记录要么采用乳房 X 光的检查方式,IBM 的研究人员将两个方法结合起来,通过从图像,临床数据,活组织检查和实验室测试中提取数据,可以在肿瘤出现之前检测到它。IBM 表示,该算法旨在成为支持放射科医师诊断的「第二个眼睛」。

西奈山医疗中心正在启用 AI 病理中心。根据《贝克尔医疗评论》的报道,西奈山正在构建围绕病理学,分子和细胞医学系的数字和人工智能病理学中心。该中心将致力于在西奈山的八家医院和几家门诊医疗机构推广 AI 与数字病理中心。

感谢您的订阅,如有疑问,欢迎写邮件给我:zhaosaipo@gmail.com 

点击这里退订