首页>学术资源 > 学术资讯 > 艾德思：大数据这道坎迈不过去不要侈谈AI革命

艾德思：大数据这道坎迈不过去不要侈谈AI革命

论文润色 | 2019/05/24 14:38:47 | 548 次浏览

李:前两天与NLP主流的权威人士聊人造智能的现状和前景.我问,人造智能这么牛,您给我找一个在自然语言方面没有标注大数据,靠非监督学习落地成功的案例.只要一例.

其实主流里面就是找不到一例(非主流有,但大家习惯性视而不见).主流里面规模化成功的全部是监督学习,全部靠大数据.应了那句话,多少人工,多少智能.

毛:您这要求太苛刻了.咱们人小时候不也要靠爹妈教吗?@wei

李:不对,爹妈教的不是大数据.孩子跟父母学的是小数据,举一反三,不是举100返1.当然乔姆斯基认为那不是爹妈的功劳也不是学童的功劳,是上帝的功劳,固化遗传的.

白:人工用在语料上还是用在资源上,才是区分技术路线的关键.

李:同意.前者简单野蛮粗暴,容易推广,后者需要精心设计.

在带标大数据的这道坎迈不过去前,不要侈谈人造I的革命.

有些疑似不需要带标大数据的有效学习,可以一一讨论.看看到底是不是无监督学习突破了,知识瓶颈化解于无形了.

MT 不用说了,无穷无尽的带标大数据.人类翻译了多少年,而且还会一直翻译下去,或者利用MT然后修订编辑.活水源源不断.好处是免费,是人类正常翻译活动的副产品.

白:小数据带标/大数据聚类,小数据循聚类举一反三.实际就是协同推荐.

李:好,看看大数据聚类,clustering 的本性就是非监督,有成功案例吗?clustering 是个好东西但是独立规模化成功的,几乎不见.

白:加上小数据,不是纯聚类.

李:对.以前有一个路子,貌似有部分成功,就是先聚类,然后人工少量干预(给好的聚类起一个名字/把混进革命队伍的异己分子手工踢出去之类),然后利用所起的名字作为带标数据,把聚类(clustering)转换为可以落地有价值的分类(classifciation).狸猫换太子,多少就克服了大数据短缺的知识瓶颈,聚类–>分类,曲线救国.

白:带标小数据更关键.

李:那也是一途叫 seeds,boot strapping,找个办法来 propagation,用得巧的话,也有部分成功的,算是弱监督学习.

白:聚类是纯几何行为,不知道对什么敏感.小数据告诉您该对什么敏感.两轮驱动,不可偏废.大数据聚类可以提供疑似窝点,小数据一举捣毁.不是所有疑似窝点都值得捣毁.聚类是等势线(超曲面)相互包围的拓扑.

毛:立委您这不是抬杠吗,也没人说AI已经等同于人类智能呀.

肖:用户分群很有用啊,例子很多很多.聚类方式找异常也有很多成功应用,比如反欺诈.

李:聚类的结果粗线条应用大概是有的,在宁可错杀一千的应用场合,或有当无的场合,聚类可松可紧,拿来就用,总之是有统计基础,作为参考,强过看不见.细线条就傻了.只要用眼睛和脑袋去检视过聚类结果的,大都有这个体会:这玩意儿说它不对,还长得蛮像,说它对吧,米锅里到处可见老鼠屎.经常的感觉是鸡肋食之无味弃之可惜,用又不敢用,对接吧可费劲了.词典习得 (lexicon acquisition),聚类用得上,最后的难点还是在对接上,就是聚类以后的标注(起名字),并让标注与现有的知识体系对接上.

白:不需要,有内部编号即可.以xor为例.聚类可以聚出四个象限.不需要为每个象限取名.如果小数据指向一三象限,就把这两个聚类的内部名称贴一个外部标签.聚类按小数据的指引,当粗则粗,当细则细.不能只用一个尺度,小波的成功就是借鉴.记得工厂里钣金,师傅领锤,力道不大但是都在点儿上,徒弟力大但不能乱锤,必须跟着师傅走.小数据是师傅,大数据是徒弟.

李:这个形象.

最近的NLG(自然语言生成)方面的成功,是因为语言模型在深度学习的时候强大了.生成的句子比我们普通人还顺溜.我们受过这么多年教育还免不了文法错误语句不顺.机器生成的句子越来越"超越'人类了.怎么回事?

原来 NLG 比 MT 还邪性还牛叉,MT 还需要双语的翻译大数据,NLG 面对的是单一的语言,数据无穷无尽,文满为患,这是一个极端的 raw corpus 居然等价于 labeled corpus 的现场.我们每个人写论文都是潜在给 NLG 提供标注服务.自然语言语句与词汇随机发生器发出来的字符串的不同,全部体现在每一篇人类撰写的论文里面.它不出色才怪呢.NLG 可以预见将来有大发展,在应用文写作等方面.有孩子的可以放松他们的语文训练了,将来他们只要学会善用机器就没有写不出规范的论文的.

白:大家写论文全一个味儿,也是问题.应该以强风格的作家为吸引子,形成若干漩涡,您接近某个漩涡,就持续往里面吸.至少不能千人一面.

肖:(NLG)现在摘要还写不好.

李:孩子不必特地去修应用文写作课,反正后来会有电脑帮忙写文字的.这就跟我小时候钢笔字写得狗爬似的,一直难受羡慕小伙伴每天练字让人看得赏心悦目.(当年喜欢一个女孩子一半看脸蛋一半看她写的字.)结果我成年后除了签字就几乎没有写钢笔字的机会.

以前要成为(文科)大学者,最为人津津乐道和崇敬的是:

(1)记忆能力:过目不忘,检索起来可以闭着眼睛把典故的章节甚至页数指出来.社科院里面有很多这样广为传诵的奇闻逸事,尤其是关于钱锺书/吕叔湘这些老先生.

马:我认识一个理工科的教授,跟他聊天时,经常会说,那本期刊第几期第几页提到了这个问题.

李:(2)好书法.(3)诗词歌赋.

白:千万别提机器那个诗词歌赋,倒胃口.

李:感觉清华的<九歌>比不少郭沫若的诗词写得好.小时候看郭沫若带着西哈努克去山里面玩,诗性大发口占一首,那个诗可真是纯粹应景干瘪无味,就是平仄啥的应该整对了,论意境/诗味,啥都没有.

机器诗词倒胃口也比不上郭沫若的那次表演(忘了是什么纪录片了),印象极深刻不是好印象而是坏印象.当然艺术的鉴赏见仁见智不好说绝对.但往前看,机器做诗词还有很多提升空间.人要熟读唐诗300首就很不容易了,机器灌输它个全唐诗去模仿,是小菜.人在时间限制下需要应景作诗提升空间就不大了.五步诗这样的天才万里无一.

白: 端到端/简单无结构标签/大数据是深度学习商业化的关键.但凡涉及到场景化/复杂结构和小数据,深度学习一定会不适应.是让应用迁就深度学习还是用技术改造深度学习,这不是个简单的选择.我主张:1/把标注的对象从"语料'迁移到"资源';2/用带标小数据引领无标大数据;3/尊重领域专家/融合领域知识.

{相关}

{ 立委小品:AI is fake I }

{语义计算:李白对话录系列}

{置顶:立委NLP博文一览}

<朝华午拾>总目录

转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客. 链接地址:

上一篇:{ 立委小品:AI is fake I }

更多科研论文服务，动动手指，请戳论文润色、投稿期刊推荐、论文翻译润色、论文指导及修改、论文预审！

语言不过关被拒？美国EditSprings--专业英语论文润色翻译修改服务专家帮您！