来自美国波士顿
更专业的论文润色机构
400-110-1310

咨询学术顾问:400-110-1310

服务时间:周一至周日,9:00-23:00

建议反馈/客户投诉:Editsprings@163.com

微信扫码二维码,添加学术顾问企业微信

您还可以点击在线咨询按钮,与人工客服直接对话,无需等待,立马接入。

在线咨询
欢迎关注“艾德思EditSprings”微信公众号

关注微信获取最新优惠和写作干货,
随时手机询价或咨询人工客服,更可实时掌握稿件
进度,加速稿件发表。

微信扫描二维码关注服务号

艾德思:大数据这道坎迈不过去不要侈谈AI革命

论文润色 | 2019/05/24 14:38:47  | 548 次浏览



李:前两天与NLP主流的权威人士聊人造智能的现状和前景.我问,人造智能这么牛,您给我找一个在自然语言方面没有标注大数据,靠非监督学习落地成功的案例.只要一例.

其实主流里面就是找不到一例(非主流有,但大家习惯性视而不见).主流里面规模化成功的全部是监督学习,全部靠大数据.应了那句话,多少人工,多少智能.

毛:您这要求太苛刻了.咱们人小时候不也要靠爹妈教吗?@wei

李:不对,爹妈教的不是大数据.孩子跟父母学的是小数据,举一反三,不是举100返1.当然乔姆斯基认为那不是爹妈的功劳 也不是学童的功劳,是上帝的功劳,固化遗传的.

白:人工用在语料上还是用在资源上,才是区分技术路线的关键.

李:同意.前者简单野蛮粗暴,容易推广,后者需要精心设计.

在带标大数据的这道坎迈过去前,不要侈谈人造I的革命.

有些疑似不需要带标大数据的有效学习,可以一一讨论.看看到底是不是无监督学习突破了,知识瓶颈化解于无形了.

MT 不用说了,无穷无尽的带标大数据.人类翻译了多少年,而且还会一直翻译下去,或者利用MT然后修订编辑.活水源源不断.好处是免费,是人类正常翻译活动的副产品.

白:小数据带标/大数据聚类,小数据循聚类举一反三.实际就是协同推荐.

李:好,看看大数据聚类,clustering 的本性就是非监督,有成功案例吗?clustering 是个好东西 但是独立规模化成功的,几乎不见.

白:加上小数据,不是纯聚类.

李:对.以前有一个路子,貌似有部分成功,就是先聚类,然后人工少量干预(给好的聚类起一个名字/把混进革命队伍的异己分子手工踢出去之类),然后利用所起的名字作为带标数据,把聚类(clustering)转换为可以落地有价值的分类(classifciation).狸猫换太子,多少就克服了大数据短缺的知识瓶颈,聚类–>分类,曲线救国.

白:带标小数据更关键.

李:那也是一途 叫 seeds,boot strapping,找个办法来 propagation,用得巧的话,也有部分成功的,算是弱监督学习.

白:聚类是纯几何行为,不知道对什么敏感.小数据告诉您该对什么敏感.两轮驱动,不可偏废.大数据聚类可以提供疑似窝点,小数据一举捣毁.不是所有疑似窝点都值得捣毁.聚类是等势线(超曲面)相互包围的拓扑.

毛:立委您这不是抬杠吗,也没人说AI已经等同于人类智能呀.

肖:用户分群很有用啊,例子很多很多.聚类方式找异常也有很多成功应用,比如反欺诈.

李:聚类的结果 粗线条应用大概是有的,在宁可错杀一千的应用场合,或有当无的场合,聚类可松可紧,拿来就用,总之是有统计基础,作为参考,强过看不见.细线条就傻了.只要用眼睛和脑袋去检视过聚类结果的,大都有这个体会:这玩意儿说它不对,还长得蛮像,说它对吧,米锅里 到处可见老鼠屎.经常的感觉是鸡肋 食之无味 弃之可惜,用又不敢用,对接吧 可费劲了.词典习得 (lexicon acquisition),聚类用得上,最后的难点还是在对接上,就是聚类以后的标注(起名字),并让标注与现有的知识体系对接上.

白:不需要,有内部编号即可.以xor为例.聚类可以聚出四个象限.不需要为每个象限取名.如果小数据指向一三象限,就把这两个聚类的内部名称贴一个外部标签.聚类按小数据的指引,当粗则粗,当细则细.不能只用一个尺度,小波的成功就是借鉴.记得工厂里钣金,师傅领锤,力道不大但是都在点儿上,徒弟力大但不能乱锤,必须跟着师傅走.小数据是师傅,大数据是徒弟.

李:这个形象.

最近的NLG(自然语言生成)方面的成功,是因为语言模型在深度学习的时候 强大了.生成的句子 比我们普通人还顺溜.我们受过这么多年教育 还免不了文法错误 语句不顺.机器生成的句子 越来越"超越'人类了.怎么回事?

原来 NLG 比 MT 还邪性 还牛叉,MT 还需要双语的翻译大数据,NLG 面对的是单一的语言,数据无穷无尽,文满为患,这是一个极端的 raw corpus 居然等价于 labeled corpus 的现场.我们每个人写论文 都是潜在给 NLG 提供标注服务.自然语言语句与词汇随机发生器发出来的字符串 的不同,全部体现在每一篇人类撰写的论文里面.它不出色才怪呢.NLG 可以预见将来有大发展,在应用文写作等方面.有孩子的 可以放松他们的语文训练了,将来他们只要学会善用机器 就没有写不出规范的论文的.

白:大家写论文全一个味儿,也是问题.应该以强风格的作家为吸引子,形成若干漩涡,您接近某个漩涡,就持续往里面吸.至少不能千人一面.

肖:(NLG)现在摘要还写不好.

李:孩子不必特地去修应用文写作课,反正后来会有电脑帮忙写文字的.这就跟我小时候钢笔字写得狗爬似的,一直难受 羡慕小伙伴每天练字 让人看得赏心悦目.(当年喜欢一个女孩子 一半看脸蛋 一半看她写的字.)结果 我成年后 除了签字 就几乎没有写钢笔字的机会.

以前要成为(文科)大学者,最为人津津乐道和崇敬的是:

(1)记忆能力:过目不忘,检索起来可以闭着眼睛把典故的章节甚至页数指出来.社科院里面有很多这样广为传诵的奇闻逸事,尤其是关于钱锺书/吕叔湘这些老先生.

马:我认识一个理工科的教授,跟他聊天时,经常会说,那本期刊第几期第几页提到了这个问题.

李:(2)好书法.(3)诗词歌赋.

白:千万别提机器那个诗词歌赋,倒胃口.

李:感觉清华的<九歌>比不少郭沫若的诗词写得好.小时候看郭沫若带着西哈努克去山里面玩,诗性大发 口占一首,那个诗可真是纯粹应景 干瘪无味,就是平仄啥的应该整对了,论意境/诗味,啥都没有.

机器诗词倒胃口 也比不上郭沫若的那次表演(忘了是什么纪录片了),印象极深刻 不是好印象 而是坏印象.当然 艺术的鉴赏 见仁见智 不好说绝对.但往前看,机器做诗词 还有很多提升空间.人要熟读唐诗300首就很不容易了,机器灌输它个全唐诗去模仿,是小菜.人在时间限制下 需要应景作诗 提升空间就不大了.五步诗这样的天才 万里无一.

白: 端到端/简单无结构标签/大数据是深度学习商业化的关键.但凡涉及到场景化/复杂结构和小数据,深度学习一定会不适应.是让应用迁就深度学习还是用技术改造深度学习,这不是个简单的选择.我主张:1/把标注的对象从"语料'迁移到"资源';2/用带标小数据引领无标大数据;3/尊重领域专家/融合领域知识.

{相关}

{ 立委小品:AI is fake I }

{语义计算:李白对话录系列}

{置顶:立委NLP博文一览}

<朝华午拾>总目录

转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客. 链接地址:

上一篇:{ 立委小品:AI is fake I }

 

 

更多科研论文服务,动动手指,请戳 论文润色投稿期刊推荐论文翻译润色论文指导及修改论文预审

语言不过关被拒?美国EditSprings--专业英语论文润色翻译修改服务专家帮您!

上一篇:sci论文发表以后多久时间能够有收录号?

下一篇:艾德思:国家文化贸易学术研究平台与英国纽卡斯尔大学达成战略合作

特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。

凡注明来源为“EditSprings”的论文,如需转载,请注明来源EditSprings并附上论文链接。

最热论文