自然语言处理 or 量化交易?

523 阅读11分钟

源 | 小象     文 | 文刀

写这篇文章并不意味着自然语言处理和量化交易这两个话题有必然的联系,如果非得扯上关系的话,那就是它们都属于当下火热的人工智能的两个研究领域。

这篇文章以初学者的视角来介绍「自然语言处理」和「量化交易」两个领域,如果有注意到这两个领域并为此感兴趣的话,那么此文将对读者有一定的借鉴意义。

一、自然语言处理

自然语言处理(Natural Language Processing,以下简称NLP)是人工智能和语言学领域的分支学科,主要是研究如何让计算机处理及运用自然语言,是人工智能的重要组成部分。自然语言处理广义上分为两大部分:自然语言理解(Natural Language Understanding,以下简称NLU),自然语言生成(Natural Language Generation,以下简称NLG)。

NLU想要达到的目的是让计算机能够正确“听懂”人话,NLG则是要计算机准确“说出”人话,所以这也可以看作是一个典型的IPO(Input Process Output)模型。

1、研究方向

  • 句法语义分析。对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。

  • 语音识别。输入一段语音,转换成特定的文字。

  • 信息检索。从大规模非结构化数据(通常是文本)的集合中找出满足用户信息需求的资料。

  • 文本挖掘。通过把语音信号转换成文本信息,利用词/句法相关理论知识,对其做分类,信息抽取,摘要提取,进而达到舆情分析,情感倾向分析等目的。这部分应用主要依赖于基于统计学的机器学习。

2、应用场景

  • 智能对话系统。这是NLP较高层次的应用,也是NLP最需要突破的瓶颈之一。现在市面上见到的智能对话系统大多基于“sequence-to-sequence”框架,理论上,给足了训练集的话,是可以应对不同的对话场景,但实际上是不太现实的。所以在没有被突破之前,智能对话系统只能在限定的场景下发挥其作用。代表厂商如:微软小冰,其次是各大电商平台推出的智能客服系统;

  • 机器翻译。这是NLP领域最常见的应用之一,随着深度神经网络的发展,机器翻译方面取得了较为瞩目的成就。代表厂商如:Google翻译,有道词典,Bing词典等翻译类的SaaS平台;

  • 输入法/搜索引擎。综合了语音识别,文本挖掘,信息检索等多项技术。代表厂商如:百度搜索,Bing,搜索输入法等。

3、学习方法

  • 书籍。笔者根据网上查阅的资料整理出了自然语言处理的TOP 5书籍榜单,并且分成了中英两种语言的榜单,英文版的书籍也都有对应的中文译作。如下图所示:

  • 视频。对于英语基础好的读者,首选的学习阵地当属Stanford、Coursera,这两个地方的视频课程在业界是非常权威的,关注小象公众号,回复 课程链接 即可得到视频链接地址。当然,国内也相继出现了一批视频教程,有好有坏,就不具体列举了。

  • 网站。先关注两个机构:中国中文信息学会、国际计算语言学协会,这里面有你想要的论文,而且绝大多数是免费的;国内做的不错的网站是我爱自然语言处理(www.52nlp.cn),可以认为是一个NLP领域的Portal,站长还贴心地链接了一个专门针对NLPers的垂直招聘网站(www.nlpjob.com);因为哈工大信息检索研究中心算是国内NLP领域的佼佼者,其推出的语言云:LTP-Cloud还是有必要了解一下的。以上资料对于初学者来说已经非常充裕了,考虑到面向的是国内读者,我不再推荐外文网站了。

4、市场前景

说话可谓是人类最原始的本能之一,倘若能和一台机器自由的交流,表达自己的想法和心声而不受到任何阻碍,想必这将是自然语言处理的又一个新境界,更使得「人工智能」这个词汇更具有温度。正如电影《她》中展现的那样:

脱去科技冰冷的面纱,赋予它高度人性化和活色生香的情趣,让一段人机对话变成情人絮语。

然而,NLP正在向99%大关挺进,今后的路途会比较艰苦卓绝,所以NLP依然是机器学习有待攻克的一个重大领域。语言本身就已经是人类一种高层次的表达方式,深度学习在NLP领域中取得的成绩并不如在计算机视觉领域那样突出,识别率增速迟缓,识别速度倒是慢了许多,所以一般的素人进入这个领域很难出成果,也容易触碰到天花板。

不过,NLP也有一定程度的商业化,各大厂商推出的AI云平台多少都涉及到了NLP领域。国内的NLP人才大多都流向了大企,薪资待遇自然是不得而知了。

二、量化交易

量化交易是指借助现代统计学和数学的方法,利用计算机技术来进行交易的证券投资方式。量化交易从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略,用数量模型验证及固化这些规律和策略,然后严格执行已固化的策略来指导投资,以求获得可以持续的、稳定且高于平均收益的超额回报。

以上这段对于「量化交易」的解释来源自MBA智库。

量化交易是基于量化分析的交易策略,它依赖于数学计算和数值分析来确定交易时机。量化交易通常是一些金融机构和对冲基金在使用,交易规模都会非常大,可能涉及购买和出售数十万股股票和其他证券。

因此,量化交易无非就是用“高科技”手段加持过的投资方法,以便在交易过程中尽可能保证精准,避免个人情感的带入而做出非理性的决定,引起不必要的风险。

1、研究方向

  • 策略研发。简单来讲,就是参照以往的数据和经验,制定一套新的交易策略。

  • 交易程序化。就是用软件程序实现各个交易策略,这也是量化交易与人工智能交叉的地方。

  • 资金管理与风控。各个市场及品种的投资资金分配,在运用计算机进行风险监控的同时,进行人工辅助监控。

2、应用场景

各大券商,交易所都有应用,这里不详细说明应用场景了,列举一些量化平台,感受一下:

  • Quantopian,这个平台堪称业界典范,也是国人竞相模仿的一个量化平台。

  • 优矿,米筐和聚宽,算是国内量化先行者,相对比较完善,模仿的是Quantopian。

  • JD Quant,京东金融旗下的量化平台。主营业务是对量化策略的在线开发,并实施运营回测,主要还是依托了京东强大的资源整合能力,能提供海量的数据和强大的服务支持。

3、学习方法

  • 书籍。因为量化投资在国内起步很晚,书籍基本都是出自美国作家之手,这里列举TOP 5书籍榜单,此榜单可以认为是量化交易的金融基础知识,至于软件程序方面,都是机器学习和大数据相关的通用技能,故不再列举。

  • 视频。量化交易的视频资料并不多,笔者淘到了一些资料。来自厦门大学金融工程基础知识视频,关注小象公众号,回复 课程链接 即可得到视频链接地址;米筐出品的一系列教程,没看过,目测有硬广的嫌疑。

4、市场前景

量化交易是未来金融投资的趋势,国外的量化普及程度算是比较高了,在国内,量化概念还仅仅是一部分人了解,不过国内也已经有一些量化交易先行者了,在上文中也所有提及。尽管如此,量化交易领域也并不是一片红海,国内外也暂未形成一家独大的垄断局势,正在激烈角逐的阶段。

金融行业华丽高端的外表下掩藏着一群交易员的辛酸与悲欢,在量化交易领域,不仅需要懂得专业的金融知识,制定交易策略,还需要对计算机编程有所了解,甚至是用编程语言实现一个交易策略,专业交易员是时候用量化武器武装自己了。

当前局势下,对于经管专业的人来说,进入量化投资领域无疑是明智的,各大厂商招聘的起薪通常在15K左右,也有高过20K的。

总结

本文从研究方向,应用场景,学习方法以及市场前景四个方面分别对自然语言处理,量化交易进行了介绍,虽然并不是很全面,但对于初学者来说还是具有比较实际的参考意义的。

Q&A:

这里列举三个笔者经常被问及的问题,供初学者参考。

问:到底是参加线上视频教程还是线下授课比较好?

答:这个问题没有绝对,线上线下各有各的好处,不妨将两者进行结合。我个人还是建议去找一些性价比较高的线上课程自觉学习,此外,还可以多关注一些NLP领域的线下活动或者会议,排好档期,参加之。如果是土豪,那请随随意!

问:我应该选择人工智能哪个领域?换言之,怎么样学习人工智能才比较有前景?

答:人工智能是一个庞大而错综复杂的综合学科,其中的每一个分支领域都值得去深究。笔者认为初学者应该尽早结束“观望”的状态,进行必要的调研后,选择其中的一个分支进行钻研。当然,也有人认为应该广泛涉猎,多多益善,现在用不上,难保以后能用上呢?这种观点是针对学习能力非常强的人,不然的话,很容易陷入「什么都知道,什么都不会」的“半吊子”状态,对于自己的职业生涯是极其不利的。

问:我进入机器学习领域,可以不学数学、统计学等相关知识吗?

答:机器学习领域分了三类人,一类人是精通/熟悉领域内的相关算法,并能提出创造性理论的学术研究者,我称之为A类;还有一类人基本上和A类人是对立的,不关心任何算法,但会用编程语言调用相关的算法库,我称之为C类;最后一类人则是介于A类与C类之间了的B类了,B类人群大概是最多了的。题主所说的不学数学、统计学等相关知识的人,那么就以C类的身份进入机器学习领域,这种人也是有一定价值的,但是缺少核心竞争力,就业面也不如A类和B类人群那么宽泛了。

-END-

作者:文刀

Java Web全栈工程师,高级架构师,技术布道者。曾任两家上市公司的技术主管,从事微服务架构设计,DevOps团队建设工作,在电商、LBS、IoT等相关应用领域有丰富的项目经验。微信公众号:jishuhui_2015