同路文档网

首页 > 专题范文 > 公文范文 > / 正文

基于新闻舆情数据选股因子【优秀范文】

2022-07-01 19:15:03 来源:网友投稿

下面是小编为大家整理的基于新闻舆情数据选股因子【优秀范文】,供大家参考。

基于新闻舆情数据选股因子【优秀范文】

 

 一、新闻舆情对股价的影响

 ..................................................................................... . - 6 - 1. 1

 舆情对股价的影响................................................................................. - 6 -

 1. 2

 通联数据情感因子库介绍...................................................................... - 7 - 二、新闻情绪因子构建...................................................................................... - 11 - 2. 1

 新闻情感平均值因子........................................................................... - 11 -

 2. 2

 新闻热度因子...................................................................................... - 12 -

 2. 3

 新闻情绪因子...................................................................................... - 14 -

 2. 4

 新闻类型改进的新闻情绪因子 ............................................................ - 15 -

 2. 5

 包含基本面信息的强相关新闻情绪因子.............................................. - 16 - 三、新闻情绪因子在不同市值下表现................................................................ - 18 - 四、新闻舆情因子的其他刻画方法.................................................................... - 22 - 4. 1

 新闻情绪差值因子............................................................................... - 22 -

 4. 2

 新闻情绪分歧度因子........................................................................... - 23 - 五、新闻舆情多头策略...................................................................................... - 25 -

 图表目录 图表

 1 :通联新闻数据对 A

 股覆盖率

  ................................................................... . - 7 - 图表

 2 :通联数据库新闻情感数据生成流程 ........................................................ - 8 - 图表

 3 :通联数据库新闻标签类型

 .................................................................... - 10 - 图表

 4 :新闻情感平均值因子分档回测 ............................................................. - 11 - 图表

 5 :新闻情感平均值因子多空回测 ............................................................. - 11 - 图表

 6 :新闻情感平均值因子收益表现 ............................................................. - 12 - 图表

 7 :新闻数量因子分档回测 ........................................................................ - 13 - 图表

 8 :新闻数量因子多空回测 ........................................................................ - 13 - 图表

 9 :新闻数量因子收益表现 ........................................................................ - 13 - 图表

 10 :新闻情绪因子分档回测 ...................................................................... - 14 - 图表

 11 :新闻情绪因子多空回测 ...................................................................... - 14 - 图表

 12 :新闻情绪因子收益表现 ...................................................................... - 14 - 图表

 13 :不同新闻类型下的强相关新闻情绪因子多空回测 .............................. - 15 - 图表

 14 :包含基本面信息新闻下不同相关度情绪因子最高组表现 ................... - 17 - 图表

 15 :包含基本面信息新闻下不同相关度的情绪因子多空回测 ................... - 17 - 图表

 16 :包含基本面信息的强相关新闻情绪因子分档回测 .............................. - 17 - 图表

 17 :包含基本面信息的强相关新闻情绪因子多空回测 .............................. - 17 - 图表

 18 :包含基本面信息的强相关新闻情绪因子收益表现 .............................. - 18 - 图表

 19 :新闻情绪因子分市值多空净值 ........................................................... - 19 - 图表

 20 :包含基本面的强相关新闻情绪因子分市值多空净值

 .......................... - 19 - 图表

 21 :超大市值组新闻情绪因子分档回测 .................................................... - 20 - 图表

 22 :超小市值组包含基本面的强相关新闻情绪因子分档回测 ................... - 20 - 图表

 23 :基本面信息下强相关新闻情绪因子分市值收益表现

 .......................... - 20 - 图表

 24 :强相关新闻情绪差值因子分档回测 .................................................... - 22 - 图表

 25 :强相关新闻情绪差值因子多空回测 .................................................... - 22 - 图表

 26 :强相关新闻情绪差值因子收益表现 .................................................... - 22 - 图表

 27 :低情绪下新闻情绪变化因子分档回测 ................................................ - 23 - 图表

 28 :高情绪下新闻情绪标准差因子分档回测

 ............................................ - 24 - 图表

 29 :包含基本面的强相关新闻情绪分歧度因子分档回测

 .......................... - 24 - 图表

 30 :包含基本面的强相关新闻情绪分歧度因子多空回测

 .......................... - 24 - 图表

 31 :包含基本面的强相关新闻情绪分歧度因子收益表现

 .......................... - 25 - 图表

 32 :三种新闻情绪多头策略净值曲线

 ....................................................... - 25 - 图表

 33 :三种新闻情绪多头策略表现 ............................................................... - 26 -

 图表

 34 :高情绪、低标准差、高正向情感占比多头组合

  ................................ . - 27 - 图表

 35 :高情绪、低标准差、高正向情感占比多头组合表现

 .......................... - 27 -

 一、新闻舆情对股价的影响 1.1 舆情对股价的影响

 舆情对股价的影响是近年来行为金融学热点研究领域之一 ,

 在大数据的支持下,我们可以通过文本挖掘技术发现新闻信息的背后情绪 , 并作为分析股价涨跌的新视角。

 通常认为,股价主要受业绩和估值两方面因素驱动。而新闻中体现的市场情绪一方面影响中短期的估值水平,一方面也反应了市场对公司未来业绩的预判,因而把握舆情对预测股价收益有重要影响。

 在因子模型中,新闻舆情因子属于另类

 A l pha

 因子的一种。相比于传统的业绩因子,新闻舆情因子能够以更加高频的动态来捕捉影响因素的变化情况,在选股周期上更加灵活;相对于同样高频的量价因子,新闻舆情因子的逻辑意义则更加直观。

 新闻舆情对股价的影响可以从两个方面刻画:舆情的热度(新闻数量)和舆情的评价度(新闻情感)。两者相对来说,新闻数量对股价的影响可能更偏短期;而新闻情感由于包含了对公司业绩、经济环境的中长期展望,对股价可能产生持续的影响。

 通过爬取新闻数据并对新闻中体现的情感进行标准化打分,我们不仅可以定量刻画新闻的热度,也可以定量把握新闻的情感。

  1.2 通联数据情感因子库介绍

 1)

 数据覆盖率

  当前

 A

 股上市公司共有

 3876

 家,其中在通联数据库中有新闻数据的个股共 3848

 只,覆盖率为

 9 9. 86 % 。根据历史数据统计,通联新闻数据对

 A

 股的月频覆盖率保持在

 98. 8% 以上,覆盖情况较为充足稳定。

 图表

 1 :通联新闻数据对

 A

 股覆盖率

  来源:通联数据,中泰证券研究所

 2)

 新闻情感生成规则

  通联新闻数据来源于

 1500 + 个新闻源,包括常见的财经网站、官方网站、以及有影响力的公众号等自媒体,交易日平均新闻数量在

 2

 万条左右,单条新

 闻发布后平均在

 3

 分钟内完成数据库收录以及相关参数计算。

 通联新闻数据从

 2014

 年开始实时更新,数据内容包括:新闻标题、新闻来源、发布时间、关联公司、关联度、情感得分以及新闻标签等。其中, 新闻情感得分是通联数据库中的特色数据,以取值在 [ - 1,1] 之间的标准化得分形

 式来定量刻画每条新闻的情感倾向。

  新闻情感的标准化得分主要基于

 N LP

 语义分析和机器学习算法生成。

 单条新闻收录后,首先识别新闻中关联的上市公司,并通过新闻类型与上下文内容给出新闻与个股的相关程度,分为

 0 / 1 / 2

 三个等级,其中

 2

 表示强相关, 1

 表示弱相关, 0

 表示不相关。其次,使用

 NL P

 模型进行语义分析,并将分

  析结果输入机器学习模型,输出正向情感( 1 )

 /

 负向情感( - 1 )

 /

 中性情感

  ( 0 )三个分类的概率,最终加权得到该条新闻对关联个股的情感得分。情感得分为 [ - 1,1] 之间取值的标准化分数,分数越大表示新闻情感越正面。

 新闻情感的机器学习训练数据的时间覆盖区间为

 2014

 年

 7

 月至

 2019

 年

 1

  月,其中

 2018

 年之后比重较大,既保证模型对最新的新闻有较强的拟合能力,又保证模型对长尾新闻有一定的泛化能力。同时历史新闻数据为千万量级,训练数据为万级,避免了机器学习算法中对数据过拟合的问题。

 图表

 2 :通联数据库新闻情感数据生成流程

  来源:通联数据,中泰证券研究所

 例如,在

 2020

 年

 6

 月

 28

 日发布的新闻《贵州国威酒业携手中国食品发酵

 工业研究院共建绵柔酱香型白酒技术标准体系》中提到 “ 通过与中国食品发酵工业研究院的合作,将大大加快国威酒业酱香型白酒生产标准跨入标准化体系的进程,意味着绵柔酱香型白酒的研究进入了新的里程。同时,也为酱酒大家庭中增加了一个更具典型特点和健康属性的明珠 ” 。通联新闻数据库对该新闻提取的相关上市公司为贵州茅台,相关度为

 2 (强相关),情感得分较高为

 0. 65

 分。

 2020

 年

 6

 月

 29

 日发布的新闻《端午节白酒小高峰未到

 动销两极分化,难

  倒

 8

 成中小酒商》主要对白酒行业进行整体分析,提到贵州茅台、五粮液等多个上市公司,新闻中既表示高端白酒销量更好,又对疫情影响下后续消费力度表示担忧。通联新闻数据库对该新闻与贵州茅台的相关度评为

 1 (弱相关),情感得分为相对中性的

 0.03

 分。

  3)

 新闻标签类型

 另外, 通联数据对新闻的类型也进行了标记 ,主要包括:新闻是否包含基本面信息、新闻是否包含数据、是否长新闻、是否来源于专业网站、是否短新闻、是否为月度数据、是否国家发布的政策、是否图片式新闻、以及是否定期报告等。

  新闻类型标签以及分类规则见图表

 3

 所示。这里需要注意,由于新闻中经常引用和转发证券公司的研究报告,因此新闻数据中也包含研究报告数据。研报数据多被归至包含基本面信息的新闻、月度数据新闻、以及定期报告新闻中。

 举

 图表

 3 :通联数据库新闻标签类型

 通联数据对

  例如, 2020

 年

 6

 月

 29

 日发布的《智飞生物:融资余额

 19 .7 1

 亿元,创历史新高( 06 - 24 )》被划归为不包含基本面信息新闻、包含大量数据信息新闻、以及来源于非专业网站新闻(新闻发布于东方财富网)。

 和讯研报网

 2018

 年

 10

 月

 8

 日发布的《智飞生物:看好公司业绩持续高增长

 买入评级》被划归为包含基本面信息新闻、来源于专业网站新闻(新闻为转载研报)。但由于新闻并非以数字为主,故被划归为非大量数据信息新闻。

 是否月度数据

  是否国家发 布 的政策

  是否定期报告

  来源:通联数据,中

 券研究所 )泰证一般包括证券公司研究报告/国家统计局报告。

 是否包含图片式信息。

 型

 是否图片式 新 闻

  是否与国家政策相关。

 类

 新闻主要对某个月进行总结(一般新闻标题中会点名月份,如某地 9

 月份房价变化)。

 新闻字数不超过 200

 个字。

 闻

 是否短新闻

  是否来源于 专 业 网 站

  新

 其中共分为 3

 类:标记 1

 代表专业新闻,来源一般为证券公司官网/公司官网/报纸(如证券时报)/财经新闻(如和讯/搜狐)/财经论坛(如证券之星/金融界);标记 0

 代表非专业新闻,来源一般为财经论坛(如东方 财富网/新浪财经);标记 2

 代表来源于微信。

 (

 是否长新闻

  新闻字数超过 2000

 字。

 新闻中是否包含大量数字。

 息

  例

 是否包含数 据 信

  新闻是否包括宏观/行业/公司基本经济与财务信息。

 是否包含基 本 面信息

  标签解释

  新闻标签

  二、新闻情绪因子构建 2.1 新闻情感平均值因子

 国内外学术研究都表明,新闻情绪可以影响上市公司的股票价格,正面情绪会导致股票价格上涨,负面情绪会引发股价下跌。从经济意义上来说,新闻中体现的情感越正向,代表市场对上市公司或股价走势的前景更有信心,因此可能对应股价未来更好的表现。

 考虑到日频数据的换手成本过高,我们计算月度数据作为新闻情感因子。在每月末计算每只股票当月所有新闻的情感分数的平均值,来刻画个股当月的新闻情感度,并以此作为次月持仓个股的筛选条件。

 按每...

推荐访问:基于新闻舆情数据选股因子 舆情 因子 选股

搜索