- 挑战 - 作业部落 Cmd Markdown 编辑阅读器

@evilking 2018-01-03T15:54:44.000000Z 字数 2278 阅读 1490

需求研发
- 本项目是通过给定的企业名称去检索出与该企业有关的新闻，从而可以实时的把握本企业或同行业的其他企业的舆论动向；要想实现这一目标，就需要对新闻文本进行挖掘，第一步就是要对中文进行分词，而高精度的分词也是后续其他文本处理任务的基础，所以我们在这块做了许多研究和实验，最后得到比较好的分词效果。
- 要想让新闻与企业关联，就需要在分词的基础上从新闻中提取出与企业有关的特征，我们使用的是企业全名称和特征词，比如一篇文章中提到“鹏元征信”，我们就认为该新闻与“鹏元征信有限公司”有关。
- 我们知道在互联网环境上有很多抄袭、转载等情况，当某个企业关联上众多的新闻后，存在了大量重复或相似度新闻，为了提供更好的用户体验，我们需要对这些重复的新闻进行去重，去重完后需要对新闻进行排序，以方便展示。
- 上面用特征词做关联有个准确度的问题，特征词往往并不能完全决定某篇新闻与某个企业关联，比如新闻中出现“滴滴”，我们可以将它关联到“滴滴打车”对应的小结有限公司上，但是有部分新闻会出现“滴滴的刷卡声”等句子，这就会关联错误，于是我们通过计算新闻与关联上的企业下所有的新闻的相似度来判断该新闻与该企业的关联度。如果关联度比较低，就说明这篇新闻与这个企业不相关。
- 如果企业能把握同行业其他企业的舆论动向，则对本企业的战略发展有重大意义，于是我们做了企业的相关企业与相关人物的需求，比如我司关注“芝麻信用”或者“古国良”的新闻，其中“芝麻信用”是相关企业，“古国良”是相关人物。
- 以上这些需求和算法的实现，基本都是我独立完成，并配合其他部分的同事调测大数据平台，顺利完成一期和二期的项目目标。
算法优化
- 研究双数组字典树，是为了优化前面的企业全名称和特征词的多模式匹配，优化前需要将全量的企业全名称导入到内存中，占用约30G的内存，就是什么都不做就消耗了整个大数据平台的1/5的资源，同时随着数据量的增加，模式匹配速度会减慢；经过优化后，加载全量的企业全名称数据只需要六七G的内存，而且匹配速度只与匹配的字符串的长度有关，与数据量无关。
- 前面也说了中文分词是文本挖掘的基础，这块我们分析了结巴分词和HanLP分词等多种工具的实现原理，并做了改进，从而得到了较好的分词效果。
- 在构建分析引擎之前，我们项目中数据清洗部分和数据挖掘部分的逻辑是混合在一起的，这样逻辑不够清晰，而且由于加载企业全名称表阻碍了大数据平台并发度的提升，所以我们考虑将数据挖掘部分的逻辑提取出来，放在独立的服务器上运行，形成分析引擎，显著提升平台的性能，同时我们构建的算法库，为以后其他文本挖掘项目做了铺垫。
- 我们之前主要做的是企业新闻，现在加入了明星新闻，如果明星新闻连人名都无法很好的识别出来，那如何来做明星新闻的相关分析呢？为了提升人名识别的准确度，我们使用了深度学习的方法进行优化。
- 前面说了去重和排序部分，随着数据量的增长，企业关联上的新闻数量越来越多，像一些大型企业，能关联上上百万篇新闻，如果对这么大量的新闻进行实时去重和排序，是非常困难的，所以我们分别从技术和业务的角度做了优化，从而满足实时性需求。
其他
- 如果数据清洗部分或者数据挖掘部分的逻辑进行了修改，又不影响在线环境，我们需要对全量的历史数据按新规则在离线重跑环境下进行重跑；为了能在短时间内看到重跑后的数据效果，我们使用了多种技术手段对重跑部分进行优化，最终两天内能处理完接近一亿的数据，达到满意的效果。
- 新闻的正负面性是企业比较关注的问题，如果企业能及时发现一些负面新闻，那对企业的及时公关非常有意义；所以新闻情感分析是非常有价值的，这一块我主要是协助另外的同事做相关算法的调研和编码实现。
工作收获与不足
- 首先是专业技能得到了很大提升，比如大数据平台相关的开发，自然语言处理的理论和实践等；其次是跨部门协调能力也得到了提升，本项目涉及到数据平台部、数据采集部、项目管理部等多个部门，在工作中学会了协调工作，更好的完成任务。
- 不足之处是沟通协调能力、技术培训等反面还比较欠缺，比如给部门同事进行培训时，专业性比较强，而没有考虑到其他同事的知识背景、知识接收度等方面；相应的问题也体现在了文档编写中，表达方面后续需要多多向领导和同事学习。
- 意义
  对项目来说，企业新闻数据对企业把握本企业的舆论动向是非常有价值的；另外一方面，都说现在是大数据时代，企业新闻搜索项目是我司第一个大数据项目，当然肯定不是最后一个，所以本项目除了项目本身的价值外，还为后续的大数据项目做了技术积累和人才储备。
- 挑战
  在做项目的过程中也存在着一些问题，我们的新闻数据最开始就追求量大而全，导致后面要花费大量的时间和精力去做数据清洗和优化，使得整体项目被拖慢；我们其实可以先只考虑某一类的企业新闻，比如上市公司的新闻，先把整个文本挖掘流程完善后再扩展到其他类别。这样能提前看到完整的产出。
工作规划
- 上面也说了情感分析对企业来说非常有价值，对情感分析模块投入更多的精力去优化也是有价值的。
- 命名实体识别在我们项目中的体现主要包括组织机构名识别和人名识别，对相关人物和明星新闻的分析来说，命名实体识别是基础任务，需要持续优化。
- 后续考虑增加企业新闻搜索的用户行为分析和个性化推荐，更好的为用户提供服务，提升用户体验，实现精准营销，从而能提升用户量，为公司更好的创造收入。
- 相关企业、相关人物、企业族谱这几个功能涉及到复杂的图的计算，随着需求和数据量的增加，现有的存储方式可能不太适用了，所以后续我们考虑用图数据库来优化处理逻辑，搭建知识图谱，能提升系统性能和硬件资源的消耗。其实我们现在就已经开始在做相关的计算调研了。

内容目录

选择主题