记录一下最近的一些事和文章更新计划

距离上一篇博文居然已经过去了4个月了!

这四个月,我干了些什么,是该好好缕缕了。顺便来一波更新,把学过的东西都记录一下。

2017年9月,研二上学期开始,正式投入项目+科研+比赛。

项目

项目方面,导师和一家生物公司有合作,去年我们就有初步接触,当时做了点数据可视化,然后就匆匆忙忙开始研一上课了,今年他们倒是为项目起了个比较响的名头–“AI团队”,想让我们用算法来解决一些生化实验上的问题。他们做的事情也很有意义,简单来说,他们做的事情就是–用基因检测的方法来检验变异的基因,从而能够尽早的发现癌症。

几个月来,断断续续有在跟进这个项目,跑了一些回归算法,分类算法,也学了一些统计学的知识。

感觉算法来来去去就是那些,要真正理解业务需求,了解数据意义,才能发挥算法的作用。

科研

大方向是自然语言处理,具体一点是实体识别,更具体一点,是商品名识别。

在深度学习火起来之后,命名实体识别也有积极的发展。

这几个月,尝试了用规则提取实体,到使用HMM算法,再到最大熵、CRF,然后是比较新的深度学习方法,如LSTM+CRF。大概对常规操作有了一定的了解了,接下来,就要思考改进方向了,争取把一些新的研究成果用上来。

比赛

恰好开学之后,2017CCF BDCI(CCF 大数据与计算智能大赛)开始了,其中的《基于机构实体的智能摘要和风险等级识别》这个赛题还比较适合我,就和实验室小伙伴良超同学组队开搞了。

赛题

其实这道赛题涵盖的内容非常多,包括命名实体识别、情感分析、关键词和摘要的抽取,当然了,最后评分的标准主要是命名实体和情感分析这一块。

最终用CRF和FastText,还有我们两个我们也取得了还不错的效果,幸运挤进TOP5,去江苏常熟参加了决赛答辩,最终斩获第四(前三才有奖金,哭)。

还算是一段不错的经历。

文章更新计划

接下来,要把这几个月做过的技术问题,逐渐以文章的形式记录出来。

1.命名实体识别相关(规则、CRF、神经网络)

2.分类相关(文本分类fasttext、SVM、LR、提升树模型等等)

3.比赛经历、解题思路

《记录一下最近的一些事和文章更新计划》有7个想法

  1. 看了你写的东西,真心觉得你对生活、科研、工作都是一个充满热忱的人。我想我要有你一半的热忱,该多好!我也是实体识别方向,愿以你榜样,能写出一篇不错的论文把。。。不知道你以后会不会上博客,感觉有很多实体识别的问题要请教你,哈哈哈~~~

    1. 谢谢你~我这个7月份正式成为上班狗了,工作有点忙,不过抽空还是会想更新下博客的。希望你能顺利出论文,加油

      1. 您好,对您参加的比赛非常感兴趣,想请教您CRF和FastText解决机构实体识别的代码,请问您方便吗?谢谢!

渔船进行回复 取消回复

电子邮件地址不会被公开。 必填项已用*标注