AixinSG孙爱欣的微博&私杂志

赞//@好东西传送门:回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授研究组的工作 → @52nlp 2011年转过他们短信捐赠请求 →

分享一个短信语料库， 42140 条英文短信和31205 条中文短信的语料，今年9月份还在更新，可以用来做QA系统。另外想知道微软小冰号称“集合了中国近7亿网民多年积累的全部公开聊天纪录1500万条语料”在哪能找到呢？ @好东西传送门 @52nlp

这个文章写得真好[good]//@龙星镖局: 转发微博

《字符编码常识及问题解析》在面试的笔试题里出了一道开放性的题：请简述Unicode与UTF-8之间的关系。一道看似简单的题，能给出满意答案的却寥寥无几。→（来自： ShareCore ）

大规模文档自动摘要应该还是很有前景的，但这个问题本身的定义太难了

当文本搜索的主界面变成了各式图表，那说明文本本身已经不重要了，重要的是文本的metadata

好好学习 feature engineering

【Machine Learning Cheat Sheet Map】→ scikit-learn 是一个用Python语言编写机器学习库的开源站点.通常解决机器学习问题最难的部分就是找到合适的估计器.下面的流程图清晰地给出了解决问题的路径，单击任何估计器就能看到它的文档。@陈利人@张栋_机器学习@王威廉@梁斌penny@丕子

看了一下这篇文章的 reference，居然有好几篇文章的作者是我们实验室毕业的 @LCL-WHU @北京赵乾坤 @EinsteinTheBuilder @jsweng

社交媒体信息在自然灾害等紧急情况下的信息处理综述，包括信息过滤，分类，排序，整合，提取，和摘要 Processing Social Media Messages in Mass Emergency: A Survey →

转发微博。

#SVM vs Logistic Regression# 1)逻辑回归和线性核SVM本质上其实没啥区别；2）特征数大于样本数或者二者数量相当时，逻辑回归或者线性核SVM会有比较好的效果；3）特征数较少，样本数一般多时，高斯核SVM会有比较好的效果；4）特征少，样本特别多时，构建更多的特征，然后用逻辑回归或者线性核SVM

几年前投稿给一个期刊，接收之后估计主编认为我们英文太次了，所以免费帮我们做了一份英文校对，指出了很多语法错误，有些不是语法问题也建议修改。有一点很有意思，建议将文章中表示原因的 since 和 as 改为 because。现在写文章的时候基本都用because，不用 since 或 as了。

滚动到底部翻页

AixinSG孙爱欣的微博&私杂志

热门话题