赞//@好东西传送门:回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授 研究组的工作 @52nlp 2011年转过他们短信捐赠请求

分享一个短信语料库, 42140 条英文短信和31205 条中文短信的语料,今年9月份还在更新,可以用来做QA系统。另外想知道微软小冰号称“集合了中国近7亿网民多年积累的全部公开聊天纪录1500万条语料”在哪能找到呢? @好东西传送门 @52nlp



这个文章写得真好[good]//@龙星镖局: 转发微博

《字符编码常识及问题解析》在面试的笔试题里出了一道开放性的题:请简述Unicode与UTF-8之间的关系。一道看似简单的题,能给出满意答案的却寥寥无几。(来自: ShareCore )




大规模文档自动摘要应该还是很有前景的, 但这个问题本身的定义太难了

当文本搜索的主界面变成了各式图表,那说明文本本身已经不重要了,重要的是文本的metadata



当文本搜索的主界面变成了各式图表,那说明文本本身已经不重要了,重要的是文本的metadata



好好学习 feature engineering

【Machine Learning Cheat Sheet Map】 scikit-learn 是一个用Python语言编写机器学习库的开源站点.通常解决机器学习问题最难的部分就是找到合适的估计器.下面的流程图清晰地给出了解决问题的路径,单击任何估计器就能看到它的文档。@陈利人@张栋_机器学习@王威廉@梁斌penny@丕子




看了一下这篇文章的 reference,居然有好几篇文章的作者是我们实验室毕业的 @LCL-WHU @北京赵乾坤 @EinsteinTheBuilder @jsweng

社交媒体信息在自然灾害等紧急情况下的信息处理综述,包括信息过滤,分类,排序,整合,提取,和摘要 Processing Social Media Messages in Mass Emergency: A Survey




转发微博。

#SVM vs Logistic Regression# 1)逻辑回归和线性核SVM本质上其实没啥区别;2)特征数大于样本数或者二者数量相当时,逻辑回归或者线性核SVM会有比较好的效果;3)特征数较少,样本数一般多时,高斯核SVM会有比较好的效果;4)特征少,样本特别多时,构建更多的特征,然后用逻辑回归或者线性核SVM




几年前投稿给一个期刊,接收之后估计主编认为我们英文太次了,所以免费帮我们做了一份英文校对,指出了很多语法错误,有些不是语法问题也建议修改。有一点很有意思,建议将文章中表示原因的 since 和 as 改为 because。现在写文章的时候基本都用because, 不用 since 或 as了。



滚动到底部翻页
上一页下一页

回到首页返回顶端