记一次数据科学沙龙

机缘巧合,参加了第一次由统计之都联合其他单位在宁波办的数据科学沙龙。沙龙请了两位大咖,一位讲数据科学的发展及应用,一位讲具体的开发工具。简单记录了一下。

数据科学的发展变迁及行业应用实例

嘉宾:李舰

发展历史

  • 科技在发展,GPU 有多核,适用于简单的加减乘除,有利于大数据的暴力破解
  • 大数据、机器学习/数据挖掘、深度学习、AI的区别及联系(简单地说,范围依次缩小)
  • 这个领域称为数据科学较合适

医疗健康应用

  • 疾病时空分析(找周期、区域的规律)
  • 疾病网络分析(先挖掘,不管内在联系,找各种疾病之间的联系)
  • 文本分析(病历)
  • 医学影像分析(影像数据->肿瘤分割->影像特征提取->结构化数据整合->机器学习->诊断预测)
  • 临床试验和建模模拟

商业零售应用

  • 新店选址
    • 原先的方式要么是使用日本的软件,费用较高。要么是总结、猜测与其他企业的相关性,如星巴克、麦当劳,跟随选址开店
    • 新方法是选用大数据,历史选址是否成功为Y轴,各种店的类型为X轴,形成热力图,选址
  • 销售情况BI分析
  • 餐饮用户画像

工业制造应用

  • 咖啡配比优化(一定的配比范围内,味道一致,因此需计算成本较低的最优配比)
  • 烟叶图像识别(通过自动识别烟叶的照片确定烟叶的质量好坏)
  • 管道腐蚀预测(英国石油的案例,目的是找到腐蚀壁厚较薄的管道进行更换)

交通物流应用

  • 机场排班优化
    • 原先:机场购买欧美软件进行飞机排班,较老
    • 非技术因素:飞机延迟1分钟和延迟1小时可能对航空公司的收益影响不大。补给车、摆渡车的路线存在优化空间但难以推动
    • 解决问题不仅仅考虑数学,还有考虑管理学
  • 运输风险监控
    • 侧重大型货车驾驶安全,虽然驾驶员排斥,但是运输公司仍在推行
    • 自动识别驾驶员睡觉、吸烟等行为
  • 车险定损和理赔

问:相关性和因果性如何区分?
答:大数据只研究相关性,不研究因果性。用对方法,相关性强,接近于因果性。

茶歇时刻,大咖聊起大数据应用的前景说,最看好的还是工业制造方面的应用,因为这是最容易改进出较大经济效益且还处于红海阶段的领域。

Python机器学习生态

嘉宾:肖凯

项目成功四点因素

  • 业务问题
  • 场景数据
  • 解决方法
  • 实施工具

岗位:数据分析师(报告)、数据科学家(原型代码)、程序员(代码)

Python的工具集

  • Pandas:用于分组、过滤、组分数据处理等分析
  • StasModels:回归模型、方差分析、因子分析等
  • Scikit-learn:机器学习,一步步判定,比如先判定是数值问题还是分类问题,判定流程图详见官网

ml_map

  • XGBoot:梯度提升学习算法,底层C++,使用二阶导的算法,速度快
  • NLTK:自然语义分析,对于英文有词淡化的功能,消除单词时态的影响
  • BOKEH:展示

TensorFlow官网有一个神经网络游乐场,可以玩一下。

问:树和神经网络应用如何选择?
答:神经网络可以分析图、无人工特征的数据,速度慢一些。树可用于结构化数据,已经经过人工筛选的数据,速度快。


最后,推荐一位统计之都核心成员的独立博客:谢益辉,可以用RSS订阅。虽然是统计学博士,文章很有人文气息。

   

发表评论

邮箱地址不会被公开。 必填项已用*标注