大数据培训Impala之优化

发布时间:2020年07月03日作者:atguigu浏览次数:614

大数据培训Impala之优化

尽量将StateStore和Catalog单独部署到同一个节点,保证他们正常通行。

通过对Impala Daemon内存限制(默认256M)及StateStore工作线程数,来提高Impala的执行效率。

SQL优化,使用之前调用执行计划

选择合适的文件格式进行存储,提高查询效率。

避免产生很多小文件(如果有其他程序产生的小文件,可以使用中间表,将小文件数据存放到中间表。然后通过insert…select…方式中间表的数据插入到最终表中)

使用合适的分区技术,根据分区粒度测算

使用compute stats进行表信息搜集,当一个内容表或分区明显变化,重新计算统计相关数据表或分区。因为行和不同值的数量差异可能导致impala选择不同的连接顺序时,表中使用的查询。

大数据培训
大数据培训Impala之优化表中使用的查询
  • 网络io的优化:

      –a.避免把整个数据发送到客户端

      –b.尽可能的做条件过滤

      –c.使用limit字句

–d.输出文件时,避免使用美化输出

–e.尽量少用全量元数据的刷新

  • 使用profile输出底层信息计划,在做相应环境优化

上一篇:
下一篇:
相关课程

java培训 大数据培训 前端培训 UI/UE设计培训

关于尚硅谷
教育理念
名师团队
学员心声
资源下载
视频下载
资料下载
工具下载
加入我们
招聘岗位
岗位介绍
招贤纳师
联系我们
全国统一咨询电话:010-56253825
地址:北京市昌平区宏福科技园2号楼3层(北京校区)

深圳市宝安区西部硅谷大厦B座C区一层(深圳校区)

上海市松江区谷阳北路166号大江商厦6层(上海校区)

武汉市东湖高新开发区东湖网谷(武汉校区)

西安市雁塔区和发智能大厦B座3层(西安校区)