mysql - 妙音 -

https://v.qq.com/x/page/h0359zvupc0.html

精神病为什么治不好

百病之源

https://v.qq.com/x/page/o0359x7oy11.html

Tags: myisam

评论(1) 阅读(1602)

思考大表统计的优化策略

2018年9月15日 10:02

前言

以InnoDB表的count()统计为例子

方法一、直接count，全表扫描

* 分析

#一千万条数据count()耗费几十秒，基本不用干活
select count(*) from user

方法二、分段count，全表扫描转变为范围扫描

加上where条件，将全部查询，拆分成多个小范围查询。

#全表扫描
select count(*) from user;

#范围扫描
select count(*) from user where id < 1000000;
select count(*) from user where id>=1000000 and id < 200000;

实际中需要打开多个数据库连接，实际操作不是很好。

当然分表也属于这类方法

* 原理

大问题拆成多个小问题，将压力分散。

* 分析

如果是同一张表，需要打开多个连接(多个进程)

如果分库了，需要连接多个数据库

虽然能减少时间，但是不能减小压力，count()次数多了，系统也得嗝屁

方法三、增加tinyint类型字段并建立二级索引用于统计

二级索引key是索引列,value是主键，一个数据页上可以存储更多数据，减少了分页于页内移动

#加了之后再统计，mysql解析器会自动选择二级索引进行count
select count(*) from user

* 原理

利用二级索引减少io

* 分析

能够减少时间，也能减小io压力，但是时间还是挺长的，我的机器上一千万数据从5秒编成了1秒,1秒还是比较长

假如加上where条件呢,这个方法就用不上了

方法四、维护一张统计表

凡事预则立，不预则废，设计时加一张tablename_stats表(两个字段key,value)，平时就维护好统计数据，增加时加1，删除时减1。

key	value
count	1111
hash值(表名+where条件)	1111

* 原理

提前准备

* 分析

毫无压力，效果完美

需要提前预测好可能的统计以及条件

缺点存在统计数据与实际不一致，在大数据量情况下，也不算什么问题

总结

最终发现还是类似myisam维护一个计数器是最好的方法。

只是我们扩展了功能，加了where条件也提前计数

《了凡四训》详解之改过之法

印光大师十念法（胡小林主讲第1集）

此生必看的科学实验-水知道答案

Tags: 大数据

评论(2) 阅读(1105)

myisam锁表机制

2018年9月15日 06:34

锁表机制

* 锁机制

a.加锁读(共享锁)：不会阻塞读请求(select, insert)，阻塞写(update, delete)请求

b.加锁写(独占锁)：阻塞其它读写(select, delete, insert, update)请求

* 锁耗时多长？

取决于sql耗时。控制好sql耗时，锁表的问题并不大。

测试数据

生成1000万条测试数

表user(id, username, password, age, sex)

存储引擎MyISAM，id建立索引

加锁读,select,insert不阻塞，update,delete阻塞

打开两个客户端

客户端1全表扫描

select * from user

客户端2测试阻塞

select * from user limit 10;    #结果不阻塞

insert into user(username, password, age, sex)
values("aaaaa", "bbbb", 10, 1); #结果不阻塞

update user set username="aaa" where id =90001;  #结果阻塞

delete from user where id =10000006  #结果阻塞

加锁写,select,insert,update,delete都阻塞

客户端1全表扫描写

update set username="aaaaaaa"
where username="不存在的值让sql扫描全表"

客户端2测试阻塞

重复上面select, insert, update, delete结果都阻塞

此生必看的科学实验-水知道答案

《了凡四训》详解之改过之法

印光大师十念法（胡小林主讲第1集）

评论(1) 阅读(1307)

flask自动重连数据库

2018年9月12日 07:43

情况描述

flask部署到服务器后，日志中经常出现错误

sqlalchemy.exc.OperationalError: (pymysql.err.OperationalError) (2006, "MySQL server has gone away (ConnectionResetError(104, 'Connection reset by peer'))")

看下mysql日志，大量的超时导致的连接中断

...
2018-09-10  6:45:41 768 [Warning] Aborted connection 768 to db: 'xxx' user: 'xxx' host: '172.22.0.2' (Got timeout reading communication packets)

问题原因

原因就是因为连接超时，数据库把它中断了，详细参见官方文档.

https://dev.mysql.com/doc/refman/8.0/en/communication-errors.html

起因

查看数据库配置。不要混淆全局配置与会话配置

show global variables like '%timeout%'

connect_timeout      5
interactive_timeout  28800
wait_timeout      600

配置文件my.cnf

connect_timeout         = 5
wait_timeout            = 600

错误复现

mysql错误日志两次中断间隔时间都大于600秒，有可能是该参数引起，将它设置小点看看，能否复现问题

set global wait_timeout=10

设置后，问题又出现了，可以缺点就是该参数引起的。

自动重连实现

无论wait_timeou设置多大，总会出现超时，该怎么避免呢？简单方法是定时重连接.

flask已经提供了重连参数。连接超过一定时间就将它回收。

SQLALCHEMY_POOL_RECYCLE=7200   # 默认2小时。该值一定要比数据库wait_timeout小，否则它不起作用，上面就是这个原因导致的

当然这个方法不会帮我们处理网络异常导致的连接失效时重连

《了凡四训》详解之改过之法

印光大师十念法（胡小林主讲第1集）

此生必看的科学实验-水知道答案

Tags: flask

评论(31) 阅读(5164)

sysbench测试mysql性能瓶颈

2018年9月06日 05:56

前言

任何系统，业务越来越繁忙，最终都会遇到性能瓶颈。能够提前知道系统大概的瓶颈，是很重要的。下面介绍一个测试工具sysbench

安装

yum install sysbench
#下面测试中版本是1.0.9

github

https://github.com/akopytov/sysbench

测试mysql

sysbench --test=/usr/share/sysbench/oltp_insert.lua
--mysql-host=127.0.0.1
--mysql-port=3306
--mysql-user=root
--mysql-password=111111
--mysql-db=mytest
--db-driver=mysql  prepare

* 参数选项

--test 指定测试所用lua脚本
--mysql-host
--mysql-port
--mysql-user
--mysql-password
--mysql-db
--db-driver=mysql  #指定db类型
prepare 测试前准备工作
run 正式测试
cleanup 测试后删掉测试数据

* lua脚本的参数选项

详细参数看lua脚本/usr/share/sysbench/oltp_common.lua

下面是常用参数

--mysql_storage_engine=innodb   #表引擎
--table_size=10000              #表大小
--tables=10                     #表数量

《了凡四训》详解之改过之法

印光大师十念法（胡小林主讲第1集）

此生必看的科学实验-水知道答案

Tags: sysbench

评论(0) 阅读(1874)

快速生成千万条mysql数据

2018年9月06日 05:33

目的

学习、测试mysql大数据场景，需要先生成大量数据。

思路

mysql官方文档说得很清楚。"load data infile"导入数据比insert要快20倍。所以我们先生成一千万条数据的文件。

然后将数据导入表中。

## 生成数据

假如有个用户表(id, username,password, age, sex)，id是自动增长，我们现在需要生成username等信息

生成一千万条数据，速度还能接受，耗时236秒，文件大小315M。

import string
import random

def random_str(length=1):
    template = string.letters + string.digits
    chars = random.sample(template, length)
    return "".join(chars)

def generate_record():
    """
    username/password/age/sex
    """
    length = random.randint(6, 20)
    username = random_str(length)

    length = random.randint(6, 20)
    password = random_str(length)

    age = random.randint(10, 100)
    sex = random.choice([0, 1])
    return [username, password, age, sex]

def create_file(num=10000000):
    with open("user_data.txt", "w") as f:
        for i in range(num):
            row = generate_record()
            f.write(",".join(map(str, row))+"\n")

if __name__ == '__main__':
    import datetime
    start = datetime.datetime.now()
    create_file()
    end = datetime.datetime.now()
    cost = (end -start).total_seconds()
    print("cost: %s" % cost)
#一千万条,耗时236s,文件315M

导入

load data infile命令有安全限制，最好是把数据拿到mysql server端，再通过mysql -uxxx -pxxx进入命令，再导入。

我的虚拟机导入耗时57秒

load data infile "/user_data.txt" into table user
fields terminated by ','
lines terminated by '\n'
(username, password, age, sex);

其它方式

测试工具sysbench

sysbench是批量insert，性能比不上导入。但是它更接近实际场景

存储过程

速度很快，但是不如用熟悉的脚本方便

此生必看的科学实验-水知道答案

《了凡四训》详解之改过之法

印光大师十念法（胡小林主讲第1集）