想做一个数据采集型的网站。服务器内存4GB。计划给数据库划分2个GB,my.cnf对应设置,余下的得给apache,crond,mail等linux其他日常应用。
粗略设计表有15个字段
3个int
2个text
其余10个都是varchar
插入时间,url地址,页面标题,页面简介,作者名字 都加上index索引
(PS:url本来想加上unique索引,但是一般url的长度都会超过unique的设计量,所以加上普通索引)
每分钟insert/update约100条(自动程序队列写入),不算多吧。但是insert之前需要查询能否数据表已经存在?
粗略设计表有15个字段
3个int
2个text
其余10个都是varchar
插入时间,url地址,页面标题,页面简介,作者名字 都加上index索引
(PS:url本来想加上unique索引,但是一般url的长度都会超过unique的设计量,所以加上普通索引)
每分钟insert/update约100条(自动程序队列写入),不算多吧。但是insert之前需要查询能否数据表已经存在?
insert into table (field1,field2...field15) SELECT "",""..."" FROM dual WHERE not exists (select url from table where url="")
同时该数据表还要承受网站客户端的正常查询。每分钟至少100次query。(此外违反政策的内容还需经常人工或队列删除)
选innodb的话,插入时是行锁,但是insert into FROM dual WHERE not exists,会不会变成表锁?此外每行记录都应有唯一的id号区分,innodb对auto increase的支持不是很好吧?
选myisam的话,随便怎样都是表锁,但是对auto increase支持很好。
假如分表 id url 设为myisam(id自增),其他字段设置为innodb(id关联),有没有改善?
按照经验,表体积小的时候(10W行以下)选什么都没关系,但是考虑到日积月累的问题,假如1百万行,1千万W行,上亿行了,insert into FROM dual WHERE not exists将严重影响效率,甚至的还会造成表的overhead,导致数据表崩溃。
个人经验有限,还是请高手支招。MYSQL能否适合这种情况的高并发频繁读写?
假如可行,具体数据表该怎么设计,my.cnf怎么样设置合理?
假如不可行,该选择哪种数据库?Sphinx,PostgreSQL,Lucene,solr,mongodb…(这些都没玩过,2GB内存是不是跑的动?)
谢谢大家。
解决方案