Хранение сотен миллионов записей

Что относительно Google App Engine? Это не причал, настолько возможно, который обреченное на неудачу для Вас, но у них действительно есть и Python и Java как доступные среды. Ваша ежегодная стоимость зависела бы от использования, но после того как Вы позволяете способности быть тарифицированной, а не просто чистый свободный режим, они действительно повышают "свободные" пределы. В этом могло бы стоить зарегистрироваться.

1
задан 9 September 2010 в 01:30
2 ответа

Мой опыт в наборах данных того размера ограничен MSSQL, но он может наиболее определенно обработать данные того размера.

Мое первое беспокойство является размером данных. 300 миллионов записей на уровне 150 ГБ составляют приблизительно 500 КБ за строку - и это - большая строка. Очень, очень большая строка. Если можно нормализовать к 3-й нормальной форме затем, это могло бы помочь существенно (предполагающий, что существуют данные, которые могут быть нормализованы). Если Вы не собираетесь нормализовать (и просто иметь единственную, крупную таблицу), то механизм, который поддерживает ISAM, будет быстрее, чем RDBMS, таким образом, MySQL в режиме ISAM является очевидным выбором по MSSQL (извините, у меня нет опыта с Postgre или монго),

Тем не менее MSSQL может обработать таблицу того размера никакие заботы. Это может разделить данные так, чтобы различные части жили на различных дисках, таким образом, Вы могли сохранить Вас 1% обновленные данные по быстрому диску и сохранить остальных на более медленном диске, если бюджет является беспокойством. Если Ваш DBMS выбора поддерживает это затем, это мог бы быть мудрый способ пойти.

Только для ссылки, я когда-то управлял базой данных, которая имела приблизительно 200 миллионов строк в единственной таблице (но таблица составляла только 20 ГБ в размере), и с некоторой умной индексацией времена запроса все еще измерялись в миллисекундах. Это было нормализовано к 3-й нормальной форме, таким образом, было много LOJ's для получения связанных данных также.

1
ответ дан 4 December 2019 в 01:57

Большинство баз данных может легко управлять устройством хранения данных такого большого объема, оно действительно зависит от того, что Вы хотите сделать с данными, после того как у Вас есть загруженный. Действительно ли это является транзакционным, таким образом, это будет запрошено и часто обновляться? Или это больше для создания отчетов только с новой информацией, прибывающей в каждый день из системы обработки транзакций?

0
ответ дан 4 December 2019 в 01:57

Теги

Похожие вопросы