How to Generate a dataset based on mean, median, 1st & 9th decile values?

Question

I have the following values that describe a dataset: I need to generate any datasets that will fit these values. All the examples I found require you to have the standard deviation which I don't. How this can be done? Thanks! Answer Interesting question! Based on Scott's suggestions I gave it a quick try. Inputs: The Function: Comparaison: Output: Getting

Accepted Answer

Interesting question!Based on Scott&#8217;s suggestions I gave it a quick try.Inputs:import randomimport pandas as pdimport numpy as np# fixing the random seedrandom.seed(a=1, version=2)# formating floatspd.options.display.float_format = '{:.1f}'.format# given inputscount = 5388mean = 4173median = 4072lower_percentile = 10lower_percentile_value = 2720upper_percentile = 90upper_percentile_value = 5676max_value = 6325min_value = 2101The Function:def generate_dataset(count, mean, median, lower_percentile, upper_percentile,    lower_percentile_value, upper_percentile_value,    min_value, max_value    ):            # Calculate the number of values that fall within each percentile    p_1_size = int(float(lower_percentile) * float(count) / 100)    p_4_size = int(count - (float(upper_percentile) * float(count) / 100))    p_2_size = int((count / 2) - p_1_size)    p_3_size = int((count / 2) - p_4_size)        # can be used to adjust the mean    mean_adjuster = 5790    # randomly pick values of right size from a range     p_1 = random.choices(range(min_value, lower_percentile_value), k=p_1_size)    p_2 = random.choices(range(lower_percentile_value, median), k=p_2_size)    p_3 = random.choices(range(median, mean_adjuster), k=p_3_size)    p_4 = random.choices(range(upper_percentile_value, max_value), k=p_4_size)        return p_1 + p_2 + p_3 + p_4    dataset = generate_dataset(    count, mean, median, lower_percentile, upper_percentile,    lower_percentile_value, upper_percentile_value, min_value, max_value    )Comparaison:# converting into DataFramedf = pd.DataFrame({"x": dataset})new_count = len(df)new_mean = np.mean(df.x)new_median = np.quantile(df.x, 0.5)new_lower_percentile = np.quantile(df.x, lower_percentile/100)new_upper_percentile = np.quantile(df.x, upper_percentile/100)compare = pd.DataFrame(    {        "value": ["count", "mean", "median", "low_p", "high_p"],        "original": [count, mean, median, lower_percentile_value, upper_percentile_value],        "new":[new_count, new_mean, new_median, new_lower_percentile, new_upper_percentile]    })print(compare)Output:   value  original    new0   count      5388 5388.01    mean      4173 4173.42  median      4072 4072.53   low_p      2720 2720.44  high_p      5676 5743.0Getting the values to be exactly equal is a bit tricky when all your values are integers and not floats..You can add another variable to control the mean with two numbers or change the random seed and see if you can get a closer values. Alternatively, you can write a function that changes the seed until the values are equal. (might take couple of minutes or couple of centuries:)Cheers!

Advertisement

Answer