Compte tenu des données de la semaine 1 et de la semaine 2, j'essaie de former un modèle pour prédire les données de la semaine 3.

Le libellé cible est appelé cible .

Je ne sais pas quelles fonctionnalités correctes devraient être utilisées pour entraîner le modèle étant donné que ce problème examine une action historique d'un utilisateur pour prédire son action future

Données de train

id,date,week_day,target
1,2019-01-01,1,10
1,2019-01-02,2,6
1,2019-01-03,3,7
2,2019-01-01,1,8
2,2019-01-02,1,5
2,2019-01-03,1,4

Données de test (voir date future)

id,date,week_day,target
1,2019-01-10,1,15
1,2019-01-11,2,13
1,2019-01-12,3,8
2,2019-01-10,1,7
2,2019-01-11,1,7
2,2019-01-12,1,4

1) Je me demande s'il est correct de conserver l'identifiant comme fonction dans les données d'entraînement? Je sais que la plupart des problèmes de ML ne conservent pas le champ id, mais ce problème est un peu différent du fait que le même champ id est utilisé dans l'ensemble de données de test.

2) Je prévois de supprimer le champ de date

0
jxn 26 janv. 2019 à 14:07

3 réponses

Meilleure réponse

Il semble que votre problème puisse être considéré comme une prévision de séries chronologiques. Vous avez une saisonnalité dans vos données. Au lieu d'effectuer une régression, vous pouvez essayer un algorithme tel que sarima

1
Pierre S. 26 janv. 2019 à 11:26

Vos données ont beaucoup trop de fonctionnalités, vous pouvez essayer plusieurs modèles comme Sarima comme suggéré par Pierre, mais avec seulement ces fonctionnalités que vous pourriez avoir du mal, je vous suggère d'essayer de tracer une matrice de corrélation et de voir s'il existe une co-relation entre Entrées et sorties, s'il n'y a pas de modèle qui peut vous aider, s'il y a une co-relation entre des entités, alors seul un modèle pourra apprendre cette co-relation et généraliser.

Ce lien peut être utile si vous ne savez pas comment tracer une matrice de co-relation https: / /seaborn.pydata.org/examples/many_pairwise_correlations.html

Ce lien peut vous aider à comprendre la matrice de co-relation si vous ne les connaissez pas https://machinelearningmastery.com/how -utiliser-la-corrélation-pour-comprendre-la-relation-entre-variables /

Si vous ne parvenez pas à comprendre quelque chose à partir des liens, n'hésitez pas à commenter.

0
anand_v.singh 26 janv. 2019 à 12:37

1) Je me demande s'il est correct de conserver l'identifiant comme fonction dans les données d'entraînement? Je sais que la plupart des problèmes de ML ne conservent pas le champ id, mais ce problème est un peu différent du fait que le même champ id est utilisé dans l'ensemble de données de test.

Comme je le vois, vous avez deux types de dates pour le même id (dans les ensembles de train et de test). Donc, si ceci id représente quelque chose en rapport avec la cible, gardez-le. Sinon, laissez tomber.

2) Je prévois de supprimer le champ de date

Et vous perdrez l'année, les mois, le numéro de semaine, le numéro de jour, la marque de jour de vacances comme caractéristiques possibles.

En plus de SARIMA, je peux vous conseiller d'essayer d'adapter un modèle de régression ici. Parfois, ils travaillent dans des tâches de type série chronologique.

1
avchauzov 28 janv. 2019 à 07:36