0%

LaTex论文模板

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
\documentclass{ctexart}%中文
\pagestyle{empty}%去掉页眉
\usepackage{graphicx}%插图
\begin{document}
%封面
\begin{flushright}
{\Large 分\hspace{2cm}数}:\underline{\quad\qquad\qquad}
\vskip 0.5cm
{\Large 任课教师签字}:\underline{\quad\qquad\qquad}
\end{flushright}
\begin{center}
\quad \\
\quad \\
\heiti \fontsize{30}{17} 华\quad 北\quad 电\quad 力\quad 大\quad 学\quad 研\quad 究\quad 生\quad 结\quad 课\quad 作\quad 业
\vskip 6cm
%\heiti \zihao{2} 在此打印论文题目,二号黑体
\end{center}
\vskip 3cm
\begin{quotation}
\songti \fontsize{15}{15}
\par\setlength\parindent{8em}
\quad

学\hspace{0.2cm} 年\hspace{0.2cm}学\hspace{0.2cm}期:\underline{{\Large 2019-2020}学年第二学期}
\vskip 0.5cm
课\hspace{0.2cm} 程\hspace{0.2cm}名\hspace{0.2cm}称:\underline{数据仓库与数据挖掘\qquad}
\vskip 0.5cm
学\hspace{0.2cm} 生\hspace{0.1cm} 姓\hspace{0.1cm} 名:\underline{\qquad\qquad\qquad 肖雄\qquad\qquad\qquad }
\vskip 0.5cm
学\hspace{1.7cm} 号:\underline{\quad\qquad {\Large 2192221067}\qquad\qquad\quad}
\vskip 0.5cm
提\hspace{0.3cm}交\hspace{0.3cm}时\hspace{0.2cm}间:\underline{\qquad {\Large 2020}年{\Large 06}月{\Large 15}日\qquad}
\vskip 2cm
\centering
\end{quotation}
\title{逻辑回归分类预测的分析与应用}
\date{}
\maketitle

%中文摘要
\begin{abstract}
基于逻辑回归模型,对二分类问题进行分类预测;通过sklearn逻辑回归库与梯度下降算法实现做对比;并分别采用留一法与十折交叉验证法对Iris数据集和Blood Transfusion Service Center数据集进行分类;实验结果表明,留一法与十折交叉验证法精度相差不大,但十折交叉验证更加高效。
\newline%另起一行

\centering%使得关键字居中
\textbf{关键字:}逻辑回归,梯度下降,留一法,十折交叉验证法
\end{abstract}
%英文摘要
\newcommand{\enabstractname}{Abstract}
\newenvironment{enabstract}{%
\par\small
\noindent\mbox{}\hfill{\bfseries \enabstractname}\hfill\mbox{}\par
\vskip 2.5ex}{\par\vskip 2.5ex}
\begin{enabstract}
Based on logistic regression model, the classification prediction of dichotomy problem is carried out.The sklearn logistic regression library is compared with the implementation of gradient descent algorithm.And one method and one thousand one hundred percent cross validation method were used respectively to Iris data set and Blood Transfusion Service Center data set classification;The experimental results show that the accuracy of the retention method is not different from that of the ten fold cross validation method, but the ten fold cross validation method is more efficient.

\centering
\textbf{Keywords:} Logistic regression, gradient descent, retention method, ten fold cross validation
\end{enabstract}

\section{引言}
随着信息化社会的高速发展,信息多元化成为主要发展模式。人们使用更多的特征属性描述数据信息,通常某一数据记录使用成千上万的特征描述。在数据挖掘领域中,有众多算法模型对数据进行特征提取分类,针对不同的评估方法,对模型的要求和测试的结果也不一样,逻辑回归模型作为一种高效、易实现的模型应用十分广泛。本文基于逻辑回归模型分别用sklearn逻辑回归库和梯度下降实现二分类问题;对留一法和十折交叉验证法分别评估做比较。实验结果表明,十折交叉验证法在满足精度的同一条件下,耗时更小。
\section{逻辑回归模型}
逻辑回归是比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等\cite{1}。逻辑回归延伸了多元线性回归思想,即因变量是二值的情形,自变量为$x_{1}$,$x_{2}$,$x_{3}$,…,$x_{k}$。逻辑回归是用来测量分类结果与因变量之间的关系。逻辑回归模型的最终结果为0,1分类结果。其中1表示属于该类,0表示不属于该类别。
\par{一般线性模型:}$$f(x)=\omega_{1}x_{1}+\omega_{2}x_{2}…+\omega_{d}x_{d}+b$$
\par{其中$x_{1}...x_{d}$表示d个特征属性值,$\omega_{1}...\omega_{d},b$表示特征属性参数值。用向量简化为:$$f(x)={\omega}x^T+b$$}
\par{也可表示为:$$f(x)={\beta}\hat{x}^T$$}
\par{其中$\beta=({\omega};b)$,$\hat{x}=(x;1)$,线性回归只能预测连续的值,对于离散的二分类问题需要转化为逻辑回归,即将线性结果映射到\{0,1\}上:$$\ln\frac{f(x)}{1-f(x)}={\beta}\hat{x}^T$$}
\par{因此,逻辑回归又称为对数几率回归:$$f(x)=\frac{1}{1+e^{-\beta\hat{x}^T}}$$}
\par{对于逻辑回归模型,关键在于如何求得$\beta$的值,最常用的方法就是梯度下降法。}
%文献索引
\cite{2}
\section{梯度下降}
梯度下降法是求解无约束优化问题的方法之一,有计算过程简单、初始收敛较快等优点,因此也常作为其他算法的核心算法,例如人工神经网络和逻辑回归,广泛应用于数据挖掘、模式识别等领域\cite{3}。
\par{对于一阶无约束优化问题$min_{x}f(x)$,若能找到$x^{0},x^{1},x^{2}...$满足:$$f(x^{t+1})<f(x^{t}),t=0,1,2...$$}
\par{不断执行此过程可收敛到局部极小点,根据泰勒展开式:$$f(x+\Delta x)\approx f(x)+\Delta x\nabla f(x)$$}
\par{于是,欲满足$f(x+\Delta x)<f(x)$,可选择$$\Delta x=-\gamma\nabla f(x)$$}
\par{其中$\gamma$是小常数。这就是梯度下降}\cite{4}。
\par{在逻辑回归模型中,可通过极大似然法来估计$\beta$的值\cite{5}:$$\psi(\beta)=\sum_{i=1}^{m}(y_{i}p(y=1|\beta\hat{x}^T_{i})+(1-y_{i})p(y=0|\beta\hat{x}^T_{i}))=\sum_{i=1}^{m}(y_{i}\beta\hat{x}^T_{i}-ln(1+e^{\beta\hat{x}^T_{i}}))$$}
\par{该函数为连续可导凸函数,因此可采用梯度下降来求解,因此将上式转化为最小化:$$\psi(\beta)=\sum_{i=1}^{m}(-y_{i}\beta\hat{x}^T_{i}+ln(1+e^{\beta\hat{x}^T_{i}}))$$}
\par{迭代过程:$$\beta^{t+1}=\beta^{t}-\gamma\nabla \psi(\beta)$$}
\section{应用}
本文使用文献2中西瓜数据集$3.0\alpha$,分布情况如图\ref{fig:xigua}
\begin{figure}[h]
\centering
\includegraphics[width=0.7\linewidth]{1}
\caption{西瓜数据集$3.0\alpha$散点图\label{fig:xigua}}
\label{fig:1}
\end{figure}
\par{特征属性为密度和含糖量,样本标签“1”表示好瓜,“0”表示坏瓜;使用留出法选择相同的训练集和测试集,通过sklearn逻辑回归库和批量梯度下降法分别进行分类训练和测试,其中梯度下降设置固定步长为0.1,在迭代15000次后趋于稳定,如图\ref{fig:diedai}}
\begin{figure}
\centering
\includegraphics[width=0.7\linewidth]{2}
\caption{批量梯度下降迭代曲线\label{fig:diedai}}
\label{fig:2}
\end{figure}。
\par{经测试两者精度相差不大,测试结果如下表:}
\par{}
%表格
\begin{tabular}{|c|c|}
\hline
方法&精度 \\
\hline
sklearn逻辑回归库&67\% \\
\hline
批量梯度下降法&66.67\% \\
\hline
\end{tabular}
\par{考虑到该数据样本过小,使用留出法拟合效果一般,因此在UCI选择Iris数据集和Blood Transfusion Service Center数据集,同样以逻辑回归模型分别对留一法和十折交叉验证法评估做比较,结果如下:}
\par{}
\begin{tabular}{|c|c|c|}
\hline
数据集&留一法&十折交叉验证法 \\
\hline
Iris&96.66\%&97.33\%\\
\hline
Blood Transfusion Service Center&76.87\%&77.01\%\\
\hline
\end{tabular}
\par{Iris数据集因为数据类间分散情况比较好,广泛被引用,因此拟合效果比Blood Transfusion Service Center数据集要好,从图\ref{fig:i},\ref{fig:t}就能看出:}
\begin{figure}
\centering
\includegraphics[width=0.7\linewidth]{i}
\caption{Iris数据集散点图\label{fig:i}}
\label{fig:i}
\end{figure}
\begin{figure}
\centering
\includegraphics[width=0.7\linewidth]{t}
\caption{Blood Transfusion Service Center数据集散点图\label{fig:t}}
\label{fig:t}
\end{figure}


\par{实验结果表明,留一法和十折交叉验证法的精度相差不大。值得注意的是,十折交叉验证更加高效,耗时更少,对于数据量越大,这种现象越明显。因此选择十折交叉验证即可满足精度要求,又减少运行成本。}
\section{总结}
逻辑回归对于二分类问题,不仅将预测值映射到$\{0,1\}$之间的值,而且还能评估出概率值,这使得在许多领域都具有广泛的应用。一个好的模型通常是由测试结果来判定,因此对训练集、测试集进行划分的评估方法起着决定性作用,本文对留一法和十折交叉验证法评估结果比较,结果显示在数据量足够的情况,选择十折交叉验证法更加高效。


\begin{thebibliography}{}
\bibitem{1}毛林,陆全华,程涛.\emph{基于高维数据的集成逻辑回归分类算法的研究与应用[J]},
\texttt{科技通报,2013,29(12):64-66}
\bibitem{2}周志华.\emph{机器学习[M]},
\texttt{2016:53-59}
\bibitem{3}郭跃东,宋旭东.\emph{梯度下降法的分析和改进[J]},
\texttt{科技展望,2016,26(15):115+117}
\bibitem{4}周志华.\emph{机器学习[M]},
\texttt{2016:407-408}
\bibitem{5}周志华.\emph{机器学习[M]},
\texttt{2016:59-60}
\end{thebibliography}

\end{document}