您的位置：首页 > 其它

TensorFlow技术解析与实战 8 第一个tensorflow程序

2017-12-16 20:47 357 查看

TensorFlow的运行方式分如下4步：

（1）加载数据及定义超参数

（2）构建网络

（3）训练模型

（4）评估模型和进行预测

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import tensorflow as tf
import numpy as np

# y = x^2 - 0.5

# 生成及加载数据
x_data = np.linspace(-1, 1, 300)[:, np.newaxis]  #构建了300个点
noise = np.random.normal(0, 0.05, x_data.shape)  #加入一些噪声点
y_data = np.square(x_data) - 0.5 + noise

xs = tf.placeholder(tf.float32, [None, 1])
ys = tf.placeholder(tf.float32, [None, 1])

# 构建网络模型
# y = weights*x + biases
def add_layer(inputs, in_size, out_size, activation_function=None):
weights = tf.Variable(tf.random_normal([in_size, out_size]))  # in_size * out_size 大小的矩阵
biases = tf.Variable(tf.zeros([1, out_size]) + 0.1)  # 1 X out_size 的矩阵
Wx_plus_b = tf.matmul(inputs, weights) + biases  # 矩阵相乘
if activation_function is None:
outputs = Wx_plus_b
else:
outputs = activation_function(Wx_plus_b)
return outputs

# 构建隐藏层，假设隐藏层有10个神经元
h1 = add_layer(xs, 1, 20, activation_function=tf.nn.relu)
# 构建输出层，假设输出层和输入层一样，有1个神经元
prediction = add_layer(h1, 20, 1, activation_function=None)

# 计算预测值和真实值间的误差
loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys - prediction), reduction_indices=[1]))
train_step = tf.train.GradientDescentOptimizer(0.1).minimize(loss)

# 训练模型
init = tf.global_variables_initializer()   #初始化所有变量
sess = tf.Session()
sess.run(init)
for i in range(1000):
sess.run(train_step, feed_dict={xs:x_data, ys:y_data})
if i % 50 == 0:
print(sess.run(loss, feed_dict={xs:x_data, ys:y_data}))

8.2 超参数的设定

所谓超参数就是指机器学习模型里的框架参数。与权重参数不同的是，它是需要手动设定、不断试错的。

学习率是一个最常设定的超参数。学习率设置得越大，训练时间越短，速度越快；而学习率设置得越小，训练准确度越高。那么，如何确定一个比较好的学习率呢？只能通过实验的方法。例如，先设置0.01，观察损失值的变化，然后尝试0.001、0.0001，最终确定一个比较合适的学习率。

我们也可以设置可变的学习率。那么，怎样才算是准确率不再提高，应该停止训练了呢？例如，在训练过程中记录最佳的准确率，在连续n轮没有达到最佳的准确率时，便可以认为准确率不再提高，就可以停止训练，称为“early stopping”，这个策略叫做“no-improvement-in-n”规则（例如，我们设置连续10轮准确率不再变动，就认为不再提高）此时，让学习率减半；下次满足是，再让学习率减半。这样，在逐渐解决最优解时，我们的学习率越来越小，准确率就越来越高。

  mini-batch大小是另一个最常设定的超参数。每批大小决定了权重的更新规则。例如，大小为32时，就是把32个样本的梯度全部计算完，然后求平均值，去更新权重。批次越小训练的速度就慢。那么，如何选择批次大小呢》也需要结合机器的硬件性能以及数据集的大小来设定。

  正则项系数是另一个常用的超参数。但是，设定没有太多可遵循的规则，一般凭经验。一般来说，如果在较复杂的网络发现出现了明显的过拟合（在训练数据准确率很高但测试数据准确率反而下降），可以考虑增加此项。初学者可以一开始设置为0，然后确定好一个比较好的学习率后，再给lamda一个值，随后根据准确率再进行精细调整。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航